人肉搜索全自動的時代來了(抖)

iThome看到的報導,日本KDDI研究所日前發表了一項新的分析技術,
可依據網路上諸如twitter或留言板內的文章,自動分析出發文者的年齡、性別,
甚至是出生地點等基本訊息,且根據KDDI研究所的資料─其準確率甚至可達8成左右!

(以下內容引述自iThome)
…..
…..簡單來說,此技術是利用發文者ID反推過去一定時間內的發文,從中取得相關的關鍵字後進行人物屬性分析。
例如在發文中頻繁出現學校、社團、家庭作業等單字的使用者,被分析為10~19歲學生的機率就很高。
另外也能透過特定的發文習慣、方言等來分析發文者的出身地
…..
…..KDDI研究所以Twitter測試安裝新技術的試作系統,隨機選取1萬個公開個人資料的ID並針對這些人所發表的文章進行分析,
將分析結果與公開的個人資料比對後,在年齡項目驗證出80.2%的正確率,而20~29歲的區塊間分析成效最佳,
正確率達89.5%。另外,性別與出身地的正確率分別為78.3%與72.6%
…..
…..今後這項技術預定投入各項市場分析系統中,它能自動收集網路上口耳相傳的新發售商品意見,
再針對個人年齡性別等進行推斷與分析,推出新產品的企業可藉著這些資訊來客制化或改善產品,
對於電視節目收視分析領域來說也有一定的助益。該技術與試作系統預定於10/5在日本東京舉辦的CEATEC JAPAN 2010中展出,
目前僅支援日文分析
…..

近8成左右的正確率確實滿厲害的,不過這個方法在分析年齡、性別可能很好用,若是猜出生地之類,
似乎感覺就有點粗糙了,像KDDI研究所提供的參考資料所舉的例子”日常のコメントに「梅田」、「なんば」、
「やねん」のような単語が頻繁に見られるユーザは関西に居住していると推定することができます

…..Norman到底不是日本人,滿難想像打字還會有鄉音的 ww
就算功能可能尚不夠精確,但若配合前陣子介紹過的文字探勘軟體”COBRA“,
那麼現在的企業可真是如虎添翼了;不但能第一時間找出將要蔓延的民怨,
甚至還可以快速搜出源頭一定程度的基本資料,準備提告和恐嚇…..
以後在這邊發文,稱謂都改成”朕”、”同志”之類的奇怪詞語,不知能否讓這類東西混淆一些?(誤很大)

嗯,不過要是Norman能親自使用這套工具,我想我第一件去做的,
應該會是去確認那隻(自稱)金髮巨乳眼鏡娘是不是真物….. XD

迴響: 11 則迴響

文章分類:電腦相關

在〈人肉搜索全自動的時代來了(抖)〉中有 11 則留言

  1. 你先摸著記憶棒想想自稱黑色長髮小蘿莉的某人是不是連心靈的記憶棒都失去了再說吧……

  2. 你沒發現自那之後浦木裕先生上浮的機率顯著增加……其實人家也在做語意分析……
    灼熱的視線還好,要是感覺到灼熱的巴比倫塔,我也只能燒三注清香遙祭閣下祝早日超生……
    回題,這個概念其實很古老,《茶花女》裡就提過,很多語言學教授和行為犯罪科語言鑑識小組都有練習這種分析。老問題則跟機械翻譯幾乎一樣,程式很難從文脈去推定語意,再用語意來衡量哪些重要哪些不重要,或是辨識整個句子的意思。因此機械判定難免利用大量raw data統計來彌補分析之不足。所以只要樣本偏離主流,結果就會很離譜。

  3. 不,羅莉完全在守備範圍外…..
    其實看到這篇才注意到有那個留言的

  4. 抱歉,日前祖母過世,所以晚回…..
    >>不,羅莉完全在守備範圍外…..
    >>其實看到這篇才注意到有那個留言的
    所以我現在還很安全,只要小心另一位可怕的紳士就好(轉頭)
    不過沒想到您真的會出現在這討論串,果然有做語意分析….. XD
    >>老問題則跟機械翻譯幾乎一樣,程式很難從文脈去推定語意,
    >>再用語意來衡量哪些重要哪些不重要,或是辨識整個句子的意思。
    >>因此機械判定難免利用大量raw data統計來彌補分析之不足
    這東西觀念確實不是新東西,類似的大量抓取機器亦非新鮮事,
    http://typecurry.pixnet.net/blog/post/14577552
    2年前提到的這篇"無名小站中真實姓名洩露的危機",其實也在做差不多的工作;
    從介紹看起來,KDDI研究所似乎比較著重於"這傢伙所自己說出來的訊息",
    雖然內容互有不同,但不知比起"非自願性姓名洩露"的情況,那邊的策略能挖到比較多東西呢? ww

  5. >抱歉,日前祖母過世,所以晚回…..
    (合掌)
    姓名洩露只是data mining的一種方式,因此挖不出沒上網的資料。但語意分析則包含人格和環境構建,後者要求的分析和推理多很多,但是raw data的需求就降低了,可以釣出實際上不存在於raw data裡的訊息。但是這也只在日本這種2ch匿名大行其道的地方有需求,歐美你直接去挖FB資訊做mining鐵定快很多。

  6. >>但語意分析則包含人格和環境構建,後者要求的分析和推理多很多
    之前看KDDI研究所的參考資料,還不覺得這有做到語意分析的地步,
    似乎只是更仔細的摘取特定範圍關鍵字,並比對設定條件而已;
    但再看一次,似乎如您所言,應該是有做到一定程度的背景推理……
    看來我在本文中的意見有點不太適當了.
    題外:
    http://www.plurk.com/p/7zd9zv
    不曉得您是否有讀過"震撼主義(The Shock Doctrine)"一書,
    其中在第6部分曾對美國將國安外包予Halliburton、Blackwater等公司的狀況,
    做過初步的分析;公司本來目的就是賺錢,為此發生什麼事都不奇怪….. ww

  7. >但語意分析則包含人格和環境構建
    其實只要「原始資訊沒有直接透漏,但分析結果有」就算是有一定程度推理,不管其運算式不是直接用關鍵字比例配上人為設定結果。像是推論年齡這樣。
    >不曉得您是否有讀過"震撼主義(The Shock Doctrine)"一書,
    沒看過……糟糕……
    黑水出名的問題是執行軍事任務卻不受軍事規範限制,亂開槍的比例異常之高,因為人家是去賺錢的,先開槍總比被埋伏好……國防部則是故意利用這些公司降低帳面軍費和軍人死亡數字。然後《路西法效應》也提到CIA濫用私人公司執行審訊,以迴避國內監督,導致整個監獄機制一塌糊塗,因為沒有一個基層軍人知道這些來來往往的傢伙是誰、由哪個單位負責,只知道他們搞出人命卻不負責。

  8. >>黑水出名的問題是執行軍事任務卻不受軍事規範限制,亂開槍的比例異常之高,
    >>因為人家是去賺錢的,先開槍總比被埋伏好……
    在伊拉克本土,取代部份警察職務的保全承包商也有類似的問題,
    一方面公司本來就是利益導向,另一方面他們並不對伊拉克人民負責;
    更慘的是為了引入承包商而輕率解散、販賣公部門的臨時政府,
    一如陸戰隊上校Hammes所言:"現在你搞出幾十萬個擁有武器的人,
    這些人知道怎麼使用武器、前途茫茫、又有理由對你生氣"
    >>國防部則是故意利用這些公司降低帳面軍費和軍人死亡數字
    根據"震撼主義"提供的資料之一,美國新成立的國土安全部自2001年9月11日,
    到2006年間就花了1300億美元在民間包商上,而這在過去是完全不應存在的,
    帳面軍費果然是低了,不過也只是因為帳面不寫軍費而已….. ww
    >>然後《路西法效應》也提到CIA濫用私人公司執行審訊,以迴避國內監督,
    >>導致整個監獄機制一塌糊塗
    書中看到了一個有趣的例子,是關於保全包商Custer Battles的判決,
    該公司因向臨時政府詐欺數百萬美元而被起訴;但因布希政府已豁免在伊拉克經營的公司,
    不受伊拉克法律約束,而伊拉克臨時政府又非美國政府的一部份,
    美國法律不管轄;因此獲得了對公司有利的判決(實際結果如何沒寫,可能官司還沒打完)
    …..怪不得要有關塔那摩灣監獄了,當地不管、我也不管,要怎麼逼供都沒問題.

  9. 國土安全部其實也是一個什麼都參一腳的單位……CSI裡就出現過他們的諜報員。而且這樣帳就不會記在國防部頭上,也容易在審預算時藏到奇怪的項目裡……
    《路西法效應》裡批評布希政府刻意利用第三國監獄、民間承包商,迴避日內瓦公約進行非法刑求,或是依據「史丹佛監獄實驗」建立的壓力理論,營造出易對人犯產生壓力或失控的監獄機制。

  10. >>國土安全部其實也是一個什麼都參一腳的單位……CSI裡就出現過他們的諜報員
    我對美國的行政不甚了解,每次在電影等媒體中看到國土安全部,
    都不曉得這是在做什麼的,裡面的人感覺又像FBI又像士兵,組織名又很國防部….. ww
    >>《路西法效應》裡批評布希政府刻意利用第三國監獄、民間承包商,
    >>迴避日內瓦公約進行非法刑求,或是依據「史丹佛監獄實驗」建立的壓力理論,
    >>營造出易對人犯產生壓力或失控的監獄機制
    尤其從Zimbardo的觀點,這些機制又正好再進一步的催化虐囚行為的產生…..
    現在連書都不用發,政府就已經幫每個人在心中放本Kubark手冊了.

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料