2009-03-09

以電腦挖掘數百萬種隱喻

Researchers mine millions of metaphors through computer-based techniques
http://www.physorg.com/news155311912.html

By Lisa M. Krieger, March 3rd, 2009

聖荷西水星報 -- 隱喻(Metaphors)無法教導,偉大的哲學家亞里斯多德(Aristotle)如此斷言。"那是一種無法從他人那裡學來的東西。" 不過一位電腦科學家與文學史家說,他錯了!

在一個始於史丹佛大學的計畫中,研究者正教導電腦如何分析從柏拉圖(Plato)到品瓊(Pynchon,品欽、聘瓊,後現代主義)的文字,挖掘(mining)數百萬個抽象的片語。(隱喻說法。)

他們正建構一個浩瀚的、可搜尋的資料庫,使得瀏覽自古代荷馬史詩到後現代網際龐克(cyberpunk)小說,以及其間一切事物之單字用法的歷史模式成為可能 -- 例如,"rose" 與 "love"。

"身為一種工具,它提供一種真正強大的、立即考慮許多文學作品的方法," 英國文學教授 Brad Pasanek 表示,他與老友,以及電腦科學家 D. Sculley 共同參與該計畫。

這項研究標記著有形的、德國語言學家 Harald Weinrich 所謂的隱喻領域(metaphoric field)。"Pasanek 的資料庫是第一個我們真的能夠看見並使用的「隱喻領域」," Franco Moretti 說,史丹佛一位比較文學教授。"那為一種勇敢的、但未曾全然完整的概念提供了經驗主義的證據。"

這種研究文學的方法,能不可思議的回到公元前約 300 年,例如,那時後亞里斯多德寫下:"到目前為止最偉大的事,是成為一位隱語大師," 這樣的言語可與表面上看似無關的主題 -- 一種「高尚的思想(winged thought)」進行比較。

但二種新趨勢已創造出一種基於電腦的文學研究領域,成為一種新興學科的一部份,稱為「數位人文學科(digital humanities)」,一種運算(computing)以及語言、歷史、哲學與宗教的交叉點。

數位化的圖書館將大量的書籍 -- 包括晦澀的那些 -- 擺在讀者的指尖。利用新的資料挖掘(data mining,資料採礦)與「機器學習(machine learning)」技術,研究者能搜尋包含在那些書籍中的數百萬個字,以研究這些單字如何被使用的微妙轉變。分析這些模式對於語言 -- 以及文化 -- 如何演變提供了洞見。

當 Pasanek 匆匆翻閱他《傲慢與偏見》的陳舊的副本時,其關鍵片語以明亮的顏色強調,想出這個點子。

在 Elizabeth、Darcy 與 Wickham(譯註:該小說的主角)之間糾葛的故事,"使得那些單字一次又一次的浮現,我領悟到,你能夠匆匆翻閱一本小說,並看見這些主題(motifs)以一種顏色的爆發出現,接著又消失。"

電腦取代了上了色的標記,他說。"是有可能追蹤某樣東西何時與何處現身,它的意義是什麼,以及它如何改變," 他說。

Pasanek 近乎使人著迷的有趣隱喻收集,始於他在史丹佛修他的 Ph.D。首先,他在 Shakespeare、Milton 與 King James Bible(欽定版聖經)等作品的背頁保有一份清單。當清單成長時,他將之移到索引卡片上。

"隱喻是一種基礎的修辭," 他說。"它們顯示我們如何思考,以及我們所思考的如何隨時間而改變。"

理解到他需要協助,史丹佛的電腦科學家 Matt Jockers 幫他創造了一個數位資料庫,那最初在 2005 年發表。這份清單很快增長到 1000 接著 3000 筆資料。不過這份清單的擴張創造出一種特殊的搜尋挑戰。

"隱喻的本質使它不容易被平常那種樣式比對(pattern matching)演算法所偵測," Jockers 說。尋找明喻(simile)是一種相當直接了當的任務:某人寫出一個程式,尋找 "like" 以及 "as" 這類型的文字字串。

"在結構上來說,「my love is a red rose(我的愛是一朵紅玫瑰)」這個片語與「my dog is a blue heeler(我的狗是藍色 heeler,譯註:澳大利亞牛狗的原名)」非常類似," Jockers 說。"前者是隱喻,但後者不是。"

Pasanek 提供隱喻的例子給電腦,並「訓練」機器認得它們。他們寫出程式在可能使用隱喻的單字之間進行 "近似搜尋(proximity searches)"。例如,以 "mind(心智)" 搜尋 100 字元內的 "mint(鑄造、鑄印、薄荷)",結果找到下列 William Cowper 的詩句:「The mind and conduct mutually imprint(心智與行為相互銘印)/And stamp their image in each other's mint(並將其形象留在彼此的鑄印)」。

類似的技術,Sculley 說,用於垃圾郵件辨識軟體中。

在一項計畫中,他們追蹤對於年輕心智(young mind)逐步形成中的參考。在西元前四世紀,那被當成一種「白板(tabula rasa,譯註:空白的石板,指如白紙般的心靈,那時候紙還沒發明)」來談論。到了 17 世紀,John Locke 稱之為「白紙(blank slate),缺乏一切性格」。在 18 世紀本文中,它被比為一隻「可燒烤的長耳大野兔(roasting jack)」,使人想起「一塊肉正在旋轉式烤肉器上旋轉,被火焰燒烤」這幅景象。當工具變化了 -- 石板、紙、旋轉式烤肉器 -- 參照也跟著變。

雖然這裡有其他隱喻資料庫,不過 Pasanek 表示,他的是最大的而且契合思想的歷史。然而這個資料庫(http://mind.textdriven.com)目前仍在 beta 階段,Pasanek 說,他目前在 Charlottesville 的 Virginia 大學教授文學。在更新時,它遭受到他所謂的「bug plagues(臭蟲瘟疫)」。但隨著時間過去,它將會改善並擴展到更大的視野。

"隱喻是一種事業,而且它訴說著一個完整的故事," 他說,"關於我們如何思考自身以及這個世界。"

※ 相關報導:

非破壞壓縮與 AI 獎金?
電腦理解這些字有何意義(?)
Noesis:語義學的科學搜尋引擎

2 則留言:

Hua 提到...

這項研究讚!

fsj 提到...

蛋白質名詞搜尋 許聞廉團隊最棒

◆ 世界比賽得冠軍 蛋白質名詞搜尋 許聞廉團隊最棒

【李宗祐/台北報導】2009-11-09 中國時報

生命科學研究近幾年蓬勃發展,各國科學家每年發表研究論文超過六十萬篇,如何有系統快速分析文獻結果、擬訂研究方向,成為生物學家嚴苛挑戰。中央研究院資訊科學研究所特聘研究員許聞廉領導研究團隊日前參加「國際分子生物文獻探勘競賽」,在強敵環伺下勇奪蛋白質名詞搜尋冠軍。

「國際分子生物文獻探勘競賽」日前在西班牙舉辦,全球十個頂尖團隊參賽,包括上屆冠軍美國亞利桑那州立大學,及日本東京大學和歐洲等。我國研究團隊以超過六成的搜尋準確率贏得冠軍,亞軍團隊只有五成,部分團隊的準確率甚至不到一成。

全球目前收錄美國國家衛生研究院線上資料庫「PubMed」的生命科學研究文獻超過一千八百萬筆,許聞廉表示,競賽主題是要找出所有「蛋白質交互作用」有關文獻。同時,在限定時間內,將大會提供的數百篇研究文獻中提及與「蛋白質交互作用」的有關蛋白質,正確找出對應到資料庫內的「身分證字號」。

這項競賽最大的挑戰在於,蛋白質名稱沒有統一命名方式,且容易與其他生物醫學名詞或是一般英文單字混淆;甚至在不同物種間可能也有同樣蛋白質名稱。以現有搜尋技術搜尋,須耗費時日逐篇瀏覽,才能篩選出具參考價值的文獻報告。

長期投入人工智慧研究的許聞廉分析,我國研究團隊勝出原因,除了系統程式可根據前後文判斷文中出現的蛋白質所指為何,團隊包括資訊科學與生命科學研究人員,互補不足也是重要關鍵,「我們最終的目標是發展出具有人工智慧的google,可以代替人類的智慧。」