2009-02-11

Noesis:語義學的科學搜尋引擎

Tropical cyclone or ISU Cyclone? Semantic science search engine knows that there is a difference
http://www.physorg.com/news152984304.html

February 4th, 2009

(PhysOrg.com) -- 每個曾用過某個主要網際網路搜尋引擎的人,幾乎都有相同的經驗:搜尋「Dodge convertible(道奇汽車旗下的開篷車)」並在 0.16 秒後你得到 430 萬個連到 dodge ball(躲避球)、Dodge City(美國城市名、一款多人卡片遊戲)、convertible debt instruments(可轉換債務證券)等網頁的連結。

Noesis(譯註:能思,屬哲學中的現象學 (phenomenology),指意識活動,所思 (Noema) 則為所意識的對象,簡言之,現象學探討「在我的意識中,現象對我所顯現的意義」),是一款新的語義網(semantic web)搜尋引擎,Alabama 大學 Huntsville 分校(UAHuntsville)所開發。它不會幫你找到完美的 Charger ragtop(道奇的敞篷車)而是幫忙研究環境的科學家擷取所需的研究資料。它有潛力幫助其他眾多領域中的科學家或研究者完成更精準與更有成效的搜尋

"這是第一套語義學的科學搜尋工具,首度有像這樣的東西被用於科學," Dr. Rahul Ramachandran 說,UAHuntsville 資訊技術與系統中心的研究科學家。

Noesis 以特定學科之語義「本體論」(semantic "ontology",譯註:本體論屬哲學中形上學底下的分支),或知識基準(knowledge base,知識庫)來取代絕大部份搜尋引擎所使用的單純單字-或-片語匹配搜尋。

例如,使用 Noesis 進行「Mobile Bay sea grass」的水生植物搜尋時也許能獲得額外術語的清單,基於分類學、位置或水域類型使搜尋的範圍縮小,並將提供 sea grass mats(海草叢、海草蓆)、oils(油)與 lotions(化妝水),那讓你的皮膚滑順,的網站給濾除。

在本體論中的術語學與術語之間的結構均幫助 Noesis 將搜尋結果縮小為與特定研究領域相關的項目。演算法或許不理解(understand) tropical cyclone(熱帶氣旋)與 Iowa State Cyclone(愛荷華州大的橄欖球隊)之間的差異,不過它將能識別(recognize)這裡有所不同。

"建立本體論並不是一件無意義的任務," Ramachandran 說。"通常你會讓專家聚在一起,他們接著爭論與決定該包含哪些概念與資訊,以及它如何組織。我們將其編碼,故我們的系統能取得並利用它。"

當它窄化搜尋術語時,Noesis 也透過添加不常包含在網頁搜尋中的資料組與科學刊物來擴大搜尋。

"在這裡你得要為特定領域配置某些東西,諸如科學期刊與主要的資料目錄," Ramachandran 說。"那很快就複雜化。"

即便在科學的圈子中,語義學搜尋都具備優勢:"在某些資料組中,它們也許將某一組讀數指涉為溫度,而其他地方也許使用海平面溫度(SST)。在一般的搜尋引擎中,如果你找的是其他的,你將看不到這一個。我們所擁有的是,本體論已幫你完成所有的匹配了。"

雖然使用 Noesis 系統的前三個計畫都與氣象學或環境科學相關,但 Ramachandran 表示,該系統也能應用在任何科學分支或研究上。

"除了本體論外,一切事物都一樣," 他說。"它能為不同計畫配置不同領域。未來的希望是,這些小本體論將有所成長。"

※ 這部份應該也是 Google 的主力。相關報導:

* NOESIS
http://noesis.itsc.uah.edu/home.html

* Noesis: A Semantic Search Engine and Resource Aggregator for Atmospheric Science
http://esto.nasa.gov/conferences/nstc2007/papers/Ramachandran_Rahul_A3P4_NSTC-07-0084.pdf

電腦理解這些字有何意義(?)
數位通訊技術協助釐清個人化治療途徑
新計算技術讓基因組的比對更加容易
線上研究刊物:太多是件好事嗎?
非關正確─我這麼說,因為我知道

1 則留言:

fsj 提到...

天下為公的數位資料
http://mag.udn.com/mag/newsstand/storypage.jsp?f_MAIN_ID=77&f_SUB_ID=1058&f_ART_ID=176718

就數位研究共享架構而言,與其建置新入口網站,還不如公開標準化的資料。科學家透過基因組學、感應器和其他科技創造了許多數位研究資料。數量之多,必須要有基礎建設才能使用、保存這些資料或另作他用。

知識通訊評論 2009/02/13

就數位研究共享架構而言,與其建置新入口網站,還不如公開標準化的資料。

科學家透過基因組學、感應器和其他科技創造了許多數位研究資料。數量之多,必須要有基礎建設才能使用、保存這些資料或另作他用。類似這樣的計畫已經展開,包括經費一億美元,為期五年的美國國家科學基金會 DataNet 計畫,以及歐洲永久近用聯盟 (Europe's Alliance for Permanent Access)。但是政府和私部門之間的責任如何劃分呢?

去年十二月份一連串的事件顯示這個議題的複雜程度。其中一例就是亞馬遜書店的創新計畫:免費管理大筆科學資料,目前已有基因銀行( GenBank) 和其他廣受使用的基因序列和化學結構資料庫。

亞馬遜此舉並非完全沒有自身利益考量。雖然研究人員能夠下載資料到自己的電腦上,但該公司估計許多人會想使用「雲端計算」技術。這種技術能利用亞馬遜公司強大的伺服器架構來處理資料,而且是以隨用隨付方式計費。

這樣的服務讓研究人員受獲匪淺。亞馬遜在網路世界建立了科學資料的永久空間,如此能夠解決以往一些資料庫的問題,例如研究經費用罄而無法維護資料庫。雲端計算技術不僅能讓小型實驗室不用再負擔維持資料庫的成本,也能讓多樣的學術社群共享資料和分析工具。

然而同樣在去年十二月,另一件事也顯示了只倚賴某個公私立部門來建立這種架構的風險。Google 宣佈放棄先前計畫,不再免費管理大筆科學資料,顯然是受到景氣的波及。歐盟十一月與研究機構、圖書館和博物館合作推出 Europeana 線上數位圖書館,還大肆吹捧可以取代 Google Books。Europeana掃描了許多珍貴歷史文物,但是不到幾小時內部的運算架構當機,直到一個多月後才恢復正常。法國政府的GeoPortail宣稱可以媲美Google Earth,二○○六年總統席哈克還為此大力宣傳,但也遭遇類似 Europeana 的情況。

「公開標準化的資料能夠鼓勵創新,享有更優質的資訊服務。」

政府透過類似的公共計畫來避免公司壟斷重要的文化及科學資產。但是太過強調建立自己的數位圖書館和資料庫,也可能忽略了其他也許更重要的解決方法。例如公開標準化的資料作為商業或非營利用途,能鼓勵創新,享有更優質的資訊服務。若要避免前述令人困窘的當機問題,公部門也可以考慮和像 Google 或亞馬遜之類的公司合作,充分利用他們的規模經濟和專長。

(本文原為二○○九年一月七日《自然》雜誌社論)

※ 歐洲對這方面十分積極,已經倡導幾年了。