Only Perception: Infovell 尋找 Google 遺漏的深處網頁

2008-09-10

Infovell 尋找 Google 遺漏的深處網頁

Infovell's 'research engine' finds deep Web pages that Google, Yahoo miss
http://www.physorg.com/news140110066.html

September 08, 2008
by Lisa Zyga

根據 UCB 的一項研究，「傳統的」搜尋引擎例如 Google 與 Yahoo 只索引了大約 0.2% 的網際網路。剩下的 99.8% 則稱為「深處網站（deep Web）」，是公眾與訂閱資訊的浩瀚主體，而傳統搜尋引擎無法存取。

為了挖掘這種「看不見的」資訊，科學家已開發新的搜尋引擎，稱為 Infovell，準備好幫助研究者尋找經常隱匿在深處網站的資料。當科學家正在進行人類基因組計畫（HGP）時，Infovell 的創辦者基於基因組研究中的方法設計了新的搜尋技術。Infovell 並非使用關鍵字，相反的，它認可非常長的搜尋措詞，而且可以是任何語言。

"在遺傳學中並沒有所謂的關鍵字，" Infovell 網站解釋。"獨特且強大的新技術已被開發，要從基因抽取（extract）知識。現在，透過 Infovell，這些技術首度能應用到語言與其他符號系統 -- 搜尋中令人不安的、長久以來的障礙 -- 並使當前搜尋提供者的能力一飛沖天（leapfrogging），傳遞「世界的研究引擎（World's Research Engine）」。"

雖然關鍵字對於尋找熱門與易取得資訊的一般大眾而言也許表現傑出，不過它們經常無法滿足研究者尋找特殊資料的需求。當深處網頁的資訊持續成長時，Infovell 解釋，以一體適用（one-size-fits-all）的方法來搜尋，將使得學術搜尋甚至更具挑戰性。

理由之一是，深處網站它們本身的天性。雖然許多熱門網站特別設計成對搜尋引擎友善，但許多深處網站的內容是沒有結構的，使得它難以被關鍵字搜尋引擎索引。此外，深處網站並沒有許多流量，意味著這些網頁並沒有許多連進來的連結，也因此像 Google 的 PageRank 這樣的系統，無法給予其很高的評比。而且對於私人網站而言，像註冊與訂閱需求這樣的障礙也使得搜尋引擎難以存取它們。

以關鍵字搜尋也在「太普遍，以致於得到數百萬個不恰當的結果」，或著「太特殊，以致沒有得到任何結果」之間，呈現出某種取捨（trade-off）。在獲得結果後，使用者接著得篩選過許多網頁，尋找他們所需要的東西。

但透過 Infovell，使用者得以利用「關鍵片語（KeyPhrases）」，從一段文章到整篇文章或甚至最高可達 25,000 字的一組文章，進行搜尋。因為它誕生自基因組的世界，Infovell 也因而具「語言獨立性」。使用者能以英文、中文、阿拉伯文，或甚至是數學符號、化學方程式或著音符來搜尋。根據 Infovell 的網站，"關鍵需求為：資訊得要以數位形態存在，而且它能以線性、連續性且隔離的（segregated）方式儲存。"

Infovell 的技術讓使用者能從數十億個網頁，確定最現時與廣泛的文件還有已發表文章的位置，主題包含生命科學、醫學、專利、業界新聞與其他參考內容。

現在，某些研究者使用個別網站所提供的進階搜尋選項以克服關鍵字搜尋引擎。然而，這些搜尋引擎得要求使用者學習特別的語法，且只在那個網站上有用。Infovell 的優勢在於它不需要特別的訓練（而且它並沒有使用布林運算子、分類法(taxonomies)或群組(clustering)）；相反地，它很容易使用，且立刻能搜尋每樣東西。

雖然 Infovell 並非第一個用來爬行深處網站的搜尋引擎，但它的開發者希望研究者在未來將能從 Infovell 的優勢獲益更多，尤其是在深處網站持續成長的時候。

Infovell 已在 DEMOfall08 進行示範，那是一場新興技術的研討會，9/7-9 號在 San Diego 舉行。使用者能夠註冊，在 Infovell 的網站進行 30 天的無風險（risk-free）試用，而 Infovell 最初也將透過訂閱才能使用。今年稍後，Infovell 將在有限的基礎上釋出免費的 beta 版，缺少了 premium 版中的某些進階功能。

更多資訊： http://www.infovell.com/

※ 基因演算法？等 beta 版出來再試試...

＊線上研究刊物：太多是件好事嗎？
＊行動上網新時代大小搜尋引擎誰適者生存？
＊ Google 瀏覽器大小通吃
＊ 16顆衛星高速傳輸 O3b為開發中國家鋪天網
＊研究者開發次世代雲端運算防毒系統

沒有留言:

張貼留言