2014-12-23

最新電腦神經網路能像靈長類腦袋那樣識別視覺物體

Newest computer neural networks can identify visual objects as well as the primate brain
http://phys.org/news/2014-12-neural-networks-visual-primate-brain.html

By Anne Trafton
December 18, 2014

幾十年來,神經科學家一直在嘗試設計能仿效如辨識物體(recognizing objects)這種視覺技巧的電腦網路,而人腦在做這件事上面,十分準確與快速。

直到目前為止,沒有一個電腦模型能與靈長類腦袋相比,他們匆匆一瞥就能夠在視覺上將物體辨識出來。不過來自 MIT 神經科學家的一項新研究發現,在最新一代的「深度神經網路(deep neural networks)」中,有一種與靈長類的腦部相符。

因為這些網路是基於神經科學家目前對於「腦部如何進行物體辨識」的理解,而最新網路的成功暗示著,神經科學家對於物體辨識有著相當準確的了解,James DiCarlo 表示,神經科學教授、MIT 腦與認知科學系的系主任以及一篇於 12/11 發表在 PLoS Computational Biology 期刊上、描述這項研究的論文資深作者。

"這些模型在神經族群空間(neural population space)裡預測神經反應與物體距離的這個事實,顯示這些模型對於先前仍是神秘未知的腦袋部份,囊括了我們當前的最佳理解," DiCarlo 表示,他也是 MIT McGovern 腦研究所的成員。

這個改善過的、對於「靈長類腦部如何運作」的理解,能導致更好的人工智慧,以及,有朝一日,修補視覺障礙的新方法,Charles Cadieu 補充,McGovern 研究所的博士後,以及本論文的第一作者。

其他作者包括畢業生 Ha Hong 與 Diego Ardila,研究科學家 Daniel Yamins,前 MIT 畢業生 Nicolas Pinto,前 MIT 學生 Ethan Solomon 以及研究學者 Najib Majaj。


受到頭腦啟發

科學家從 1970 年代開始建立神經網路,希望能模仿腦部處理視覺資訊、語音辨識以及理解語言的能力。

而基於視覺的神經網路,科學家則受到腦中視覺資訊階層式重現(hierarchical representation)的啟發。當視覺輸入從視網膜流入初級視覺皮質(primary visual cortex)接著是下顳頁皮質(inferotemporal cortex,IT cortex)時,它在每一層次上被處理,而且會變得更加具體(specific)直到物體能被確認。

為了模仿這個過程,神經網路設計者在其模型中創造出數個運算分層。每一層進行一種數學操作,例如直線點的產生。在每一層次上,視覺物體的重現會變得愈來愈複雜,而不需要的資訊,例如物體的位置或運動,則會被丟在一旁。

"每個個別元素一般都是一個非常簡單的數學式," Cadieu 說。"但是當你將幾千幾百萬個這種東西結合在一起,你就能夠獲得非常複雜的變換(transformations):從原始訊號變成對於物體辨識非常有益的重現(representations)。"

就這項研究來說,研究者首先測量腦部的物體辨識能力。由 Hong 與 Majaj 所領導,他們將電極陣列植入 IT 皮質以及 V4 區域(視覺系統的一部分,那輸入到 IT 皮質)。這允許他們能夠看到神經重現(neural representation)-- 有一群神經元,對於動物所觀看的每一樣物體產生反應。

研究者接著能將這些與深度神經網路所創造出來的神經表現(那是由系統中每個運算元素所產生的數字所組成的矩陣)相比較。每個影像都會產生不同的數字陣列。模型的準確度則由在重現之中「它是否將類似物體歸入類似叢集中」來判定。

"透過這些運算變換中的每一個,透過不同網路的不同分層,某些物體或影像會聚在一起,而其餘則會相互分離," Cadieu 表示。

最佳的網路則是由 New York 大學的研究者所開發的那一個,在物體分類上,那與獼猴腦袋一樣好。


更多處理能力

Cadieu 表示,這類型神經網路近來的成功是因為二大因素。其一,是運算處理能力的顯著躍進。研究者利用 GPUs(這種晶片是被設計用來高速處理電玩所需之大量視覺內容)的優勢。"這允許人們,購買相對廉價的繪圖卡來達到運算的性能極限," Cadieu 說。

第二個因素是,研究者現在能使用更大的資料組(datasets),餵入演算法來「量身訂做(train)」它們。這些資料組包含數百萬個影像,而且每一個都為人類所註記,有著不同的辨識程度。例如:一張狗的照片可能會被標示成動物、犬類、家犬以及狗的血統。

起先,神經網路對於這些影像的確認並不怎麼理想,但是當它們看見愈來愈多影像,同時找到它們何時出錯之後,它們會修正它們的計算直到它們在辨識物體上變得愈來愈準確。

Cadieu 表示,研究者對於是什麼讓這些網路能夠區分不同物體,所知並不多。

"那有利有弊," 他說。"是什麼東西區別這些物體我們並不是真的很了。不過最大缺點是,這些網路難以查驗、深入其中看看它們實際上做了哪些事。現在人們可以看見,這些東西運作良好,他們將進行研究,以理解它們當中發生了什麼事。"

DiCarlo 的實驗室計畫要產生能模仿其他視覺處理面向的模組,包括追蹤運動以及識別三維形態。他們亦希望創造出人類視覺系統中所見到的反饋投射(feedback projections)。當前網路只有視網膜到 IT 皮質的「前饋(feedforward)」投射,不過從 IT 皮質回到系統其餘部份的連結數量則多達 10 倍。

※ 相關報導:

* Deep Neural Networks Rival the Representation of Primate IT Cortex for Core Visual Object Recognition
http://www.ploscompbiol.org/article/info:doi/10.1371/journal.pcbi.1003963
Charles F. Cadieu, Ha Hong, Daniel L. K. Yamins,
Nicolas Pinto, Diego Ardila, Ethan A. Solomon,
Najib J. Majaj, James J. DiCarlo.
PLoS Computational Biology
Published: December 18, 2014
doi: 10.1371/journal.pcbi.1003963
視網膜如何運作:像接受域的多層拼圖
從眼到腦:在單個細胞的解析度下測繪視網膜神經元之功能性連結
BigBrain 計畫繪製出完整的3D 人腦圖譜
清大發現單一感官訊息腦中多線處理
科學家在試管中成功培養「人腦」

沒有留言: