Only Perception: 機器即時將思緒轉成言語

2009-12-30

機器即時將思緒轉成言語

Machine Translates Thoughts into Speech in Real Time
http://www.physorg.com/news180620740.html

By Lisa Zyga, December 21, 2009

(PhysOrg.com) -- 藉由將電極植入「閉鎖症候群」患者的腦中，科學家示範如何以無線方式將神經訊號傳到一部語音合成器上。這種「思考轉語音（thought-to-speech）」的過程費時約 50 毫秒 -- 這與一位非癱瘓的、在神經病學上毫無損傷者，說出其想法所花的時間一樣。這項研究標誌著為了某種外部裝置之即時控制而進行永久安裝的、無線移植的首例成功示範。

這項研究由波士頓大學認知與神經系統系的 Frank Guenther 所領導，此外還包括波士頓大學 Sargent 健康與復建科學學院以及哈佛--麻省理工健康科技部。這個研究團隊包括來自喬治亞州 Duluth 市的 Neural Signals, Inc.,；阿根廷布宜諾斯艾利斯的 StatsANC LLC；位於喬治亞州，Marietta 市的喬治亞技術研究所；位於喬治亞州 Lawrenceville 市的Gwinnett 醫學中心以及喬治亞州 Atlanta 市的 Emory 大學附屬醫院的共同研究者。該團隊將結果發表在最近一期的 PLoS ONE 上。

"我們研究的結果證明，使用者能直接控制腦機界面（brain-machine interface，BMI）的聲音輸出，而非（相對緩慢的）打字過程，" Guenther 表示。

這些研究者在他們的研究中，藉由一位 26 歲男性來試驗此技術。這位男性在 16 歲時發生腦幹中風。這種腦幹中風導致志願者完成動作的運動神經元與腦部其餘部份之間的損傷；雖然他的意識與認知能力毫髮無傷，不過他除了眼睛能緩慢地垂直移動外，全身癱瘓。這種罕見症狀被稱為閉鎖症候群。

五年前，當志願者 21 歲時，科學家在靠近前運動（premotor）與主要運動（primary motor）皮質之間的邊界上（具體的說，左腹側前運動皮質，left ventral premotor cortex）植入一電極，這些區域與說話能力（speech）相關。神經軸突（Neurites）開始長到電極中，且在三或四個月內，神經軸突在電極導線上產生訊號模式（signaling pattern），那已能無限期地維持。

植入三年後，研究者為了即時合成語音的產生，開始測試腦機界面。該系統為「遙測的（telemetric）」 -- 那不需要穿過皮膚的導線或連結器，消除了感染風險。事實上，該電極將神經訊號放大並轉換成調頻（FM）無線電訊號。這些訊號以無線方式穿過頭皮傳至兩線圈，那利用可溶於水的糊狀物貼在志願者的頭上。線圈成為 RF 訊號的接收天線。植入電極則透過也是貼在頭上的電力線圈供應感應電力。

訊號接著被轉送到一套電流生理學記錄系統上，那將其數位化並儲存之。所儲存的尖波（spikes，那包含有意義的資料），被送往在桌上型電腦執行的神經解碼器。神經解碼器的輸出成為語音合成器的輸入，那也在電腦上執行。最後，語音合成器產生合成的聲音（在目前研究中，只測過三個母音的聲音）。上述整個過程平均耗時 50 毫秒。

科學家解釋，先前並沒有神經元在言語運動區中發射的電流生理學研究。為了開發精確的神經編碼體系，他們得依賴一套已經建立好的言語運動控制（speech motor control）神經運算模型。根據此模型，就「共振峰頻率軌跡（formant frequency trajectories）」而論，左腹側前運動皮質中的神經元代表預期的說話聲音（intended speech sounds）。

在毫無損傷的腦中，這些頻率軌跡被送至主要運動皮質，在此它們被轉變成要下給言語發音器官（speech articulators，言語構音器官）的運動指令。然而，在目前研究中，這些研究者得要解釋這些頻率軌跡以便將其轉譯成言語。為了要辦到這件事，研究者開發出一種二維共振峰頻率空間，在其中，不同母音的聲音可根據二種共振峰頻率來標繪（其值代表 X 與 Y 軸）。

"這項研究支持我們的假說（基於 DIVA 模型，我們的言語神經網路模型）：前運動皮質以「聽覺軌跡（auditory trajectory）」來呈現「預期的言語」，亦即，（「預期的言語」）如同一組關鍵頻率（共振峰頻率）般，在我們當作「言語」來聽的「聲音訊號」中隨著時間變化，" Guenther 說。"換言之，我們能從前運動皮質的神經活動中直接預測預期的聲音，而非試圖要分別預測所有言語發音器官的位置，然後再試著重現預期的聲音（就我們所記錄的少量神經元而論，這問題更加困難）。對於神經元如何在腦中呈現言語 -- 這是某種先前未曾被研究過的東西，因為這裡並沒有所謂的言語動物模型 -- 此結果提供我們初步的洞見。"

為了要證實移植區當中的神經元能以共振峰頻率軌跡的方式攜帶言語資訊，研究者要求志願者試圖以同步的方式說出以聽覺方式呈現的母音序列。在之後的實驗中，志願者即時收到來自語音合成器的聽覺回饋。在橫跨 5 個月、25 個時段的期間中，志願者顯著改善 thought-to-speech 的準確性。他的平均命中率在整個期間中，從 45% 增加到 70%，並在最後一個時段內達到 89% 這麼高。

目前研究僅聚焦在產生一小組母音上，但研究者認為隨著系統改良，將來也能夠實現子音的聲音。雖然這項研究使用單一一個三線式（three-wire）電極，但在多個記錄位置上使用額外的電極，以及改善解碼技術，將能快速、精確地控制語音合成器，而那可以產生廣泛的聲音。

"我們立即的計畫涉及實作新的合成器，那能產生子音與母音，同時維持足供 BMI 使用者來控制的簡單性，" Guenther 說。"我們也在研究硬體，那能大幅增加被記錄的神經元數量。我們預期在下一位移植接受者腦中，竊聽數量至少十倍的神經元，那應能導致效能大幅改善。"

總之，這項研究標誌著永久神經義體的開發中的一個里程碑，那除了無線接收器與筆電外，不需要大型外部硬體。先前用於通訊應用的腦機界面十分緩慢，每分鐘只能產生大約 1 個字。這套新系統具有即時轉換的潛力，且能幫助減少伴隨著深度痲痹而來的社會孤立。

※ 相關報導：

＊ A Wireless Brain-Machine Interface for Real-Time Speech Synthesis
http://dx.doi.org/10.1371/journal.pone.0008218

Frank H. Guenther, Jonathan S. Brumberg, E. Joseph Wright,
Alfonso Nieto-Castanon, Jason A. Tourville, Mikhail Panko,
Robert Law, Steven A. Siebert, Jess L. Bartels,
Dinal S. Andreasen, Princewill Ehirim, Hui Mao,
Philip R. Kennedy
PLoS ONE 4(12): e8218. Published: December 9, 2009
doi: 10.1371/journal.pone.0008218