Only Perception: 在電腦內預測蛋白質結構的新方法

2007-10-19

在電腦內預測蛋白質結構的新方法

New approach builds better proteins inside a computer
http://www.physorg.com/news111846584.html

October 17, 2007

在世界各地超過 7 萬台家庭電腦的使用者幫助下，Howard Hughes Medical Institute（HHMI，霍華休斯醫學研究所）的研究者，首度精確的從氨基酸序列，預測出一個小型、天然產生的球狀蛋白質的 3D 結構。

這項成就是以一種新近精煉的計算方法來預測蛋白質的結構，對此研究者表示，這也能夠改善利用實驗技術所產生之蛋白質結構的細節與精確度。

對於蛋白質結構的詳盡了解，能供給科學家大量資訊 -- 揭開蛋白質錯綜複雜的生物學功能並為藥物設計提供新點子。研究者經常倚賴 x 光結晶學來決定蛋白質的結構 -- 以 x 光轟炸分子並分析所產生的繞射圖樣以拼湊出它的結構。但，並非所有的蛋白質都會順從這種耗時的技術，而且它也不一定都會產生研究者所需的、原子層次的資料。

計算技術（Computational techniques） -- 例如 HHMI 研究者 David Baker 等人在 2007 10/14 Nature 線上版所發表的那一種 -- 能夠補充這種方法。Baker 以及他在華盛頓大學與英國劍橋大學的同事，證實他們的技術能以卓越的精確度預測蛋白質結構。他們的方法將協助結構生物學家克服大家所知的結晶學相問題（crystallographic phase problem）。

研究者所開發的複雜演算法能透過極大量的運算能力完成這些分析。世界各地超過 7 萬台家庭電腦的使用者是這項計畫不可或缺的一部份，志願者讓他們的電腦透過 Rosetta@home（http://boinc.bakerlab.org/rosetta/），一種基於 Berkeley Open Infrastructure for Network Computing (BOINC，http://boinc.berkeley.edu/) 平台的分散式運算計畫 -- 參與蛋白質結構的探尋。

在過去 10 年，Baker 等人在開發演算法以預測一串氨基酸將如何折疊成所給定的一種蛋白質特徵形狀（characteristic shape）上，有穩固的進展。這種錯綜複雜的折疊是藉由複雜的分子側鏈（complex molecular side chains）所塑模。分子側鏈是來自於蛋白質骨幹的投射，而且能以無數方式互動，讓這種預測很難直接了當。

該團隊的主要計算工具是一支稱為 Rosetta 的程式，那能夠計算蛋白質的哪種可能形狀最有效率，即所使用的能量最低。

Baker 等人所面臨最難搞的問題之一是，蛋白質折疊會堅持在（get stuck in）某種部份折疊的結構。

預測蛋白質的結構涉及尋找一種比蛋白質所能形成的其他結構耗能更少的結構。"我們或許已發展出一種已十分接近正確結構的蛋白質結構，不過並沒有完全符合，" Baker 說。"你或許會認為我們只需四處扭動結構，並以計算方法搖動它，不過有時候能量障礙如此之高，蛋白質就只會堅守某種形狀。所以這是我們在我們的技術中所面臨的困境。"

在 Nature 文章中，Baker 等人發表一種新的策略，稱為「標的重建與精煉（targeted rebuilding and refining）」來克服這種障礙。在這個方法中，Rosetta 鑑別出最有可能產生錯誤過度結構的區域，並將它們隔離成「標的重建」的一部份。

"這如同你有一團複雜的繩索，而那裡有個段落，你認為它不應該是那樣，" Baker 解釋。"所以你就把那段剪掉，重新連結末端，並透過計算方法探索那段不同的構造，直到你對於它的行為有一個更好的模型為止。"

如果這一回合的重建與精煉無法產生能量最低的已折疊蛋白質結構，研究者會利用一種靈感來自於自然演化的選擇程序，重複這些分析。每一個重複產生一組在結構上有所不同的模型，在其中能量最低的那一個，會獲選進行下一回合的重建與精煉運算。最終，能量最低的模型就會勝出。

"這如同你有許多種類的動物，每一種都彼此競爭，" Baker 說。"構想是你從每一個族群中選擇最適合的，然後讓牠們再彼此競爭，直到所有動物中最適合的產生為止。"

這篇論文，"代表一種貨真價實的突破，" 結構生物學家 Eleanor Dodson 在 News & Views 的一篇社論中寫道，該文亦在 Nature 線上出版。Dodson 寫道，"這種方法在數方面中證明了真正的進展：使用巨大的運算能力；利用已知的三維結構；強大搜尋演算法的開發，那使這些結構與新序列產生聯繫；並穩定的改善策略用以決定能量最低的分子構造。"

"利益將在基於結構的藥物設計與改善過的結晶學模型計算中被看見。而且在未來，這種方法可能提供棘手分子（那很難經由實驗來研究）的結構性資訊，" Dodson 寫道，他在英國 York 大學。

Baker 等人藉由他們的技術來改善得自於 x 光結晶學與核磁共振頻譜學（NMR spectroscopy）的資料，來證明其價值。NMR 頻譜學分析分子中原子核的磁性以深入理解它們的結構。雖然這兩種技術對於分析蛋白質結構都很有用，不過比起他們技術，它們所產生的結果依然模稜兩可，Baker 說。尤其是，他們注意到新的計算機方法能藉由產生高精度的、原子層次的模型，來緩和小蛋白質的結晶學相問題（對該層次而言相可以被估計）。

研究者亦成功的利用他們的技術成功地將眾多結構已知的蛋白質塑模出來。在最極端的測試中，他們只依賴如線狀般、112 單位的氨基酸序列，就精確地預測出蛋白質的三維結構。

"這或許是報告中最壯觀的結果，" Baker 說。"在這個例子中，我們所知道的就只有蛋白質的序列；我們沒有 MNR 資料，也沒有可依賴的相關模型。只有給定序列本身，我們建構出模型，然後選擇能量最低的那些模型，而它們都十分精確。這是第一次它能獲得一個球狀蛋白質結構，並解決它而無須任何額外的實驗性資訊。"

"The overall lesson of this paper is that protein structure prediction, at least for smaller proteins, is now good enough to generate more accurate models from experimental data such as from NMR, and for generating more accurate models based on other protein structures," said Baker. "And in favorable cases you can get very accurate models starting from the sequence alone."

What's more, said Baker, the project proved the scientific value of using massive numbers of individual computers to contribute to such computational efforts. "The Rosetta@home project was not only scientifically invaluable, but enabled us to build a science education activity around it," said Baker. "People got very interested in the calculations their computers were doing and were prompted to learn more about proteins in particular and molecular biology in general," he said.

※ 相關報導：

＊ High-resolution structure prediction and the crystallographic phase problem
http://www.nature.com/nature/journal/vaop/ncurrent/abs/nature06249.html

Bin Qian, Srivatsan Raman, Rhiju Das, Philip Bradley,
Airlie J. McCoy, Randy J. Read & David Baker
Nature advance online publication 14 October 2007
doi:10.1038/nature06249