Only Perception: 新計算技術讓基因組的比對更加容易

2009-02-04

新計算技術讓基因組的比對更加容易

New computational technique allows comparison of whole genomes as easily as whole books
http://www.physorg.com/news152377707.html

January 28th, 2009

(PhysOrg.com) -- 從用以比對書籍、大學論文與電腦程式剽竊部份的文字比對方法獲得暗示，UC Berkeley 的研究者開發出一種改良過的方法，用來比對整個基因組序列。

隨著近千種基因組部份或完全定序，科學家投身比較基因組學（comparative genomics）成為一種用來建構演化樹的方法，追蹤疾病在族群中的敏感性，或甚至追溯人們的列祖列宗。

迄今，最常見的技術倚賴比對數量有限的高度保存基因（highly conserved genes） -- 這些基因均為那些生物所共有，而那不超過數十種。

這種新方法甚至連相關性最遙遠的生物，或著那些基因組的大小與差異性截然不同的生物都能夠比對，而且還能比對整個基因組，而非選擇性的、包含基因的小片段，那已知為蛋白質編碼，在人類基因組中僅佔 1% 的 DNA。

根據 Sung-Hou Kim，UC Berkeley 化學教授與 LBNL 在職研究者，此術可產生生物的分類（groupings），大部分由當前的分類所構成，不過具備某些有趣的歧異。然而，這些群組在系統樹（family tree）中相對的位置 -- 即演化出這些群組的時間有多近 -- 與那些基於傳統基因排比（alignment）的方法完全不同。

這些計算結果能將某些直到現在仍難以理解的細菌與病毒分類，使科學家感到驚訝。

此技術，利用特徵頻率分佈（feature frequency profiles，FFP），在本週 PNAS 早期線上版的一篇論文中描述。

全基因組 vs. 以基因為中心的方法

當前用來比對不同生物基因組的方法聚焦在一小組基因，為那些被比對的生物所共有。基因組接著被排列以便計算序列的相似性或相異性，而電腦程式藉此建構一個系統樹，相關性較近的被視為比那些相關性較遠的，具有更加類似的序列。

然而，此技術假設生物有某些共同的基因，或這些「同源」基因能被確認。當比對相關性較遠的物種時 -- 例如生活在截然不同環境中的細菌 -- 這些以基因為中心的方法也許無效，Kim 表示。

"當某一基因告訴你這些生物密切相關，而另一基因告訴你他們關係疏遠時你會怎麼辦？" 他問道。"那真的會發生。"

Kim，他過去專注在創造所有已知蛋白結構的三維的族群統計圖（demographic maps），想要一種技術，能夠用來比對各種大小的基因組，甚至是那些只有部份被定序的基因組。他亦想要一種方法能夠比對基因組的各個部份，而不只有外顯子（exons）-- 即那些被轉錄成 mRNA（蛋白質藍圖）的 DNA。外顯子僅佔人類基因組的 1%，而其餘為非編碼的「內含子（introns）」、調控 DNA、重複或冗餘的 DNA 以及轉位子（transposons）-- 那些從基因組其他地方跳過來的基因。

Kim 認為傳統的文字比對 -- 用來，例如，評估某文學作品的作者身分或確認遭抄襲的文字 -- 也許為全基因組比對提供了一種模型以及一種測試比對方法的途徑。儘管文字比對涉及察看單字頻率，但基因組無法分解成單字。

"我能以兩種不同方式比對二本書。我能挑選幾個句子，如一百句。我主觀認為那些句子很重要，並比對它們，但有些十分類似而有些在這兩本書中則完全不同，" 他解釋。"所以，我怎麼決定呢？我需要第二種方法，將代表一整本書的特徵與代表另一整本書的特徵進行比對。"

不一樣的「字彙」

與生物物理學家 Gregory E. Sims、統計數學家 Se-Ran Jun 還有理論物理學家 Guohong A. Wu 合作，Kim 決定嘗試一種單字頻率技術的簡單變異。他們從文本中排除所有的標點與空白，創造出一套 2 字母、3 字母與其他書中所有單字組合的字典，並計算每種固定長度「單字」或特徵的變異性。這些特徵並非接連不斷的字母組合，而是透過 2 字母、3 字母或更多字母的「視窗」沿著文本每次滑移（sliding）一個字母所獲得的序列。

在一項針對 Project Gutenberg 免費線上電子書的測試中，他們發現這種方法，他們稱之為特徵頻率分佈（FFP）方法，在確認相關書籍上 -- 同一作者所寫的書、同一文風（genre）或來自相同歷史時代的書 -- 比單字頻率分佈分析更為成功。

事實上，一個好的系統樹能透過一「最理想的」特徵長度來建構，例如 9 個字母（這樣的「字彙」非常大），而不是看遍所有可能的長度。

Kim 表示單字頻率分析獨立看待每個單字，而特徵頻率分析則獲得了語法。"在此，如果我採用 9 個字母的視窗，然後讓它沿著文本滑移。我實際上獲得了第一個單字與第二個單字之間的相關性 -- 那從單字頻率方法中是不可能獲得的。顯然那相當重要。"（後略譯）

哺乳類動物、細菌與病毒基因組

他們接著把哺乳動物的全基因組視為一本沒有空白間隔的書來分析。由於基因組相當龐大，他們將這些基因組序列以一種簡化的、2 個字的字母系統來表示 -- R 代表腺嘌呤（A）與鳥糞嘌呤（G），Y 代表胸腺嘧啶（T）與胞嘧啶（C） -- 以減少計算的複雜性。利用 18 個鹼基對的最理想特徵長度，他們創造出一系統樹，與科學們使用遺傳學、形態學、解剖學、化石以及行為資訊所建構而成的系統發生樹（phylogenetic trees）相較，幾乎完全相同。Kim 表示這令人驚訝，因為哺乳類動物的基因組絕大部分都是非基因編碼（譯註：垃圾 DNA）。

接著，他們在 518 種基因組（大部分是細菌與古菌，還有六種不同複雜性的真核類生物與二種隨機序列）上測試 FFP，他們使用了另一套字母系統：以 20 個字母來代表 20 種可能的胺基酸 -- 蛋白質的基石。

不過他們能以蛋白質體（proteome）將所有生物歸類嗎？那相當於使用一小組基因嗎？

他們發現 FFP 能明確將所有受測基因組分成不同的群組或域（domains，譯註：生物分類有域、界、門、綱、目、科、屬、種）。在每個「域」當中的「門」與每個「門」當中的「綱」也都能完善區分，但是與當前所認可的分類有些有趣的差異。Kim 表示這些差異大多是系統發生樹中那些生物學家認為有爭議的地方，而且這種新方法也將幾種未分類的細菌也歸類了。他表示，主要的差異並非生物如何被歸類，而是這些類別的相對位置。

最後，他們分析了數百種病毒的基因組，其中包括未被分類的病毒。

由於上述這些基因組序列的資料量很龐大，Kim 他們獨佔了相當於 320 顆 CPU 超過一年的運算時間。Kim 表示基因並非生物的全部，那是一種過度簡化的偏見，所以比對時需要將基因組中絕大部份的 DNA 或蛋白質序列納入考量才對。Kim 表示他們的 FFP 也可用於各種數位資訊：包括文字、聲音與影像。此外還可用來追溯人類祖先、疾病的人口統計學（使用全基因組定序）以及將多源基因組（metagenome）的資料分類。Kim 還希望有一天能利用他們的方法替莎士比亞風格的文本追本溯源。

※ 相關報導：

＊ Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions （本論文開放存取）
http://www.pnas.org/content/early/2009/02/02/0813249106.abstract
http://dx.doi.org/10.1073/pnas.0813249106