2009-02-04

新計算技術讓基因組的比對更加容易

New computational technique allows comparison of whole genomes as easily as whole books
http://www.physorg.com/news152377707.html

January 28th, 2009

(PhysOrg.com) -- 從用以比對書籍、大學論文與電腦程式剽竊部份的文字比對方法獲得暗示,UC Berkeley 的研究者開發出一種改良過的方法,用來比對整個基因組序列。

隨著近千種基因組部份或完全定序,科學家投身比較基因組學(comparative genomics)成為一種用來建構演化樹的方法,追蹤疾病在族群中的敏感性,或甚至追溯人們的列祖列宗。

迄今,最常見的技術倚賴比對數量有限的高度保存基因(highly conserved genes) -- 這些基因均為那些生物所共有,而那不超過數十種。

這種新方法甚至連相關性最遙遠的生物,或著那些基因組的大小與差異性截然不同的生物都能夠比對,而且還能比對整個基因組,而非選擇性的、包含基因的小片段,那已知為蛋白質編碼,在人類基因組中僅佔 1% 的 DNA。

根據 Sung-Hou Kim,UC Berkeley 化學教授與 LBNL 在職研究者,此術可產生生物的分類(groupings),大部分由當前的分類所構成,不過具備某些有趣的歧異。然而,這些群組在系統樹(family tree)中相對的位置 -- 即演化出這些群組的時間有多近 -- 與那些基於傳統基因排比(alignment)的方法完全不同。

這些計算結果能將某些直到現在仍難以理解的細菌與病毒分類,使科學家感到驚訝。

此技術,利用特徵頻率分佈(feature frequency profiles,FFP),在本週 PNAS 早期線上版的一篇論文中描述。


全基因組 vs. 以基因為中心的方法

當前用來比對不同生物基因組的方法聚焦在一小組基因,為那些被比對的生物所共有。基因組接著被排列以便計算序列的相似性或相異性,而電腦程式藉此建構一個系統樹,相關性較近的被視為比那些相關性較遠的,具有更加類似的序列。

然而,此技術假設生物有某些共同的基因,或這些「同源」基因能被確認。當比對相關性較遠的物種時 -- 例如生活在截然不同環境中的細菌 -- 這些以基因為中心的方法也許無效,Kim 表示。

"當某一基因告訴你這些生物密切相關,而另一基因告訴你他們關係疏遠時你會怎麼辦?" 他問道。"那真的會發生。"

Kim,他過去專注在創造所有已知蛋白結構的三維的族群統計圖(demographic maps),想要一種技術,能夠用來比對各種大小的基因組,甚至是那些只有部份被定序的基因組。他亦想要一種方法能夠比對基因組的各個部份,而不只有外顯子(exons)-- 即那些被轉錄成 mRNA(蛋白質藍圖)的 DNA。外顯子僅佔人類基因組的 1%,而其餘為非編碼的「內含子(introns)」、調控 DNA、重複或冗餘的 DNA 以及轉位子(transposons)-- 那些從基因組其他地方跳過來的基因。

Kim 認為傳統的文字比對 -- 用來,例如,評估某文學作品的作者身分或確認遭抄襲的文字 -- 也許為全基因組比對提供了一種模型以及一種測試比對方法的途徑。儘管文字比對涉及察看單字頻率,但基因組無法分解成單字。

"我能以兩種不同方式比對二本書。我能挑選幾個句子,如一百句。我主觀認為那些句子很重要,並比對它們,但有些十分類似而有些在這兩本書中則完全不同," 他解釋。"所以,我怎麼決定呢?我需要第二種方法,將代表一整本書的特徵與代表另一整本書的特徵進行比對。"


不一樣的「字彙」

與生物物理學家 Gregory E. Sims、統計數學家 Se-Ran Jun 還有理論物理學家 Guohong A. Wu 合作,Kim 決定嘗試一種單字頻率技術的簡單變異。他們從文本中排除所有的標點與空白,創造出一套 2 字母、3 字母與其他書中所有單字組合的字典,並計算每種固定長度「單字」或特徵的變異性。這些特徵並非接連不斷的字母組合,而是透過 2 字母、3 字母或更多字母的「視窗」沿著文本每次滑移(sliding)一個字母所獲得的序列。

在一項針對 Project Gutenberg 免費線上電子書的測試中,他們發現這種方法,他們稱之為特徵頻率分佈(FFP)方法,在確認相關書籍上 -- 同一作者所寫的書、同一文風(genre)或來自相同歷史時代的書 -- 比單字頻率分佈分析更為成功。

事實上,一個好的系統樹能透過一「最理想的」特徵長度來建構,例如 9 個字母(這樣的「字彙」非常大),而不是看遍所有可能的長度。

Kim 表示單字頻率分析獨立看待每個單字,而特徵頻率分析則獲得了語法。"在此,如果我採用 9 個字母的視窗,然後讓它沿著文本滑移。我實際上獲得了第一個單字與第二個單字之間的相關性 -- 那從單字頻率方法中是不可能獲得的。顯然那相當重要。"(後略譯)


哺乳類動物、細菌與病毒基因組

他們接著把哺乳動物的全基因組視為一本沒有空白間隔的書來分析。由於基因組相當龐大,他們將這些基因組序列以一種簡化的、2 個字的字母系統來表示 -- R 代表腺嘌呤(A)與鳥糞嘌呤(G),Y 代表胸腺嘧啶(T)與胞嘧啶(C) -- 以減少計算的複雜性。利用 18 個鹼基對的最理想特徵長度,他們創造出一系統樹,與科學們使用遺傳學、形態學、解剖學、化石以及行為資訊所建構而成的系統發生樹(phylogenetic trees)相較,幾乎完全相同。Kim 表示這令人驚訝,因為哺乳類動物的基因組絕大部分都是非基因編碼(譯註:垃圾 DNA)。

接著,他們在 518 種基因組(大部分是細菌與古菌,還有六種不同複雜性的真核類生物與二種隨機序列)上測試 FFP,他們使用了另一套字母系統:以 20 個字母來代表 20 種可能的胺基酸 -- 蛋白質的基石。

不過他們能以蛋白質體(proteome)將所有生物歸類嗎?那相當於使用一小組基因嗎?

他們發現 FFP 能明確將所有受測基因組分成不同的群組或域(domains,譯註:生物分類有域、界、門、綱、目、科、屬、種)。在每個「域」當中的「門」與每個「門」當中的「綱」也都能完善區分,但是與當前所認可的分類有些有趣的差異。Kim 表示這些差異大多是系統發生樹中那些生物學家認為有爭議的地方,而且這種新方法也將幾種未分類的細菌也歸類了。他表示,主要的差異並非生物如何被歸類,而是這些類別的相對位置。

最後,他們分析了數百種病毒的基因組,其中包括未被分類的病毒。

由於上述這些基因組序列的資料量很龐大,Kim 他們獨佔了相當於 320 顆 CPU 超過一年的運算時間。Kim 表示基因並非生物的全部,那是一種過度簡化的偏見,所以比對時需要將基因組中絕大部份的 DNA 或蛋白質序列納入考量才對。Kim 表示他們的 FFP 也可用於各種數位資訊:包括文字、聲音與影像。此外還可用來追溯人類祖先、疾病的人口統計學(使用全基因組定序)以及將多源基因組(metagenome)的資料分類。Kim 還希望有一天能利用他們的方法替莎士比亞風格的文本追本溯源。

※ 相關報導:

* Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions (本論文開放存取)
http://www.pnas.org/content/early/2009/02/02/0813249106.abstract
http://dx.doi.org/10.1073/pnas.0813249106
Gregory E. Sims, Se-Ran Jun, Guohong A. Wu and
Sung-Hou Kim
PNAS, Published online before print February 2, 2009,
doi: 10.1073/pnas.0813249106
達爾文的生命之樹也許更像灌木叢
Infovell 尋找 Google 遺漏的深處網頁
基因的「選擇特徵」協助偵測細菌的天擇
新免疫策略使阻止病毒擴散的劑量減半
數位通訊技術協助釐清個人化治療途徑
基因組混搭地理學 洞悉生命與環境
「鹵莽」軟體更新 更快發現「對稱」
新演算法顯著提升路由效率
量子電腦擅於塑模化學反應
Wikipedia 人類基因線上圖書館開張

沒有留言: