《Science》：歷時20年人類基因體解序計畫終告完工！

撰文記者吳培安

日期2022-04-01

(圖片來源：網路)

A-
A+

加入收藏

始於1990年的人類基因體計畫(Human Genome Project)，雖然已在2003年宣布完成了大部分編碼蛋白質的基因解序，但仍有8%的人類染色體，因技術限制而無法成功定序。直到美國時間3月31日，美國國家衛生研究院(NIH) Adam Phillippy領導的大型跨國團隊宣布，終於完成人類基因體定序的最後一哩路，其成果發表在《Science》。

相較於編碼蛋白質的DNA序列，這些不會製造蛋白質、被暱稱為「垃圾DNA」的序列，涵蓋了將近1億5千萬個鹼基對。然而研究團隊表示，這些DNA看似沒有明確功能，實際上仍在某些細胞功能中扮演要角，例如與癌細胞快速增殖相關的細胞分裂失控。

此研究共同作者洛克菲勒大學Enrich D. Jarvis的研究團隊，為解開人類基因體最後一塊拼圖貢獻了所需的技術，讓科學家得以抵達未竟之地。例如，他們所開發出的「Merfin」程式，能幫助解決基因體序列雜亂的問題、產出無錯誤的定序，執行測試定序準確度(accuracy)、偵測可能錯置的基因編碼，或是自動修正錯誤。

過去，科學家解開的人類基因體，大多數落在染色體結構中的真染色質(euchromatin)。真染色體涵蓋了大量基因，其壓縮程度鬆散，負責製造之後要轉譯成蛋白質的RNA，也是定序難度較低的染色質區域。

相較之下，僅占染色體小部分的異染色質(heterochromatin)，壓縮程度非常緊密、不負責製造蛋白質，且帶有許多重複序列，定序難度相當高，卻組成了在細胞分裂過程中的中心粒(centromere)。

此外，有些真染色質的定序也不完全，有許多錯誤序列資訊需要修正，例如人類第13、14、15、21、22條染色體的短臂序列。

不過，Jarvis表示，相較於20年前使用的技術，現代基因體學已經獲得了更高可信度的長讀(long read)數據，準確度可以達到99.9%，以及更好的基因體組裝工具、更強力的演算法能夠區辨長相類似的拼圖。

Jarvis也在他主導的「脊椎動物基因體計畫」(Vertebrate Genomes Project)中，利用新技術完成長序列辨識，並在最近發表了完成度高、幾乎無錯誤的25種動物參考基因體(reference genome)。

研究團隊表示，由於癌症和中心粒異常有關，當特定的異染色質中心粒基因過度表現時，癌細胞就可以快速分裂。因此，了解組成中心粒的基因體，或許也能為新療法帶來契機。

參考資料：
https://phys.org/news/2022-03-human-genome.html
原始研究：
https://www.science.org/doi/10.1126/science.abj6987
(編譯 / 吳培安)