始於1990年的人類基因體計畫(Human Genome Project),雖然已在2003年宣布完成了大部分編碼蛋白質的基因解序,但仍有8%的人類染色體,因技術限制而無法成功定序。直到美國時間3月31日,美國國家衛生研究院(NIH) Adam Phillippy領導的大型跨國團隊宣布,終於完成人類基因體定序的最後一哩路,其成果發表在《Science》。
相較於編碼蛋白質的DNA序列,這些不會製造蛋白質、被暱稱為「垃圾DNA」的序列,涵蓋了將近1億5千萬個鹼基對。然而研究團隊表示,這些DNA看似沒有明確功能,實際上仍在某些細胞功能中扮演要角,例如與癌細胞快速增殖相關的細胞分裂失控。
此研究共同作者洛克菲勒大學Enrich D. Jarvis的研究團隊,為解開人類基因體最後一塊拼圖貢獻了所需的技術,讓科學家得以抵達未竟之地。例如,他們所開發出的「Merfin」程式,能幫助解決基因體序列雜亂的問題、產出無錯誤的定序,執行測試定序準確度(accuracy)、偵測可能錯置的基因編碼,或是自動修正錯誤。
過去,科學家解開的人類基因體,大多數落在染色體結構中的真染色質(euchromatin)。真染色體涵蓋了大量基因,其壓縮程度鬆散,負責製造之後要轉譯成蛋白質的RNA,也是定序難度較低的染色質區域。
相較之下,僅占染色體小部分的異染色質(heterochromatin),壓縮程度非常緊密、不負責製造蛋白質,且帶有許多重複序列,定序難度相當高,卻組成了在細胞分裂過程中的中心粒(centromere)。
此外,有些真染色質的定序也不完全,有許多錯誤序列資訊需要修正,例如人類第13、14、15、21、22條染色體的短臂序列。
不過,Jarvis表示,相較於20年前使用的技術,現代基因體學已經獲得了更高可信度的長讀(long read)數據,準確度可以達到99.9%,以及更好的基因體組裝工具、更強力的演算法能夠區辨長相類似的拼圖。
Jarvis也在他主導的「脊椎動物基因體計畫」(Vertebrate Genomes Project)中,利用新技術完成長序列辨識,並在最近發表了完成度高、幾乎無錯誤的25種動物參考基因體(reference genome)。
研究團隊表示,由於癌症和中心粒異常有關,當特定的異染色質中心粒基因過度表現時,癌細胞就可以快速分裂。因此,了解組成中心粒的基因體,或許也能為新療法帶來契機。
參考資料:
https://phys.org/news/2022-03-human-genome.html
原始研究:
https://www.science.org/doi/10.1126/science.abj6987
(編譯 / 吳培安)