近(23)日,美國國家衛生研究院(NIH)人類基因體研究所(NHGRI)領導,攜手美國國家標準與技術研究所(NIST)等多個研究機構團隊,完成了首個完整的人類Y染色體DNA定序,共有6246萬29個鹼基對,比人類參考基因體GRCh38還多了3000多萬個鹼基對,為人類基因體定序拼上最後一塊拼圖,未來將有助於揭密男性生殖發育機制,以及研究某些遺傳疾病的機轉,該研究發表於《Nature》。
研究人員指出,DNA定序並非可直接讀取基因體的開頭到結尾,因為細胞萃取DNA時,通常會將DNA切碎,即使是最好的定序設備,也只能處理較小的DNA 片段,因此研究人員必須運用特殊軟體,依照人類參考基因體(reference genome)來把定序片段按照正確順序拼湊在一起。
NIST分析了多個人類基因體,並從NIST旗下瓶中基因體策略聯盟(Genome in a Bottle Consortium, GIAB)先前建構的基因體數據庫中的Y染色體數據進行分析。(編按:GIAB的使命是產生可用來評估與鑑定定序技術/方法的基準,例如運用特定基因的高度精確序列來驗證定序技術的可信度。)
研究人員將數據庫中的Y染色體部分數據做為起點,運用高準確度(High Fidelity)的奈米孔定序(Nanopore sequencing)技術對樣本進行分析,並進一步透過機器學習分析工具與一系列其他演算法識別和組裝染色體片段。
在經過超過6200萬個遺傳密碼的辨識與組裝後,研究人員將GIAB Y染色體從頭到尾拼出來,並將該完整Y染色體序列命名為T2T-Y,總共有6246萬29個鹼基對。
接著,研究人員將T2T-Y與最常使用的參考基因體的Y染色體部分進行比較,糾正了現行參考基因體GRCh38 Y染色體的遺傳密碼錯誤,並在參考基因體Y染色體的序列基礎上增加了3000多萬個鹼基對序列,等於幾乎補齊了一半的Y染色體。
完整的Y染色體定序可以用來識別與診斷與Y染色體基因相關的疾病外,更重要的是,可以從定序發現的基因序列中發現到新功能或是機制。
此次的Y染色體序列加上T2T-CHM13就可謂是完成了史上最完整的人類基因體序列!
T2T-CHM13是在2022年3月,由來自NIST等數十個組織的專家組成「端粒到端粒聯盟」(Telomere to Telomere Consortium, T2T),發表的完整人類基因體序列,共含有22對人類體染色體加上X性染色體序列,其中並不包含Y染色體。
今年5月,NHGRI發起的「人類泛參考基因體聯盟」(Human Pangenome Reference Consortium, HPRC)也於《Nature》上發佈了其計畫中的基因體圖譜初稿,成為目前涵蓋族群最廣泛、最完整的人類基因圖譜,該圖譜最終版則預計在明年發表。
此項研究科學家之一、GIAB負責人Justin Zook表示,Y染色體中有超過一半的DNA片段非常重複,以拼圖比喻就像是背景一樣,每個碎片都非常相似,也因此十分困難,而Y染色體與某些生育及遺傳疾病有關,這次研究有望找出創新療法。
論文:The complete sequence of a human Y chromosome
參考資料:https://www.sciencedaily.com/releases/2023/08/230823122524.htm
(編譯/李林璦)
下一篇