《Nature》多族群+長讀長定序 首解人類基因體99%難解區段

日期2025-07-29
EnglishFrenchGermanItalianPortugueseRussianSpanish
《Nature》多族群+長讀長定序 首解人類基因體99%難解區段 (圖片來源:網路)

 

美國時間23日,由人類基因體結構變異聯盟(Human Genome Structural Variation Consortium, HGSVC)組成的國際研究團隊,透過長讀長定序技術(LRS),針對來自五大洲、共65位受試者的130組單倍體基因體,成功組裝出超過99%完整的人類基因體。此研究彌補了先前92%定序的缺口(close a gap),並讓39%的染色體達到端粒對端粒(telomere-to-telomere, T2T)等級的全長組裝。研究結果已發表在《Nature》

結構變異(SVs)是DNA序列中發生的大規模變化,通常長度超過50個鹼基對。隨著長讀長定序技術的進步,偵測SVs的靈敏度顯著提升,為建立首份人類泛參考基因體(human pangenome reference)奠定了重要基礎。

然而,先前HGSVC完成的32個人類基因體分析顯示,多數著絲點(centromeres)以及超過一半的大型、高度相似的節段重複(Segmental Duplications, SDs)仍無法完整組裝,導致部分蛋白質編碼基因缺失於組裝中,影響基因體的完整解析。

為了克服此挑戰,研究人員進一步選取來自五大洲、28個族群的65位受試者,取其淋巴母細胞系進行定序,結合了讀取精準度較高的PacBio HiFi與平均讀取長度較長的Oxford Nanopore Technologies(ONT)的技術進行互補定序,接著搭配如Verkko和hifiasm等支援超長讀取的組裝工具,使整個過程得以自動化。

研究團隊最後建立出130組具單倍體解析度的基因體組裝,不僅涵蓋多個過去難以解析的複雜基因區域,並實現高度的序列連續性,成功彌補了92%過去組裝缺口,並使39%的染色體達到T2T等級的定序。

除了技術的支持,此研究的最大突破在於研究人員改進了Y染色體的組裝,由於Y染色體中包含大量重複序列,長期以來被視為難以精確解析的染色體。此次研究,團隊針對最密集的區域Yq12進行解析,結果顯示,Yq12是Y染色體中變異性最高的區域之一。

除此之外,研究人員也探討了脊髓性肌肉萎縮症(spinal muscular atrophy)相關的存活運動神經元基因(SMN1/SMN2)。這些基因位過去因位於一段長且重複的區域,所以難以完整定序。這次的定序揭示了這些基因結構與拷貝數,也成功區分了SMN1與SMN2的功能性拷貝,並發現了可能與疾病相關的區域。

這項研究證實,僅需針對65位人類個體(共130個單倍體)進行深入分析,便能精確完成超過99%的人類基因體之相位與組裝,有望能結合先前人類泛基因體計畫的資料,重建出一套完整的人類泛基因體參考圖譜,為後續針對結構變異的疾病關聯性研究提供豐富且可解析的資料基礎。
 

資料來源:https://www.genengnews.com/topics/omics/nearly-complete-human-genomes-reveal-complex-genetic-variation/

(編譯/實習記者 康育華)