近(11)日,由美國國衛院(NIH)旗下單位國家人類基因體研究所(NHGRI)發起的「人類泛參考基因體聯盟」(Human Pangenome Reference Consortium, HPRC),於頂尖期刊《Nature》上發佈了其計畫中的基因體圖譜初稿,成為目前涵蓋族群最廣泛、最完整的人類基因圖譜,該圖譜最終版則預計在明年發表。
這項「人類泛參考基因體」初稿,是由透過47名擁有不同種族背景的參與者基因資訊分析製成,相較於目前最完整的人類參考基因體(GRCh38版本),多了1.19億個新的鹼基,其中約有9千萬個鹼基對,來自於鹼基的插入、缺失、串連重複等結構性變異。
研究論文表示,使用這項草圖進行短讀取的定序分析,相較於使用GRCh38版本,可將發現小型變異的錯誤(small variant discovery errors)減少34%,並增加在每個單倍體(haplotype)中偵測到的結構性變異數目達104%。
這項成果,能幫助基因定序後,對各個樣本中絕大多數的結構變異等位基因進行分型。
此外,由於這項基因參考圖譜中,包含了可分析每個人成對存在的染色體中,來自於父或母方「單倍體」的訊息,因此也能更準確辨別來自雙親不同的染色體,可助於了解疾病或某些性狀的遺傳方式。
HPRC這項計畫,是繼2003年人類基因體計畫(Human Genome Project, HGP)正式完成後,為了補足該計畫成果中,許多礙於當時技術而未能達到的空白,所執行的計畫之一。
當時,HGP已解讀了佔人類基因體90%以上的序列,不過直到2018年,人類的基因定序結果中仍有數百萬的鹼基是未知的。
隨著近年長讀取定序技術的發展,科學家才得以一次解碼長片段的鹼基對,並透過演算法將長片段DNA組裝為更完整的序列資訊。例如近期,「端粒到端粒聯盟」(Telomere to Telomere Consortium)因此得以完成人類單倍體基因體的第一個完整序列「T2T-CHM13」。
而HPRC本次所發表的圖譜,除了參考T2T的單倍體圖譜外,也因為納入更多參與者資訊,因此得以突破原先基因體圖譜中,參與者只有約20人,基因多樣性無法涵蓋所有人類的困境。
目前的47名參與者中,有34%來自美洲、超過一半來自非洲、6人來自亞洲,以及1名來自歐洲的阿什肯納茲猶太人(Ashkenazi Jews)。
HPRC計畫最終目標是將350人的基因體資訊納入,尤其是補足目前還未納入的族裔代表(如:中東、非洲和大洋洲的更多代表),並預計將在2024年發布最終版本。
參考資料:https://www.nature.com/articles/s41586-023-05896-x
(編譯/巫芝岳)