8月30日,《Nature Biotechnology》刊登了一篇專文,以呼應今年7月,人類參考泛基因體聯盟(Human Pangenome Reference Consortium, HPRC)首次釋出人類泛基因體草圖。該文指出,泛基因體讓科學家得以在檢索臨床上重要的基因序列時,也看見反映人類遺傳多樣性的序列變異(variants),但要將其落實到臨床實驗室(clinical laboratories)實務流程中,依然面臨諸多挑戰。
HPRC此次釋出的泛基因體草圖中,涵蓋來自千人基因體計畫(1000 Genomes Project)的47份基因體、超過99%的GRCh38參考基因體序列,且在結構和鹼基對層次上準確率超過99%。
其取得的重大突破,在於辨識出基因體序列中的結構性變異,並改善現有參考基因體在人類遺傳變異度的呈現。在現為廣泛使用的GRCh38參考基因體中,超過2/3的結構性變異都呈現缺失狀態,且過度強化了歐洲和非洲起源序列的代表性。
由於許多結構性變異對疾病照護非常重要,因此泛基因體的問世,可說是臨床遺傳學的一大進步;此外,對於基礎研究來說,由於科學家所使用的序列比對工具,通常都只會和標準參考序列比對,而不會使用替代性序列(alternative sequence),使得大多數的研究都只集中在有標準參考序列的遺傳序列研究上。
此外,這份泛基因草圖也針對過去難以定序的序列間隙(sequence gap)、重複序列(duplication)和其他未知的錯誤,利用更加先進的定序科技加以克服,特別是長讀序列(long-read sequencing)和圖像組裝基因體技術(graph assembly),得到了迄今完成度最高的人類參考基因體。
然而,該文也指出,即使獲得了泛基因體草圖作為重要的參考資料庫,但要落實到臨床遺傳學實驗室中,還有許多困難需要克服,且會花上相當的時間、金錢、開發工作和技能訓練。
例如,人類參考泛基因體資料庫,是使用雙倍體(diplotype)類型的無間隙(gapless)基因體資料組裝而成,但其對應的資料庫搜尋技術,仍然還在開發演進中;此外,臨床遺傳學實驗室從原始序列讀取,到臨床上重要的變異候選名單,牽涉到多個不同的電腦運算工具,且由不同的研究單位所持有,還有在外部資料庫搜尋的工具,像是gnomAD、TCGA、GWAS catalogs等。
該文強調,臨床遺傳學機構不像一般的基礎研究實驗室,它們必須要符合法規品質標準(例如美國的CLIA實驗室認證);每次定序分析流程(pipelines)發生更動,就必須重新申請認證,因此許多臨床實驗室至今仍在使用2009年就開始投入定序的GRCh37參考基因體進行比對工作;此外,顯然需要更多的訓練工作,以解釋泛基因體參考的額外序列如何和GRCh37或GRCh38串接。
因此,參考泛基因體在軟體開發、標準、重新申請認證和教育上,都還需要很大程度的努力,但對臨床實驗室而言,它還是相當值得投資,因為可以減少對罕見疾病患者診斷的挑戰。而在基礎研究中,使用參考泛基因體,可以改善結構性變異的掌握。
參考資料:
https://www.nature.com/articles/s41587-022-01484-y
(編譯 / 吳培安)
下一篇