《Nature》子刊:德州大學首創AI演算法 精準預測「非編碼DNA」調控機制

日期2022-08-12
《Nature》子刊:德州大學首創AI演算法 精準預測「非編碼DNA」調控機制 (圖片來源:網路)

近日,德州大學西南醫學中心(UT Southwestern)的科學家開發了一項AI演算法,僅需要原始基因序列,就能準確預測如啟動子(promoter)、增強子(enhancer)等DNA調控元件的運作方式,突破過去難以了解這些「非編碼DNA」調控的限制。該研究7月11日發表於期刊《Nature Genetics》。

該項名為「Sei」的AI框架(framework),結合了人類的遺傳學數據與基因序列訊息,目的為發現遺傳性狀和疾病調控的基礎機制。

研究論文表示,Sei透過深度學習(deep learning)模型學習了一套稱作「序列類別」(sequence classes)、內容為所有基因調節活動的字彙集,該模型可預測囊括1,300多個細胞系和組織,共21,907個染色質的資訊,涵蓋了人類基因體的97%以上。

這項「序列類別」字彙集,會基於不同的調節活動,例如依細胞類型不同,而特異性表現的增強子等,顯示對應的序列、變化,和其量化的效應。

經學習後的AI,能預測到包括:組織特異性表現、數量性狀基因座(quantitative trait loci)、演化約束(evolutionary constraint,指生物由於適應了演化,而限制出現新表型變化特性)的數據等。

由於人體中只有約1%的DNA,編碼著製造蛋白質的指令;近幾十年的研究也顯示,大部分剩餘的非編碼DNA都含有相關調控元件,控制著編碼DNA的表現,例如:啟動子、增強子、沉默子(silencer)和絕緣子(insulator)等。

然而,基因序列調控這些調節元件的方式,目前多數仍是未知的,因此,這項AI演算法將有助於釐清這些調控方式。

領導該研究團隊的華裔助理教授Jian Zhou表示,該演算法可更好地說明DNA序列的變化,如何對組織功能產生巨大的影像,且其評估可包括非編碼區域的DNA序列在內。

研究人員也已將Sei應用在英國人體生物庫資料庫(UK Biobank)中,在該演算法輔助下,研究UK Biobank記錄的47種性狀和疾病調控,進一步解釋基因調控元件的突變,是如何導致特定疾病的。該研究可幫助人們更有系統地了解基因序列變化,與疾病或其他表型的關聯;該研究結果預計在本月內公佈。

今年5月,該團隊也剛公開了一項名為Orca的AI工具,可根據序列預測染色體中DNA的3D結構,並提出關於「DNA序列如何控制其局部和大規模3D結構」的新假設。

Jian Zhou的計畫將在網路伺服器上,開放Sei和Orca的原始碼,使這項可有效探索基因突變的工具,能被更多研究人員使用。

參考資料:

1. 論文原文:https://www.nature.com/articles/s41588-022-01102-2

2. https://bioengineer.org/artificial-intelligence-tools-predict-dnas-regulatory-role-and-3d-structure/

(編譯/巫芝岳)