研究人員設計了一個名為BPNet的神經網絡模型,可以準確預測DNA序列與轉錄因子結合,甚至準確度到單個DNA鹼基的程度,研究人員藉由預測模型可以開發新的解釋工具,用於解釋轉錄因子與模體(motifs)(註1)的結合規則以及蛋白質的功能。
BPNet的網絡結構與用於人臉圖像辨識的神經網絡類似,例如,神經網絡會先檢測圖片中的像素邊緣,從邊緣了解如何構成眼睛、鼻子或嘴等臉部元素,最後形成臉部,而BPNet不是從像素中學習,是從DNA序列中學習,並學習偵測模體序列及預測結合規則。
研究人員指出,將神經網絡模型進行高精確度的訓練後,就可以使用解釋工具挖掘出學習到的模式,從輸出的序列追溯回輸入序列,就可以揭開模體的序列,最終可進一步將神經網絡模型用於預測序列設計的方式。
研究人員也利用CRISPR基因編輯技術,證實了神經網絡模型具高度準確性。
研究人員表示,該模型可以讓人們更了解DNA序列如何影響基因調控,目前已利用該模型來辨識不同細胞類型的模體,希望了解模體與生物物理參數的關聯性,並了解基因體中其他結構特徵。
例如,該神經網絡模型讓研究人員發現一條規則,當轉錄因子Nanog的多個模體週期性出現在DNA螺旋的同一側,將使Nanog與DNA協同結合。
研究人員表示,有大量實驗數據顯示,此類模體的週期性有時會出現在調控序列中,但確切的情況還難以證實。但此次令人驚訝的是,我們沒有特別利用AI尋找這種結合模式,就發現了Nanog與DNA的結合模式及其他交互作用的細節,這是利用神經網絡的關鍵優勢。
該研究第一作者Žiga Avsec表示, 許多傳統的生物資訊學方法是立基於現有知識定義下的剛性規則來進行數據建模,但是生物學極其複雜,透過使用神經網絡,不需具備既有知識即可學習複雜的模式,訓練出更加靈敏和準確的模型,發現以往未知的新知識。
註1:模體是蛋白質一種超二級結構(super secondary structure),以轉折(bend)或環狀結構(loop)把α螺旋和β摺疊結合在一起的結構,是由數個二級結構所組成的一個小單位,被認為是蛋白質立體結構的功能組件。
但在有些說法中模體是指在演化過程中被高度保留的序列區域,也是構成功能、結構的主要序列區域,所以預測蛋白質中存在的模體(motif),可以作為預測蛋白質功能結構的方法。
參考資料:https://bioengineer.org/explainable-ai-for-decoding-genome-biology/
論文:https://www.nature.com/articles/s41588-021-00782-6
(編譯/李林璦)