人類有高達98%的基因體由非編碼基因組成,過去因不包含製造蛋白質指令而被稱為垃圾DNA,但近年已發現這些基因可以影響蛋白質編碼基因的活性。
而過去數十年的AI模型,應用在基因解讀上,僅專注於單一任務,例如預測基因表現或確定單一基因的模組化片段剪切方式。
DeepMind最早在2020年推出AlphaFold2,解決了研究人員對於蛋白質結構預測的難題,而這次發表的AlphaGenome延續AlphaFold2,透過人類和小鼠的資料進行訓練,試圖預測基因表現與功能,建立多功能、全方位的AI 模型。
AlphaGenome這種「序列到功能」的模型可以同時輸入高達一百萬個序列並做出數千種預測,且敏感度高到能偵測單一鹼基突變。
例如,DeepMind 的研究人員將 AlphaGenome 模型應用於突變白血病患者上,準確預測出非編碼突變會造成附近的基因活化。
不過,AlphaGenome仍有許多限制,例如資料來源有限、無法全面預測複雜疾病風險、尚未了解細胞變化對序列功能的影響及對於超過十萬個鹼基對的基因調控準確度也有待提升。
紐約冷泉港實驗室的計算生物學家PeterKoo表示,未來研究人員將利用AlphaGenome模型設計新的DNA調控序列,來模擬細胞於基因突變下的作用。
目前,AlphaGenome開放給非商業用途的研究人員使用,未來計劃發布更完整的版本。
資料來源:
1.https://www.nature.com/articles/d41586-025-01998-w
2.alphagenome.pdf
(編譯/實習記者 康芸榛)