該模型在大型基因體序列上維持單核苷酸分辨率,提取嵌入自然進化變異中的複雜分子交互資訊。團隊將Evo擴展至70億參數,解析度提升至131 kb上下文長度(context length),並揭示DNA的縮放定律(scaling law),其結果類似自然語言處理(NLP)、視覺模型所觀察。
Evo經由270萬個原核生物和噬菌體基因體訓練,自3千億條核苷酸序列中學習,展示跨DNA、RNA和蛋白質模式的零樣本功能預測(zero-shot function prediction)。實驗顯示,Evo在突變效應分析上超越以往僅基於DNA或蛋白質序列的AI模型。
為展示創建新內容的能力,Evo分析70,000多個編碼Cas蛋白和RNA引導序列的細菌DNA,設計數百萬個分子版本。研究團隊挑選出11個最有潛力的Cas9變體,並在實驗室合成。結果顯示,Evo設計的最佳Cas9酶在DNA切割效率上與商業版本相當。
研究團隊表示,此為首例AI模型成功進行蛋白質-RNA和蛋白質-DNA的協同設計。傳統上,改良的Cas蛋白來自更高效的細菌酵素,而如今藉助AI技術,無需等待自然演化,即可快速發現並設計全新分子。
論文通訊作者、史丹佛大學計算生物學家Brian L. Hie指出,透過學習整個基因體訊息,Evo了解核苷酸序列微小變化對生物體適應性的影響,能產生超過1兆鹼基、具合理結構的基因體序列,儘管缺乏部分必需基因,他仍相信這是邁向AI設計合成基因體的重要一步。
Brian L. Hie表示 ,Evo已公開發布,以供研究者使用,目前無商業化計劃。
參考文獻: https://www.science.org/content/article/meet-evo-dna-trained-ai-creates-genomes-scratch
論文: https://www.science.org/doi/10.1126/science.ado9336
(編譯/黃佳啟)