Evo-2是運用從人類、植物、真核生物等12.8萬個物種基因體、共9.3兆個DNA鹼基對訓練而成的AI模型,可以從頭開始寫出整個染色體與小型基因體,也可以理解目前現有的DNA,以及與疾病相關難以解釋的非編碼基因突變。
過去已經有許多科學家開發多個強大的「蛋白質生成AI模型」,像是由EvolutionaryScale開發的蛋白質生成模型ESM3,是目前生物學領域中最大的AI模型之一,該模型在數百萬個蛋白質序列上進行訓練而成,用於幫助預測蛋白質結構並設計全新的蛋白質,包括基因編輯器和螢光蛋白。
但是,Evo-2與過去的AI模型不同,他是在編碼序列和非編碼DNA的基因體數據上進行訓練,2024年發布過Evo第一版,經由8萬個原核生物和噬菌體基因體訓練,自3千億條核苷酸序列中訓練而成,而最新的Evo-2背後訓練的數據遠大於第一版,是迄今最大的生物學AI模型。
延伸閱讀:《Science》AI模型Evo問世 從基因序列推演全新蛋白質
真核生物基因體往往比原核生物更長、更複雜,並由散佈的編碼和非編碼區域片段組成,而非編碼區域的DNA序列與其調控的基因十分遙遠。為了處理這種複雜性,Evo-2設計可以一次處理遠至100萬個鹼基對的DNA序列。
Arc Institute技術長Dave Burke表示,Evo-2模型採用名為StripedHyena 2的新穎架構,可以讓訓練速度「比Transformer優化模型快近三倍」。該模型還具有400億個參數,規模與Meta、DeepMind或OpenAI發布的大型語言模型相似。
預測「非編碼」致病突變 準確率90%以上!
為了證明Evo-2可以預測複雜基因體的能力,研究人員運用Evo-2來預測乳癌和卵巢癌相關基因BRCA1突變的影響,Evo-2在預測哪些突變是良性突變、哪些突變是致病突變上取得90%以上的準確率。
Arc Institute共同創辦人、台裔天才科學家徐安祺(Patrick Hsu)指出,Evo-2是非編碼突變的最先進AI模型,像DeepMind的AlphaMissense就無法達到,未來,Evo-2可以幫助辨識患者基因體中難以解釋的突變。
研究人員還測試了Evo-2破譯複雜基因體的能力,包括長毛象的基因體。此外,Evo-2還可以生成與蛋白質協同工作的新DNA序列,因此,研究人員用來創建新的CRISPR基因編輯器。
研究人員也試圖運用Evo-2設計細菌與病毒基因體,創建出第一個完全合成基因體的細菌──生殖支原體(Mycoplasma genitalium),以及創造出人類粒線體,和一條長達33萬個DNA序列的酵母染色體。
研究人員指出,Evo-2生成的基因體看起來比Evo-1更真實,過去Evo-1生成的基因體常缺乏合理的蛋白質,令人懷疑放到細胞中是否具有作用。
下一步,研究人員將透過實驗來驗證Evo-2設計的序列,像是運用Evo-2設計改變染色質摺疊 DNA序列,然後與另一個實驗室合作,在小鼠胚胎幹細胞中進行測試驗證。
Arc Institute是一家位於加州的研究組織,專門研究生物學結合機器學習的領域,今年1月,NVIDIA和Arc Institute攜手合作開發能推動生物醫學研究的AI模型。
Arc的生物學和機器學習研究人員正與NVIDIA工程師合作,擴大生物學基礎模型的潛力,橫跨DNA、RNA和蛋白質領域,推動藥物發現、多項複雜疾病的合成生物學應用與演化研究等等。
參考資料:https://www.nature.com/articles/d41586-025-00531-3
論文:https://arcinstitute.org/manuscripts/Evo2
(編譯/李林璦)