幾乎涵蓋所有已知蛋白質!DeepMind以AI預測2億蛋白質結構

撰文記者 李林璦
日期2022-07-30
幾乎涵蓋所有已知蛋白質!DeepMind以AI預測2億蛋白質結構(圖片來源:DeepMind)
美國時間28日,Google的姊妹公司DeepMind與歐洲生物資訊研究所(EMBL-EBI)合作,運用人工智慧(AI)演算法AlphaFold構建出超過100萬個物種、超過2.14億個蛋白質結構數據庫--AlphaFoldDB,幾乎涵蓋了目前科學研究上發現的所有已知蛋白質,最重要的是,該數據庫將免費提供給科學界使用。

DeepMind表示,該數據庫可應用的範圍除了研究疾病機制和開發藥物外,還可運用至永續和糧食不足等相關研究。

AlphaFoldDB數據庫中涵蓋了來自動物、植物、真菌、細菌等蛋白質結構,並可以在UniProt、Ensembl和OpenTargets網站上查看數據庫,也可以透過GitHub下載蛋白質結構數據。

2020年時,DeepMind開發的人工智慧模型AlphaFold2,成功以原子級的精準度,預測簡單的氨基酸鏈如何摺疊為三維結構,在國際蛋白質結構預測競賽(CASP)中贏得冠軍,解決50年來生物學界對於預測「蛋白質結構」的難題。

僅在半年後,2021年7月,DeepMind就與歐洲生物資訊研究所共同推出AlphaFold數據庫,當時,該數據庫涵蓋人類和20種常用動物模型的35萬個蛋白質結構,並且對98.5%的人類蛋白質結構進行準確的預測。該數據庫發布至今,已有超過50個來自世界各地的科學家使用該AI系統,並在研究論文中被引用了4000多次。

其運用人工智慧預測蛋白質結構的一系列突破也獲《Science》評選為2021年年度科學突破。

而此次,DeepMind與歐洲生物資訊研究所更進一步,AlphaFold對蛋白質結構的預測不再局限於人類與動物模型,而是拓展至涵蓋動植物、細菌等100萬個物種,預測的蛋白質結構數量也提升了數百倍,達到超過2億個蛋白質結構,與一年前的35萬個蛋白質結構相比,呈現巨大的飛躍式成長。

DeepMind與歐洲生物資訊研究所團隊表示,在超過2億個蛋白質結構預測中,大約35%的蛋白質結構具高度準確度,媲美透過實驗室分析所取得的蛋白質結構;而有80%可靠性的蛋白質結構足以進行多項後續分析。

美國斯克里普斯研究所(Scripps Research Institute)創辦人暨主任Eric Topol表示,AlphaFold 是生命科學領域中的重大突破,展示出人工智慧的驚人力量。以往確認蛋白質的3D結構需要數月或數年,現在只需幾秒鐘。

他指出,AlphaFold不僅加速了科學研究,更實現了大規模的發現,包括破解核孔複合體(nuclear pore complex)的結構,期待未來有更多的生物謎團被解開。

不過,目前的AlphaFold仍有改良的空間,倫敦大學學院結構與分子生物學研究所的研究員Tomek Wlodarski 提出,利用AI模型預測蛋白質如何折疊,仍然不是最終的蛋白質結構。

DeepMind的研發主管Pushmeet Kohli也指出,目前正在提升AlphaFold的準確性與性能,並試圖瞭解這些蛋白質的行為、以及與其他蛋白質的交互作用。

參考資料:https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

AlphaFold蛋白質結構數據庫:https://github.com/deepmind/alphafold/blob/main/afdb/README.md

(編譯/李林璦)