過去使用AI預測蛋白質結構的模型,例如AlphaFold和RoseTTAFold,科學家需透過胺基酸序列預測蛋白質結構,並且根據序列設計新的蛋白質分子。不過AI模型僅能設計小分子蛋白質,且需要夠長的指定片段才能夠形成蛋白質。
團隊從DALL-E、Stable Diffusion和Midjourney等圖片生成工具中獲得靈感,開發去噪擴散概率模型(Denoising Diffusion Probabilistic models, DDPMs)。將DDPMs與RoseTTAFold模型結合產生RFdiffusion(RoseTTAFold Diffusion)模型,以蛋白質數據庫(protein data bank, PDB)中大量真實蛋白質圖片加以訓練。
一開始RFdiffusion隨機將胺基酸分類,會產生許多「噪音」,透過漸進式去噪過程,最後產生全新的蛋白質圖片。若僅給予蛋白質長度的指示,RFdiffusion會產生多種、外觀逼真的蛋白質,與PDB中的蛋白質都不同。科學家也可在去噪的過程中給予模型特殊條件生成特定蛋白質結構,例如,特定摺疊或與其他分子表面結合的構造。
研究結果證實RFdiffusion設計蛋白質結構的準確性。透過RFdiffusion設計流感血凝素(Influenza hemagglutinin)複合物結合的黏著劑,與真實黏著劑的冷凍電子顯微技術(Cryo-electron microscopy, cryo-EM)產生的影像結構進行比對,兩者幾乎完全相同。
RFdiffusion模型已經勝過許多蛋白質設計方法,製造包含蛋白質結合劑、對稱寡聚物和酵素活性部位的設計。團隊中的人工設計蛋白質發展先驅David Baker表示,團隊已利用RFdiffusion製造出治療癌症、自身免疫疾病相關的蛋白質。
此外,科學家也透過RFdiffusion設計出包含p53序列的重要蛋白質,結果顯示,在設計並純化出95種蛋白質中,過半數蛋白質能與MDM2(p53蛋白質的天然標靶)蛋白結合,其中一種蛋白質的結合強度甚至是天然p53蛋白質的1000倍。
Baker表示,雖然RFdiffusion模型讓AI設計蛋白質領域往前推進一步,但距離開發有效療法還有許多困難。其中包含利用該模型設計更複雜的結合蛋白,例如,抗體或T細胞使用的蛋白受體。此外,治療用的蛋白質還需要維持蛋白結合的專一性,以及可大量生產的特性。期待AI設計蛋白質技術能更加進步,成為治療疾病的良藥,為更多患者造福。
參考資料:
https://mp.weixin.qq.com/s/__I4yD7N4LhVY0rO9YZs0g
https://www.ipd.uw.edu/2023/03/rf-diffusion-now-free-and-open-source/
論文:
https://www.nature.com/articles/s41586-023-06415-8
(編譯/實習記者 黃珮嫻)