去年底,Alphabet子公司DeepMind,研發的深度學習系統AlphaFold2,破解了近50年的蛋白質結構預測難題,並在最新一屆的國際蛋白質結構預測競賽(CASP14)中獲得冠軍。美國時間15日,DeepMind於《Nature》期刊上發表了關於此系統使用的更多細節,同時開放AlphaFold2的原始軟體代碼供其他研究人員使用。
另外,華盛頓大學(University of Washington)蛋白質設計研究所David Baker教授,也開發了蛋白質結構預測系統RoseTTAFold,同日也刊登在《Science》期刊上,並供給來自世界各地的科學家使用。
然而他們為蛋白質結構預測帶來什麼樣的突破?DeepMind於發表在《Nature》期刊中寫道,AlphaFold2系統中使用的神經網絡設計很複雜,它是由兩個大的模組組成,並協同彼此間工作以創建、預測蛋白質結構。
第一個模組被DeepMind稱為「Evoformer」,是由48個神經網絡塊組成,每塊又有更多層的網絡組成,它會接收蛋白質的原始基因序列和DNA編碼哪些具有已知結構的蛋白質,以共同優化數據。然後「Evoformer」會將數據視覺化,接著將預測結果傳遞給第二個模組。
第二模組為「結構預測模組」。該模組由8個神經網絡組成,會執行一系列幾何變換,以進一步細化蛋白質的可能形狀;特別的是,該模組會建構蛋白質可能的側鏈(blocks)圖像,在抽象的蛋白質3D圖像中,側鏈是蛋白質主要骨架上分支,形狀如旋轉絲帶(ribbonlike curlicues)。
DeepMind在其論文中指出,即便AlphaFold2已經可對大多數蛋白質結構預測到精度達原子大小的寬度,但仍有一些領域存在困難。像是一些蛋白質的形狀不是由主骨架主導構形發展,而是由側鏈之間的相互作用決定、或是兩個截然不同的胺基酸鏈交織的結構。
研究人員表示,AlphaFold2已經幫助那些使用X光晶體繞射學、冷凍電子顯微鏡來研究蛋白質的科學家,更好的從數據中理解蛋白質的結構。不過AlphaFold2仍會朝著待解決的問題前進,讓AlphaFold2能更準確預測這這種複雜的蛋白質結合。
華盛頓大學蛋白質設計研究所David Baker教授設計的RoseTTAFold蛋白質結構預測方法,則是結合了DeepMind網絡架構,並透過一個包括1D序列級別(sequence level)、2D距離圖級(distance map)、3D座標級別(coordinate level)的3軌(three-track)神經網路,透過其之間的訊息轉換和集成,使預測能達到最佳的性能。
研究指出其預測精準度接近DeepMind在CASP14比賽中的精準度,該網絡還能夠僅從序列字訓中快速生成準確的蛋白質-蛋白質複合體模型,為當前未知結構蛋白質功能提供見解。Baker教授希望RoseTTAFold工具將繼續為蛋白質研究更上一層樓。
蛋白質是生命體中重要的物質,蛋白質結構預測對生醫領域進展有著關鍵的重要性,在過去的五十年中,科學家們利用冷凍電子顯微鏡、核磁共振或X光晶體繞射學等實驗方法,在實驗室中確定蛋白質的形狀,但每種方法都須建立在大量的試錯上,且耗時耗力。
顯然不只DeepMind,現在已有更多科學家開發出好的方法解析蛋白質摺疊的結構,且數據結果斐然,皆能刊登在《Nature》、《Science》重要期刊上,不僅進一步激發該領域發展,也有望為生技醫藥開發帶來新進展。
資料來源:https://fortune.com/2021/07/15/deepmind-alphafold-protein-folding-nature/
https://www.eurekalert.org/pub_releases/2021-07/uows-aps070921.php