美軟體公司創「AI蛋白質設計系統」登《Nature》子刊 百萬個序列快速生成!

撰文記者 巫芝岳
日期2023-01-31
美軟體公司創「AI蛋白質設計系統」登《Nature》子刊 百萬個序列快速生成! (圖片來源:網路)

近日(1月26日),加州軟體公司Salesforce的研究團隊Salesforce Research,開發出一套能自動創建「人造蛋白質」的AI系統,且實驗發現,其中一些人造蛋白質,即便氨基酸序列和天然蛋白質有顯著差異,但其生物功能卻和天然的一樣有效,顯示AI應用在蛋白質工程的龐大潛力。該研究發表於期刊《Nature Biotechnology》。

該團隊開發出一項名為「ProGen」的AI模型,透過將2.8億種不同蛋白質的氨基酸序列,輸入機器學習模型後,花費數週時間使其「消化訊息」,接著再透過來自5個溶菌酶(lysozyme)家族、共56,000個序列,以及這些蛋白質相關的上、下游化學訊息來啟動模型,並進而對模型進行微調。

接著,ProGen就能迅速生成100萬個序列,研究團隊則根據其與天然蛋白質序列的相似程度,以及AI蛋白質的潛在氨基酸「語法」(grammar)和「語義」(semantics)的自然程度,選擇了100個序列進行測試。

其邏輯類似AI中的「自然語言」(natural language),運用自然語言處理(NLP)技術處理大量的語音或文字資料並進而分析,就能讓電腦自動回應人類所需的訊息。

在與加州生技公司Tierra Biosciences合作下,該團隊從100個序列中製作出5種人工蛋白質,並在細胞中進行測試,將其活性與雞蛋中的雞蛋白溶菌酶(HEWL)進行比較。

他們發現,其中兩種人工蛋白質,和HEWL具有相當的活性,能分解細菌的細胞壁,但該兩種人工蛋白質卻只有18%的序列相同,且相較於任何已知天然蛋白質,其序列相似度分別為90%和70%。

通常,在天然蛋白質中,光是單一個序列的突變就會導致其失去活性,但在另一輪篩選中,研究小組發現,AI生成的蛋白質,即使只有31.4%的序列與天然蛋白質相似,AI生成的蛋白質仍具有活性。

而以X光繞射量測蛋白質結晶下,可發現這些序列異於天然蛋白質的人造蛋白質,原子結構看起來與其對應的天然蛋白幾乎一樣。顯然,該AI模型能夠透過研究原始序列數據,來了解蛋白質應如何形成。

雲端軟體公司Salesforce,是由曾為甲骨文(Oracle)公司最年輕高級副總裁Marc Benioff,在1999年時所創辦。該公司在2020年,運用其最初開發用於生成英文文字的NLP技術,開發出ProGen。

Salesforce Research的AI研究總監Nikhil Naik表示,蛋白質設計選擇數量十分龐大,對最多約有300個氨基酸的溶菌酶來說,從20種常見氨基酸進行組合,就有20的300次方種可能組合。因此,該模型能如此輕鬆地產生人造蛋白質是十分了不起的。

研究人員表示,這項新技術可加速各種新蛋白質的開發,從疾病療法開發到分解塑膠,未來應用十分廣泛。

參考資料:

1.論文原文:https://www.nature.com/articles/s41587-022-01618-2

2.https://www.sciencedaily.com/releases/2023/01/230126124330.htm

(編譯/巫芝岳)