類似的研究其實早在2022年便有其他團隊著手,然而RNA病毒演化快速,因此從現有的基因體序列資料中辨識RNA病毒的方法可能會遺漏很多病毒。
目前研究RNA病毒最有效的方式為尋找基因體中用於RNA複製的關鍵蛋白質,即RNA依賴性RNA聚合酶(RNA-dependent RNA polymerase, RdRp),但若此蛋白質序列與已知序列有極大出入,研究人員便無法辨識。
施莽和Holmes研究團隊利用每種已知RNA聚合酶結構訓練出LucaPort,此深度學習模型能夠在新資料庫中找出類RNA聚合酶序列。在論文中,LucaPort解析了高達51TB的數據量,其中含有各種環境定序出的結果,包含:水中、土壤中、空氣中、食物中、極端環境中(高鹽、高溫、低溫)、植物宿主、動物宿主以及人造的,總共發現了16萬種RNA病毒並形成180個全新的超級族群(supergroups),其中包含7萬種從未發現過的RNA病毒。
LucaPort數據皆公開於Sequence Read Archive(SRA),並由美國國家生物技術資訊中心(NCBI)維護。Holmes在採訪中表示,發現一個超級族群等同於在動物界發現一個新的門,意指這些病毒的差距好比於螃蟹與蚯蚓或貓與水母的差異。
LucaProt的問世立下了RNA病毒研究的里程碑,其數據也顯示出RNA病毒無所不在。縱使大多數RNA病毒不會感染人類,但該病毒確實包含著名的人類病原體,如SARS-CoV-2、流感、伊波拉病毒,因此LucaProt的深度學習策略也提供未來醫學研究一個方向。
相同領域的研究學者,加拿大多倫多大學(University of Toronto)助理教授Artem Babaian表示,擴大已知病毒圈有助於找到更多相似病毒,並且了解即使病毒不會引起疾病,也會影因此影響人類健康。除此之外,作者Holmes進一步發想新病毒可以提供新的酵素和蛋白質,例如,生活在溫泉中的病毒有承受極端溫度的RNA聚合酶。
在施莽和Holmes研究團隊建立了LucaProt深度學習演算法後,施莽目前正在開發一個模型來預測這些新發現的RNA病毒宿主,希望這將有助於研究人員了解病毒在環境生態中的定位。
參考資料:
https://www.fiercebiotech.com/research/deep-learning-ai-model-scans-dark-matter-genomic-data-and-finds-70000-never-seen-rna
https://www.nature.com/articles/d41586-024-03320-6
https://www.cell.com/cell/pdf/S0092-8674(24)01085-7.pdf
(編譯/黃佳啟)