美國時間12日,Google將其去年底發表的醫學大型語言模型Med-PaLM進一步微調後,研究成果登上《Nature》。結果顯示,該模型回答醫學問題時,一群臨床醫師評分其符合科學共識達92.6%,而真人醫療專家的科學共識評分為92.9%,這代表Med-PaLM可媲美醫師。
此外,回答內容被認為可能造成傷害的比率,Med-PaLM僅5.9%,也與真人醫療專家(5.7%)相近。
不過,Med-PaLM模型還處於早期階段,Google在數個月前才開始在其選定的醫療保健和生命科學組織中進行測試,例如梅奧醫療中心(Mayo Clinic)。Google表示,還未準備好將Med-PaLM應用在患者照護上。
研究該模型的Google研究人員表示,未來,Med-PaLM有潛力成為醫師在遇到不熟悉的病例時的諮詢對象,以及協助完成臨床記錄的繁瑣工作,並造福未能得到任何醫療資源的人們。
在本次發表的研究中,Google也提出了全新的醫學問答評估基準MultiMedQA,包含醫學考試、醫學研究等領域的問題和回答,用於評測大型語言模型在臨床方面的能力。
MultiMedQA由七個醫學問答資料集組成,包含現有的6個資料集:MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU(涵蓋專業醫學、研究和消費者問題),以及一個新的線上搜尋醫學問題資料集「HealthSearchQA」。
此外,Google於今年5月時發表了另一個新模型Med-PaLM 2,在美國醫師執照考試(USMLE)風格的測試中準確率達86.5%,比原版Med-PaLM的分數(67.2%)高出19%。
參考資料:https://www.bloomberg.com/news/articles/2023-07-12/google-s-med-palm-ai-product-for-medical-industry-isn-t-ready-for-patients-yet
論文:https://www.nature.com/articles/s41586-023-06291-2
(編譯/劉馨香)