Google醫學問答AI Med-PaLM微調版獲評92.6% 媲美醫療專家

撰文記者劉馨香

日期2023-07-13

Google醫學問答AI Med-PaLM微調版獲評92.6% 媲美醫療專家 (圖：網路)

A-
A+

加入收藏

美國時間12日，Google將其去年底發表的醫學大型語言模型Med-PaLM進一步微調後，研究成果登上《Nature》。結果顯示，該模型回答醫學問題時，一群臨床醫師評分其符合科學共識達92.6%，而真人醫療專家的科學共識評分為92.9%，這代表Med-PaLM可媲美醫師。

此外，回答內容被認為可能造成傷害的比率，Med-PaLM僅5.9%，也與真人醫療專家(5.7%)相近。

不過，Med-PaLM模型還處於早期階段，Google在數個月前才開始在其選定的醫療保健和生命科學組織中進行測試，例如梅奧醫療中心(Mayo Clinic)。Google表示，還未準備好將Med-PaLM應用在患者照護上。

研究該模型的Google研究人員表示，未來，Med-PaLM有潛力成為醫師在遇到不熟悉的病例時的諮詢對象，以及協助完成臨床記錄的繁瑣工作，並造福未能得到任何醫療資源的人們。

在本次發表的研究中，Google也提出了全新的醫學問答評估基準MultiMedQA，包含醫學考試、醫學研究等領域的問題和回答，用於評測大型語言模型在臨床方面的能力。

MultiMedQA由七個醫學問答資料集組成，包含現有的6個資料集：MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU(涵蓋專業醫學、研究和消費者問題)，以及一個新的線上搜尋醫學問題資料集「HealthSearchQA」。

此外，Google於今年5月時發表了另一個新模型Med-PaLM 2，在美國醫師執照考試(USMLE)風格的測試中準確率達86.5%，比原版Med-PaLM的分數(67.2%)高出19％。

參考資料：https://www.bloomberg.com/news/articles/2023-07-12/google-s-med-palm-ai-product-for-medical-industry-isn-t-ready-for-patients-yet
論文：https://www.nature.com/articles/s41586-023-06291-2

(編譯/劉馨香)