史丹佛研究：Chat GPT無法提高醫師診斷準確性？

日期2024-11-19

A-
A+

加入收藏

近日(10月28日)，史丹佛大學醫學院(Stanford University School of Medicine)研究發現，使用大語言模型(LLM)──Chat GPT-4輔助醫師進行診斷，正確率為76.3%，與使用傳統診斷方法的正確率73.7%相差不多，但單獨使用Chat GPT-4診斷推理正確率則高達92%，顯示醫師與AI的合作還需要培訓和臨床整合。該研究發表於《JAMA Network》。

該研究招募50名醫師，共有24名主治醫師、26名住院醫師，分別來自史丹佛大學醫學院、貝斯以色列女執事醫療中心(BIDMC)、維吉尼亞大學(University of Virginia)，領域橫跨家庭醫學科、內科、急診醫學科，平均執業3年。

受試醫師會隨機分為兩組，一組使用傳統診斷資源加上Chat GPT-4輔助或是僅使用傳統診斷資源，傳統診斷資源包含醫療手冊或網路搜尋，在60分鐘內針對6個臨床案例進行診斷推理(diagnostic reasoning)，包含患者實際病史、體檢數據和實驗室生化數據。

參與試驗的醫師總共完成244例案例診斷推理，Chat GPT-4組完成125例，對照組完成119例。

Chat GPT-4診斷正確率達92% 優於醫師！？

試驗結果顯示，搭配Chat GPT-4組的醫師診斷推理正確的比率平均為76.3%，而僅使用傳統診斷組的醫師診斷推理正確的比率平均為73.7%；Chat GPT-4組平均每個案例花費時間為519秒，傳統診斷組平均每個案例花費時間為565秒，有使用Chat GPT-4輔助的醫師平均快近1分鐘。

但令人驚訝的是，單獨以Chat GPT-4進行診斷推理的正確率為92%。

共同主要作者、史丹佛醫學院博士後學者Ethan Goh指出，在此次研究中顯示，Chat GPT-4十分有潛力成為醫療診斷的強大工具，但醫師使用Chat GPT-4在具有挑戰性的臨床病例診斷上卻沒有改善。

Goh表示，這項違反直覺研究顯示，醫生與人工智慧的合作還有進一步改善的空間，透過有效的培訓和臨床整合，相信大語言模型最終可以讓患者受益。

Goh指出，目前大語言模型最有前途的公認應用之一是減少現代醫學中診斷錯誤，至今，許多研究顯示大語言模型可以處理醫學推理考試問題，但人工智慧工具在教育之外的實際臨床環境中的應用尚未得到充分檢驗。

Goh認為，醫生的信任是關鍵，使用Chat GPT-4組別中許多醫生不同意或不考慮Chat GPT-4的診斷預測，要贏得醫師信任，可能需要醫師了解人工智慧模型背後是如何被訓練以及使用什麼資料庫。

在這項研究後，史丹佛大學、BIDMC、維吉尼亞大學和明尼蘇達大學(University of Minnesota)還共同啟動一個名為人工智慧研究和科學評估(AI Research and Science Evaluation, ARiSE)的人工智慧評估網絡，以進一步評估生成式AI(GenAI)在醫療保健領域的應用。

參考資料：https://hai.stanford.edu/news/can-ai-improve-medical-diagnostic-accuracy
論文：https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395

(編譯/李林璦)