AI聊天機器人能取代醫師嗎？《BMJ》大型語言模型幾乎都有認知障礙！

撰文記者吳培安

日期2024-12-27

(圖片來源/Pixabay)

A-
A+

加入收藏

從ChatGPT、Gemini到Claude，現有的大型語言模型(LLM)，幾乎都有認知功能障礙？美國時間20日，一項發表在《英國醫學雜誌》(BMJ)的研究，將用於檢驗老年人認知功能障礙的測試方法，套用在數項可公開取得的大型語言模型中，並發現它們幾乎都展現出輕度認知功能障礙，可能阻礙它們在臨床上的應用。

目前人工智慧(AI)領域中的大型語言模型，像是OpenAI的ChatGPT、Alphabet的Gemini、Anthropic的Claude，已經證明使用者透過簡單的文字互動，就能讓這些AI聊天機器人(Chatbot)應對一般型任務、甚至是專一型任務。

人們也開始思考：「在醫學用途上，這些AI是否會取代人類醫師？」

事實上，自2022年ChatGPT首次於線上免費開放使用以來，就有許多醫學期刊的研究比較人類醫師和超級電腦的表現。人們發現，雖然大型語言模型有時會出錯，例如引用不存在的期刊文章，卻也證實了它們確實在醫學檢查上相當擅長，甚至表現有時比人類醫師還要好。

不過，本研究第一作者以色列哈達薩醫學中心(Hadassah Medical Center)醫學生Roy Dayan與其團隊指出，大型語言模型還沒有接受過認知功能障礙的測試。如果未來我們要仰賴它們進行醫療診斷和照護，我們就必須檢查它們對這些人類缺陷的敏感性。

測驗結果：視覺與空間能力和執行任務，是聊天機器人的弱點?!

在這項研究中，研究團隊將使用檢測認知功能損傷及早期失智的「蒙特婁測試」(Montreal Cognitive Assessment, MoCA)，針對ChatGPT、Claude、Gemini等可公開取得的大型語言模型加以測試。

研究團隊遵循正式指南，由神經科醫師透過一系列的簡短任務和問題，評估注意力、記憶、語言、視覺與空間能力、執行功能等面向。MoCA滿分為30分，若得分26分或以上，普遍視為認知功能正常。

結果顯示，ChatGPT-4o得到了26分，ChatGPT-4、Claude得到25分，Gemini 1.0只得到了16分。

其中，所有的聊天機器人在視覺與空間能力和執行任務表現都很差，例如路徑描繪測試(trail making task)和畫鐘測驗(clock drawing test)；Gemini則並未通過延遲回憶測試(delayed recall task)。

不過，在大多數測試中，例如命名、注意力、語言、摘要能力，聊天機器人表現都很好；但在進一步的視覺與空間能力測試中，它們無法表現出共感(empathy)或準確辨別複雜的視覺場景。

此外，只有ChatGPT-4o成功在斯特魯普顏色與文字測試(Stroop test)的不一致階段中獲得成功。這項測試旨在評估干擾對測驗者處理任務反應時間的影響。

研究團隊認為，這些觀察結果顯示人腦與大型語言模型之間存在本質上的差異，所有的大型語言模型在視覺抽象和執行功能中一致失敗，這些缺陷可能會阻礙它們在臨床環境中的應用。

參考資料：
https://www.sci.news/othersciences/computerscience/large-language-models-mild-cognitive-impairment-13527.html
原始研究：
https://www.bmj.com/content/387/bmj-2024-081948