從ChatGPT、Gemini到Claude,現有的大型語言模型(LLM),幾乎都有認知功能障礙?美國時間20日,一項發表在《英國醫學雜誌》(BMJ)的研究,將用於檢驗老年人認知功能障礙的測試方法,套用在數項可公開取得的大型語言模型中,並發現它們幾乎都展現出輕度認知功能障礙,可能阻礙它們在臨床上的應用。
目前人工智慧(AI)領域中的大型語言模型,像是OpenAI的ChatGPT、Alphabet的Gemini、Anthropic的Claude,已經證明使用者透過簡單的文字互動,就能讓這些AI聊天機器人(Chatbot)應對一般型任務、甚至是專一型任務。
人們也開始思考:「在醫學用途上,這些AI是否會取代人類醫師?」
事實上,自2022年ChatGPT首次於線上免費開放使用以來,就有許多醫學期刊的研究比較人類醫師和超級電腦的表現。人們發現,雖然大型語言模型有時會出錯,例如引用不存在的期刊文章,卻也證實了它們確實在醫學檢查上相當擅長,甚至表現有時比人類醫師還要好。
不過,本研究第一作者以色列哈達薩醫學中心(Hadassah Medical Center)醫學生Roy Dayan與其團隊指出,大型語言模型還沒有接受過認知功能障礙的測試。如果未來我們要仰賴它們進行醫療診斷和照護,我們就必須檢查它們對這些人類缺陷的敏感性。
測驗結果:視覺與空間能力和執行任務,是聊天機器人的弱點?!
在這項研究中,研究團隊將使用檢測認知功能損傷及早期失智的「蒙特婁測試」(Montreal Cognitive Assessment, MoCA),針對ChatGPT、Claude、Gemini等可公開取得的大型語言模型加以測試。
研究團隊遵循正式指南,由神經科醫師透過一系列的簡短任務和問題,評估注意力、記憶、語言、視覺與空間能力、執行功能等面向。MoCA滿分為30分,若得分26分或以上,普遍視為認知功能正常。
結果顯示,ChatGPT-4o得到了26分,ChatGPT-4、Claude得到25分,Gemini 1.0只得到了16分。
其中,所有的聊天機器人在視覺與空間能力和執行任務表現都很差,例如路徑描繪測試(trail making task)和畫鐘測驗(clock drawing test);Gemini則並未通過延遲回憶測試(delayed recall task)。
不過,在大多數測試中,例如命名、注意力、語言、摘要能力,聊天機器人表現都很好;但在進一步的視覺與空間能力測試中,它們無法表現出共感(empathy)或準確辨別複雜的視覺場景。
此外,只有ChatGPT-4o成功在斯特魯普顏色與文字測試(Stroop test)的不一致階段中獲得成功。這項測試旨在評估干擾對測驗者處理任務反應時間的影響。
研究團隊認為,這些觀察結果顯示人腦與大型語言模型之間存在本質上的差異,所有的大型語言模型在視覺抽象和執行功能中一致失敗,這些缺陷可能會阻礙它們在臨床環境中的應用。
參考資料:
https://www.sci.news/othersciences/computerscience/large-language-models-mild-cognitive-impairment-13527.html
原始研究:
https://www.bmj.com/content/387/bmj-2024-081948