近(11)日,《Nature》期刊以「醫療AI在評估未見過的病患時,出現表現不佳情況」為題,發表了一篇社論,期刊指出人工智慧可高度精確的預測接受過訓練樣本的患者治療成效,但當應用於新患者身上,其精確度似乎有所下降。
這篇社論主要是針對一項神經病學預測模型的研究,該研究使用5種來源不同的抗精神疾病藥物臨床試驗數據,包括北美、亞洲、歐洲、和非洲共1513名被診斷為思覺失調症患者的服藥與症狀數據。
研究小組透過這些數據來訓練演算法,以預測服用四週抗精神病藥物治療後的狀況,透過這些數據開發的演算法,經測試其與數據紀錄中的結果比較,結果得到很高的準確性。
但在用新資料對模型評估時,研究人員發現,該模型在這些新的測試中表現不佳,顯示,當模型應用於未經訓練的資料集時,會出現「隨機的預測」,團隊使用不同的預測演算法重複實驗,也得到類似的結果。
研究作者表示,他們發現目前現有的308個精神疾病預測模型,只有約20%的模型在除了開發的樣本外,還有用上其他樣本進行驗證。
該研究共同作者、耶魯大學的精神病學家Adam Chekroud 表示,這是一個大眾還沒意識到的問題,這項研究證明演算法需要在多個樣本上不斷進行測試。
他認為,「醫療AI的開發應將其視為藥物開發」,因為許多藥物在早期臨床試驗中顯示良好的前景,但通常能在後期表現絕佳效果的不多,醫療AI不能只做一次就認為它是真的。
資料來源:https://www.nature.com/articles/d41586-024-00094-9#ref-CR1