這篇社論主要是針對一項神經病學預測模型的研究,該研究使用5種來源不同的抗精神疾病藥物臨床試驗數據,包括北美、亞洲、歐洲、和非洲共1513名被診斷為思覺失調症患者的服藥與症狀數據。
研究小組透過這些數據來訓練演算法,以預測服用四週抗精神病藥物治療後的狀況,透過這些數據開發的演算法,經測試其與數據紀錄中的結果比較,結果得到很高的準確性。
但在用新資料對模型評估時,研究人員發現,該模型在這些新的測試中表現不佳,顯示,當模型應用於未經訓練的資料集時,會出現「隨機的預測」,團隊使用不同的預測演算法重複實驗,也得到類似的結果。
研究作者表示,他們發現目前現有的308個精神疾病預測模型,只有約20%的模型在除了開發的樣本外,還有用上其他樣本進行驗證。
該研究共同作者、耶魯大學的精神病學家Adam Chekroud 表示,這是一個大眾還沒意識到的問題,這項研究證明演算法需要在多個樣本上不斷進行測試。
他認為,「醫療AI的開發應將其視為藥物開發」,因為許多藥物在早期臨床試驗中顯示良好的前景,但通常能在後期表現絕佳效果的不多,醫療AI不能只做一次就認為它是真的。
資料來源:https://www.nature.com/articles/d41586-024-00094-9#ref-CR1