研究者認為這些產品缺乏多樣性患者評估,在臨床使用時,易產生意外結果與偏見。相關研究日前已發表在《Nature Medicine》期刊上。
這項研究,主要是分析2015年1月到2020年12月,美國FDA批准的130種醫療AI設備,在取得批准前如何進行測試與驗證。研究人員發現幾乎所有AI驅動的醫療設備僅接受回顧性研究,且54項高風險產品未通過前瞻性研究評估。
合著者認為,「前瞻性研究」對醫療AI至關重要,因為現場利用可能會偏離預期用途,例如大多數AI設備被設計為決策支援工具,而不是主要診斷工具,而醫師會過度依賴AI設備,導致結果與預期有所出入。
賓州受影響人安全局(Affected person Security Authority)就在監控中發現,從2016年1月到2017年12月,該州的電子健康檔案(HER)內就標註775件問題事件,因人機因素必須負起承擔責任就佔54%,而43%為電腦單純的影響。
史丹福大學的研究人員還發現,在對FDA批准的單位進行評估時,發現130個產品中,93個沒有進行多點評估,只有17項產品有進行不同人種測試。
文章內容表示,大多數眼科數據都來自北美、歐洲和中國,說明目前眼科診斷的演算法對於不同種族、國籍代表性不足。另外,多倫多大學和麻省理工學院的研究人員也發現,胸部X光的數據中也出現種族、性別和社會經濟等偏見。
研究人員說,多個臨床中心的評估是解決演算法在設備、技術人員、圖像儲存格式、人口結構、和疾病患病率變化,而造成偏差的關鍵步驟。
資料來源:https://venturebeat.com/2021/04/12/some-fda-approved-ai-medical-devices-are-not-adequately-evaluated-stanford-study-says/