美國FDA自2018年批准首個眼科AI輔助診斷軟體,目前僅有兩項產品獲得批准。昨(5)日,一項研究,採用23,724名退伍軍人共311,604張視網膜圖像,進行5家AI公司7種演算法(包含一家獲FDA批准的演算法)比較,結果顯示,演算法間的靈敏度(sensitivities)差異很大,且近一半判讀結果比不上醫生專業。相關研究已發表在《Diabetes Care》期刊上。
此為一項多中心、非介入性設備驗證的研究,該研究使用五家,包括:美國已獲FDA批准的Eyenuk,以及Retina-AI Health、中國Airdoc、葡萄牙Retmarker和法國OphtAI 公司的7 種視網膜病變(DR)判讀演算法。
評估2006年至2018年葡吉特海灣(Puget Sound)、亞特蘭大(Atlanta)退伍軍人管理局(VC)的遠距視網膜病變篩查圖像。
結果顯示,儘管觀察到82.72–93.69%較高的陰性預測值(NPV),但各家靈敏度差異很大(50.98–85.90%),且近一半的演算法期檢測結果,不如醫師的判斷。
不過其中還是有兩項產品靈敏度較高,也有一項其靈敏度(80.47%,P = 0.441)和特異性(81.28%,P = 0.195)相近。
研究也發現,在分析西雅圖和亞特蘭大醫療機構的患者群體的圖像時,演算法的性能也會有所不同。
華盛頓大學醫學院眼科學助理教授Aaron Lee表示,研究的結果令人震驚,顯示這些演算法無法在不同的地方執行始終如一的預測能力。
不過研究者認為,誤差的結果可能是因為相機設備和拍攝技術差異導致,因此該研究也強調,「任何想用AI演算法作為篩查,都必須先正確獲取患者眼睛圖像,除此之外,演算法在訓練時,也應納入不同地區、更多種圖像來訓練,才能提高靈敏度。」
研究者表示,7種DR篩選演算法明顯出現性能上的差異,且不如他們研究報告中聲稱的出色結果,這些演算法,在臨床使用前,最好還是在真實數據上進行嚴格測試。
資料來源:https://www.news-medical.net/news/20210105/AI-screening-algorithms-to-diagnose-diabetic-retinopathy-do-not-show-consistent-performance.aspx