Prov-GigaPath模型是透過大規模、真實的病理切片圖像資料集來訓練形成,且圖像資料集大小比其他精選蒐集的資料集大5至10倍,包括美國癌症基因體圖譜(The Cancer Genome Atlas)。該模型能準確完成17種典型的病理學任務和9種亞型任務,包括預測泛癌(pan-cancer)基因突變,且優於其他數據病理學方法。
該模型含有超過13億張病理圖像,這些病理圖像是由醫療系統(health system)所提供的17萬張掃描切片所提取,且切片是取自3萬多名患者,涵蓋了31種主要的組織類型。
另外,Prov-GigaPath模型還包括放射學掃描(radiology scans)、基因體學結果(genomics results)和患者健康紀錄。
過去的電腦視覺程式(computer vision programs)面臨的難題,包括無法完整處理標準切片的大量資訊,這些切片通常是高解析度,大量數據會佔據了好幾GB(gigabytes)的空間。因此,電腦視覺程式為了處理大量的資訊,會將圖像分成許多單獨的圖塊來進行分析。
研究團隊為了解決龐大資料量所帶來的挑戰,修改了微軟的LongNet程式,該程式類似大型語言模型,能夠處理更長的數據序列,例如,當發送提示給AI聊天機器人時,這個提示包含數十個相互關聯的單詞或符號,而LongNet程式具有處理該長度序列的能力,甚至可以一次處理多達10億的單詞或符號。
這項調整克服了過去處理切片大量資訊的困難,包括限制了先前計算病理學模型的應用範圍和準確性、無法有效地整合分析整片切片,以及過去計算病理學模型的工具不便。
Providence Genomics的首席醫療長Carlo Bifulco表示,病理切片中包含的豐富數據,透過Prov-GigaPath等AI工具,可以發現肉眼無法觀察到的新見解。
研究團隊表示,未來將利用AI模型開發新的診斷應用,包括腫瘤微環境的研究和幫助治療選擇。
參考資料: https://www.fiercebiotech.com/medtech/microsoft-collaboration-launches-whole-slide-ai-model-digital-pathology
(編譯/實習記者 鐘御慈)