近日,Google的科學家開發出,可從呼吸與咳嗽等聲音辨識健康狀態的機器學習工具,名為Health Acoustic Representations (HeAR),這項人工智慧(AI)透過3億多部Youtube影片的聲音進行訓練,未來有望可以被醫生用於診斷新冠肺炎(COVID-19)與肺結核等肺部疾病。該研究發表於預印本平台《arXiv》。
用聲音作為疾病的生物標記並非嶄新概念,尤其是在COVID-19期間備受矚目。臺灣亦有「聿信醫療器材科技」以呼吸音開發AI連續呼吸偵測系統的智慧醫材,並且已獲美國食品藥物管理局(FDA)和臺灣食藥署(TFDA)認證。
而此次Google發表的研究新穎之處,在於背後用來訓練人工智慧的海量數據庫,以及Google聲稱只需要微調即可應用於多種任務。
Google研究人員表示,在開發以聲音作為疾病生物標記的AI工具領域中,大多是使用錄下患者的咳嗽音來進行訓練,這稱為監督式學習(supervised learning),在訓練的過程中將聲音特徵和資料標籤相關聯。
南佛羅里達大學(University of South Florida, USF)醫師Yael Bensoussan表示,在傳統的醫學領域中,我們一直使用的都是監督式學習,好處是有臨床驗證,但是缺點在於可使用的數據因此而受限制。
相反地,Google研究人員使用自監督式學習(self-supervised learning, SSL),數據不需要經過標記也可以使用,Google研究人員透過自動化流程,從公開的YouTube 影片中提取了超過3億個咳嗽、呼吸、清喉嚨和其他人類聲音的短聲音片段。
研究人員進一步將每段聲音片段轉換成「聲譜圖(spectrogram又稱voicegram)」,接著將聲譜圖各部分進行屏蔽,幫助AI模型學習預測缺失的部分,因此而創建出基礎AI模型,研究人員認為該模型可適用於許多不同任務。
Google研究人員指出,由於基礎AI模型已經過海量人類聲音的訓練,因此只要提供非常少量有標註疾病特徵的數據集,就可以微調開發出檢測是否罹患COVID-19、肺結核,以及是否吸煙等AI模型。
而進一步驗證該AI模型對疾病預測的準確度,0.5代表模型的預測不如隨機預測好,1則代表該模型每次都能做出準確預測,在這樣的指標下,HeAR用來檢測COVID-19方面得分為0.645和0.710,該得分不同是取決於提供測試的數據集而定,而在肺結核方面,得分為0.739,顯示使用HeAR比用一般語音或音訊上訓練的現有模型具有更好的性能。
Google研究人員指出,現在判斷HeAR是否會商業化還言之過早,目前是讓有興趣的研究人員可在其研究中使用該模型,這也是Google的機器學習研發團隊Google Research成立的宗旨之一,期望能刺激的這個新興領域的創新。
不過,目前已經有奧克拉荷馬大學(University of Oklahoma)工程師Ali Imran正在開發一款名為AI4COVID-19的應用程式,用於區分COVID-19患者的咳嗽聲與其他類型的咳嗽聲,且正在籌措資金來進行臨床試驗,並將向FDA申請批准。
聿信的AI即時呼吸聽診監測儀,是於2023年3月獲得FDA批准,可以非侵入式的評估方法,監測病患呼吸音,並即時偵測喉部、肺臟與不同肺葉的聲音改變情況,轉換成視覺化圖形呈現,可為醫療人員提供聽覺與視覺的雙重診斷。
參考資料:https://www.nature.com/articles/d41586-024-00869-0#ref-CR1
聿信AI連續肺音監測系統 前進武漢聽診
論文:https://doi.org/10.48550/arXiv.2403.02522