Youtube影片訓練AI！ Google發表咳嗽聲檢測肺病AI模型

日期2024-03-26

A-
A+

加入收藏

近日，Google的科學家開發出，可從呼吸與咳嗽等聲音辨識健康狀態的機器學習工具，名為Health Acoustic Representations (HeAR)，這項人工智慧(AI)透過3億多部Youtube影片的聲音進行訓練，未來有望可以被醫生用於診斷新冠肺炎(COVID-19)與肺結核等肺部疾病。該研究發表於預印本平台《arXiv》。

用聲音作為疾病的生物標記並非嶄新概念，尤其是在COVID-19期間備受矚目。臺灣亦有「聿信醫療器材科技」以呼吸音開發AI連續呼吸偵測系統的智慧醫材，並且已獲美國食品藥物管理局(FDA)和臺灣食藥署(TFDA)認證。

而此次Google發表的研究新穎之處，在於背後用來訓練人工智慧的海量數據庫，以及Google聲稱只需要微調即可應用於多種任務。

Google研究人員表示，在開發以聲音作為疾病生物標記的AI工具領域中，大多是使用錄下患者的咳嗽音來進行訓練，這稱為監督式學習(supervised learning)，在訓練的過程中將聲音特徵和資料標籤相關聯。

南佛羅里達大學(University of South Florida, USF)醫師Yael Bensoussan表示，在傳統的醫學領域中，我們一直使用的都是監督式學習，好處是有臨床驗證，但是缺點在於可使用的數據因此而受限制。

相反地，Google研究人員使用自監督式學習(self-supervised learning, SSL)，數據不需要經過標記也可以使用，Google研究人員透過自動化流程，從公開的YouTube 影片中提取了超過3億個咳嗽、呼吸、清喉嚨和其他人類聲音的短聲音片段。

研究人員進一步將每段聲音片段轉換成「聲譜圖(spectrogram又稱voicegram)」，接著將聲譜圖各部分進行屏蔽，幫助AI模型學習預測缺失的部分，因此而創建出基礎AI模型，研究人員認為該模型可適用於許多不同任務。

Google研究人員指出，由於基礎AI模型已經過海量人類聲音的訓練，因此只要提供非常少量有標註疾病特徵的數據集，就可以微調開發出檢測是否罹患COVID-19、肺結核，以及是否吸煙等AI模型。

而進一步驗證該AI模型對疾病預測的準確度，0.5代表模型的預測不如隨機預測好，1則代表該模型每次都能做出準確預測，在這樣的指標下，HeAR用來檢測COVID-19方面得分為0.645和0.710，該得分不同是取決於提供測試的數據集而定，而在肺結核方面，得分為0.739，顯示使用HeAR比用一般語音或音訊上訓練的現有模型具有更好的性能。

Google研究人員指出，現在判斷HeAR是否會商業化還言之過早，目前是讓有興趣的研究人員可在其研究中使用該模型，這也是Google的機器學習研發團隊Google Research成立的宗旨之一，期望能刺激的這個新興領域的創新。

不過，目前已經有奧克拉荷馬大學(University of Oklahoma)工程師Ali Imran正在開發一款名為AI4COVID-19的應用程式，用於區分COVID-19患者的咳嗽聲與其他類型的咳嗽聲，且正在籌措資金來進行臨床試驗，並將向FDA申請批准。

聿信的AI即時呼吸聽診監測儀，是於2023年3月獲得FDA批准，可以非侵入式的評估方法，監測病患呼吸音，並即時偵測喉部、肺臟與不同肺葉的聲音改變情況，轉換成視覺化圖形呈現，可為醫療人員提供聽覺與視覺的雙重診斷。

參考資料：https://www.nature.com/articles/d41586-024-00869-0#ref-CR1
聿信AI連續肺音監測系統前進武漢聽診
論文：https://doi.org/10.48550/arXiv.2403.02522