資料是未來的油礦，誰能夠在裡頭存得久？

撰文編輯部

日期2020-01-15

石瑜：美國范德堡大學(Vanderbilt University)癌症中心副主任

A-
A+

加入收藏

擁有密歇根大學生物統計學博士學位的石瑜博士，自1994年就加入美國范德堡大學，目前同時是該校定量科學中心暨生物統計學系主任。

石瑜在期刊上發表了超過470篇論文，以其生物統計和健康政策研究而享譽國際，是歐巴馬精準醫學研究的重要推手之一。

石瑜是范德堡大學基因體分析和研究設計技術(VANGARD)的創始人。 VANGARD於2012年開發，整合了該校相關基因體學數據，並且還開發了用於臨床試驗設計及體學(Omics)數據處理的生物統計學和生物資訊學方法，能協助研究人員利用次世代基因測序和其他新穎的基因體學技術進行分析預測。

他現在也是美國統計協會(ASA)會員、美國科學促進協會(AAA)當選會員、美國國家醫學科學院(IOM)分子標靶療法生物標誌物臨床開發政策委員會的成員，以及美國FDA諮詢委員會的投票成員。

石瑜現在仍持續專注研究能徹底革新用於下一代測序數據的生物統計學方法，期透過可用數據為疾病的因果途徑、風險、診斷及治療，提供前所未有的理解機會，以及超高精準度的預測。

「精準醫學」一詞在2015年經美國總統歐巴馬登高一呼，成為生技醫療產業界熱門的話題，更帶動數據科學的應用。

美國正積極建立跨世代的健康資料，未來可望將醫療大數據(big data)導入臨床，將病程進展、用藥及照護等訊息轉換成智慧數據(Smart Data)，並透過人工智慧(AI)提供有價值、可操作的數據(Actionable Data)，以幫助臨床醫師決策。

精準醫學的進展可分成三大部分來看，第一部分是健康數據科學近年來的發展。

美國精準醫學旗艦–「All of US計畫」

歐巴馬在卸任前，於2016年12月23日簽署了最後一個與健康有關的法案，也就是《21世紀醫療法案》(21st Century Cure Act)，裡面提及美國要進行精準醫學研究，建立100萬人的跨世代健康資料。並依據《21世紀醫療法案》，正式啟動了精準醫學的旗艦計畫─「All of US計畫」。

2018年5月6日，All of US計畫正式推出，重點放在「研究」。由於每家醫院都有上百個甚至以上的資料庫(Database)，但是大部分資料庫都不是為了研究而設計，而是為了內部管理和溝通，或需要資料庫申報保險。

因此，All of US計畫根據參與者的基因、縱向電子健康紀錄數據(Longitudinal EHR Data)、環境及生活方式等因子，建立了一個擁有這些資訊的研究群體。

與英國10萬國民基因資料庫計畫招募40歲以上的志願者不同，在美國的計畫中，所有成年人都可以成為志願者，國立衛生研究院(NIH)甚至同意小孩子也可以進入研究群體。

而位於美國田納西州的范德堡大學，在全美醫學院科研經費排名前10，投入精準醫學領域已超過10年。

因此，獲得該計畫合約及7,100萬美金的經費發展數據及研究中心，計畫總主持人為醫學博士Joshua Denny。

美國政府還同時選擇了哈佛和麻省理工學院等3所學校進行定序工作，而所有參加計畫者的生物樣本則統一送到梅約診所(Mayo Clinic)，因為他們擁有生物樣本農場(BIOFarm)，可集中所有的生物樣本。

截至目前為止，美國50個州已經有30萬名參與者註冊，有24萬4,000個生物樣本已送到梅約診所。

電子健康紀錄(EHR)則有15萬3,000個，是其中最具挑戰的部分，只有一半的人完成。根據2019年12月18日的最新資料，女性參與者達6成，若以年齡分布來說，約有40%是年輕人。

計劃的另一個創舉是，數據中心把最原始的檔案都公開在網頁上，讓全世界有興趣的專業人員能查找、做研究，資料包含身體狀況、藥物揭露、實驗室檢測、唾液、血液、尿液、基因等生理分析，並搭配強大的雲端搜尋引擎，可以形成一個世代研究的數據(Data Cohort)來回答研究問題，甚至成為政府擬定衛生政策時的重要參考依據。

資料就是未來的油礦，誰能夠在裡頭存得久，這些縱向和橫向數據一旦到未來，就會讓這個油礦更豐富。

AI影像學成功率高臨床診斷仍待努力

第二部分，是當前AI應用於癌症的進程及侷限。

現今AI風靡全球，但AI在醫學上的應用其實仍遠落後於其他領域，可以說，除了AI應用在影像組學(Radiomics)外，我們還需要很多努力。

目前，美國FDA核准的AI也大多從影像學的CT、X光到MRI的角度來看AI應用的程度。2019年9月，美國FDA核准GE Healthcare在一個硬體上為氣胸患者提供AI驅動的新型X光設備。這類氣胸屬於罕見疾病，一般醫生診斷需花好幾個小時，但運用AI只需要幾分鐘。

另一個AI運用在醫學影像的例子，是近期一篇發表在《細胞》(Cell)期刊的文章。該研究發現，大部分的癌症病人不是死於原生腫瘤，而是因癌細胞轉移而造成死亡。

藉由透視老鼠，AI可以抓到每個細胞的移動點，給藥之後，能發現哪些藥物確實到了癌細胞身上、又哪些因癌細胞跑掉而沒有抓到藥。這篇文章並指出，25％的癌細胞在正常的治療中還是會跑掉，可見癌症的轉移為何如此普遍。

但即使AI在影像學的應用非常成功，但為何AI在臨床決策上卻仍難以快速進展呢？

問題在於除了影像之外，我們並沒有發表出優秀的期刊論文。

許多研究報告只有10個或20個參與者，實驗設計也並不嚴謹。如果把這些東西丟到AI，AI大概會告訴你：「我不想跟你講話了，你在說笑嗎？這是不可能的。」。

而這也突顯了AI並無法掌握全部資訊的限制，導致目前臨床決策還無法用AI輕易達成。

大數據科學背後，必須要有好的實驗設計

第三部分，是進入數據科學產業化前景的挑戰。
許多人花了很大的力氣，想把所屬醫院過去10年罹患某癌症的所有病人資料都蒐集起來，卻忽略了想要對照的對象，以及想獲得什麼結論。
國外近期發表一篇文章提醒，做液態活檢必須要有白血球，但白血球的細胞含有許多突變的資訊。也就是，如果沒有正控制組、負控制組，做出來的結果可能會不可靠。
該文章另一個重要的提醒是，做定序時，深度一定要夠。例如：平常細胞數抓到100就已經OK了，但若要不會有漏網之魚，就要做到6萬個。否則，你抓進來分析之後，往往發現液態活檢跟組織切片並不完全一樣。
該文章最後也提到，有相符的游離DNA (cfDNA)白血球定序也很重要，如此才能正確詮釋變異體，而這就是所謂的深度要夠深。只是，這要花很多錢。
然而，重點並不在「錢」，而是一個大數據的背後，必須要有好的實驗設計。從數據科學的角度看，一個活檢只是一塊東西，但整個腫瘤是更大的區塊，而且每個細胞之間具有異質性，所以必須進行單細胞定序。

大數據用於醫療健康產業的實例

目前，美國幾家公司運用數據科學已經有相當的成果。包括：Amazon在2019年9月底正式啟用線上醫療診所Amazon Care，對總部員工開放，也收購了線上藥廠PillPack，打破了距離和時間。舉例，在未來，美國某個病人晚上11點開始不舒服，但夏威夷才下午5點，當地的醫生願意為這個病人診斷、可賺進醫生門診費用(Doctor's Office Visit Fee)。
此外，美國很多州都已有無人機，醫師開了藥，凌晨2點無人機就把藥丟到病人家門口，20~30年以後，30％的美國人都會在Amazon Care上，可能一點都不讓人驚訝。
又如羅氏(Roche)花了19億美金買下才剛成立幾年的Flatiron Health，這間公司資產只有數據，但他們擁有250個社區醫院高品質的真實世界(high quality real world)資料。
另一個是由Google成立的Verily，范德堡大學的All of US 計畫就是與這間公司合作。他們從嬰兒生下來那天起，所有的資料都在監控內。
現在，我們常說出門不要忘記帶手機，等到下個世代出現，可能會說，不要忘了穿戴裝置，因為每一天、每一刻都在蒐集數據。
總之，數據科學在癌症的應用趨勢及產業化前景，是讓人期許的。數據科學家必須投資在方法學，包括：人工智慧、學習機器、統計、建立模型及視覺化工具的發展，以便進行分析「三方互動」。
三方互動也是未來必然的趨勢，所謂三方將涵蓋細胞、當今醫界討論熱度很高的人類微生物組、以及藥物與環境的挑戰。
未來十年，也必須在新範圍的數據科學上，如：單細胞定序、人類微生物組的生物資訊分析方法(Microbiome Methodologies)及免疫治療，持續努力！

>>本文刊登自《環球生技月刊》Vol. 70

(本文由鴻海(富士康)科技集團/健康科技事業群提供，翻譯整理/李桂蜜、趙敏，本刊有增刪修。)