醫(yī)藥投資:解碼癌癥,人工智能如何超越醫(yī)生?

“我還能活多久?”這是每個(gè)癌癥患者腦海中浮現(xiàn)的問(wèn)題。然而,治療他們的醫(yī)生卻無(wú)法給出一個(gè)明確的答案。


目前,醫(yī)生們能做的是將患有類似癌癥的患者分為幾大類,然后假設(shè)他們會(huì)對(duì)療法有相同的反應(yīng),并且具有類似的預(yù)后。然而,將患者分類的手段還十分粗糙,很多時(shí)候是基于醫(yī)生的雙眼。


病理學(xué)家們通常基于對(duì)組織切片的評(píng)估來(lái)預(yù)測(cè)患者的預(yù)后情況。他們會(huì)根據(jù)腫瘤的大小和特征來(lái)判斷腫瘤的級(jí)別,然而病理學(xué)家們有時(shí)會(huì)出現(xiàn)分歧,而且腫瘤的級(jí)別并不是總能準(zhǔn)確地預(yù)測(cè)患者的生存期。


1558581389(1).jpg

圖片來(lái)源:123RF


當(dāng)病理學(xué)家分析病理學(xué)圖像時(shí),只有60%的時(shí)候他們會(huì)達(dá)成一致?!彼固垢4髮W(xué)(Stanford University)基因組學(xué)和個(gè)體化醫(yī)藥中心主任Michael Snyder博士說(shuō)。在2013年,他的研究團(tuán)隊(duì)開(kāi)始探索人工智能(AI)能否讓對(duì)癌癥預(yù)后的預(yù)測(cè)更為準(zhǔn)確。


Snyder博士的研究生將組織學(xué)圖像和病理學(xué)家作出的診斷輸入到機(jī)器學(xué)習(xí)算法中,訓(xùn)練它將肺癌和正常組織區(qū)分開(kāi)來(lái),將兩種不同的肺癌區(qū)分開(kāi)來(lái)。然后,他將與這些圖像相關(guān)的患者生存數(shù)據(jù)輸入到系統(tǒng)中,訓(xùn)練AI找出生存數(shù)據(jù)與圖像之間的關(guān)系。最后,他讓機(jī)器學(xué)習(xí)算法分析從來(lái)沒(méi)有見(jiàn)過(guò)的病理圖像,然后向人工智能(AI)提出了“我還能活多久?”這個(gè)對(duì)癌癥患者來(lái)說(shuō)至關(guān)重要的問(wèn)題。


他們的研究發(fā)現(xiàn),AI能夠通過(guò)分析圖像,判斷出特定患者的生存時(shí)間會(huì)比肺癌患者的平均值長(zhǎng)還是短。病理學(xué)家們?nèi)匀浑y以作出這個(gè)看似簡(jiǎn)單的判斷。這項(xiàng)研究發(fā)表在Nature Communications雜志上。


1558581438(1).jpg


受到這一結(jié)果的鼓舞,Snyder博士的團(tuán)隊(duì)將腫瘤的轉(zhuǎn)錄組(transcriptome)信息也輸入到機(jī)器學(xué)習(xí)系統(tǒng)中,將轉(zhuǎn)錄組信息與圖像信息結(jié)合,AI能夠更精確地預(yù)測(cè)患者的生存期,達(dá)到了超過(guò)80%的準(zhǔn)確率


和Snyder博士一樣,很多其它研究團(tuán)隊(duì)也認(rèn)識(shí)到了AI在分析與癌癥相關(guān)的醫(yī)學(xué)圖像和組學(xué)數(shù)據(jù)方面的潛力。雖然這些工具還未能進(jìn)入診所,但是基于AI的分析手段不但能夠更快地作出更準(zhǔn)確的診斷,而且能夠找出最適合特定患者的抗癌療法,甚至預(yù)測(cè)他們的生存時(shí)間。


1558581475(1).jpg


機(jī)器學(xué)習(xí)對(duì)腫瘤研究和治療的影響(圖片來(lái)源:參考資料[1])


輸入:圖像,輸出:診斷


盡早診斷癌癥和開(kāi)始治療是提高患者生存的關(guān)鍵。以宮頸癌為例,早期診斷能夠?qū)⒒颊叩?年生存率提高到90%以上。醫(yī)生可以通過(guò)不同手段將癌前病變清除,然而一旦癌癥發(fā)生轉(zhuǎn)移,5年生存期率會(huì)下降到56%以下。


在發(fā)達(dá)國(guó)家,婦女通常定期接受巴氏涂片(Pap smears)篩查來(lái)發(fā)現(xiàn)異常宮頸細(xì)胞的存在。而在發(fā)展中國(guó)家,這類篩查仍然非常罕見(jiàn)。另一種更為簡(jiǎn)易的檢測(cè)使用醋酸沖洗宮頸表面,然后觀察宮頸中的白色區(qū)域,這可能是癌癥的先兆。然而,“這種檢測(cè)非常不準(zhǔn)確。”美國(guó)國(guó)家癌癥研究所(National Cancer Institute, NCI)的流行病學(xué)家Mark Schiffman博士說(shuō)。這導(dǎo)致有的健康婦女會(huì)接受不必要的治療,而且其它攜帶癌前病變的婦女卻沒(méi)有接受治療。


1558581506(1).jpg


▲Mark Schiffman博士(圖片來(lái)源:NCI官網(wǎng))


Schiffman博士和其它研究團(tuán)隊(duì)一直在尋找一種讓醋酸篩查更為精確的方法。他的研究團(tuán)隊(duì)積累了成千上萬(wàn)張宮頸照片,然而,對(duì)圖片的分析卻不能產(chǎn)生一種精確可靠的診斷方法。


在他瀕臨放棄的時(shí)候,比爾及梅琳達(dá)蓋茨基金會(huì)(Bill & Melinda Gates Foundation)旗下的非營(yíng)利機(jī)構(gòu)向他伸出了援助之手。這家機(jī)構(gòu)想使用機(jī)器學(xué)習(xí)來(lái)處理Schiffman博士收集的圖像,看看計(jì)算機(jī)能否做出醫(yī)生無(wú)法作出的診斷。


于是Schiffman博士和他們合作,使用一種稱為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network)的機(jī)器學(xué)習(xí)手段來(lái)分析宮頸照片。這一算法的目的是發(fā)現(xiàn)圖像中幫助作出正確診斷的特征。


研究團(tuán)隊(duì)輸入機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)庫(kù)包括從9000名婦女中獲得的宮頸圖像,以及這些婦女接受更精準(zhǔn)篩查檢測(cè)的結(jié)果,和長(zhǎng)達(dá)18年與癌前病變和癌癥診斷相關(guān)的隨訪信息。他們用數(shù)據(jù)庫(kù)中70%的信息來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,然后使用剩下30%數(shù)據(jù)中的圖像來(lái)檢測(cè)AI的表現(xiàn)。


1558581530(1).jpg


▲自動(dòng)評(píng)估宮頸照片的AI算法構(gòu)架(圖片來(lái)源:參考資料[4])


Schiffman博士不敢相信實(shí)驗(yàn)的結(jié)果!機(jī)器學(xué)習(xí)能夠以91%的準(zhǔn)確率將健康組織、癌前病變和癌癥區(qū)分開(kāi)來(lái),而醫(yī)生診斷的準(zhǔn)確率只有69%。


基于這項(xiàng)研究,Schiffman博士希望能夠開(kāi)發(fā)出一種經(jīng)濟(jì)簡(jiǎn)便的篩查方法,使用智能手機(jī)的照相機(jī),與基于機(jī)器學(xué)習(xí)的圖像分析結(jié)合,早期篩查宮頸癌。


斯坦福大學(xué)的研究團(tuán)隊(duì)也在利用智能手機(jī)的照相機(jī)來(lái)診斷皮膚病變。他們構(gòu)建了由13萬(wàn)張皮膚病變圖像構(gòu)成的數(shù)據(jù)庫(kù),然后訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)來(lái)區(qū)分良性腫塊和3種不同的惡性皮膚病變。機(jī)器學(xué)習(xí)系統(tǒng)達(dá)到了91%的準(zhǔn)確率,它的表現(xiàn)超過(guò)了大多數(shù)檢查同樣圖片的皮膚科醫(yī)生。


輸入:圖像和組學(xué)數(shù)據(jù),輸出:生存預(yù)測(cè)


Snyder博士團(tuán)隊(duì)的研究已經(jīng)表明,使用組學(xué)數(shù)據(jù)和圖像數(shù)據(jù)相結(jié)合,能夠進(jìn)一步提高對(duì)肺癌患者生存期的判斷。在他們進(jìn)行的研究中,AI對(duì)轉(zhuǎn)錄組和蛋白質(zhì)組學(xué)數(shù)據(jù)的分析發(fā)現(xiàn)了15個(gè)基因的表達(dá)水平能夠以80%的準(zhǔn)確性預(yù)測(cè)腫瘤的級(jí)別。這些基因在DNA復(fù)制,細(xì)胞周期調(diào)控,p53信號(hào)通路等和癌癥生物學(xué)相關(guān)的生理過(guò)程中起到重要作用。


1558581568.jpg


▲AI整合組學(xué)數(shù)據(jù)和圖片信息,預(yù)測(cè)癌癥患者生存期(圖片來(lái)源:參考資料[3])


受到Snyder博士團(tuán)隊(duì)研究的啟發(fā),紐約大學(xué)醫(yī)學(xué)院的研究團(tuán)隊(duì)探索了肺癌圖像和肺癌基因特征之間的關(guān)系。在經(jīng)過(guò)1634張健康或肺癌組織切片的訓(xùn)練后,機(jī)器學(xué)習(xí)系統(tǒng)能夠以97%的準(zhǔn)確率將腺癌和鱗狀細(xì)胞癌區(qū)別開(kāi)。然后,研究團(tuán)隊(duì)將肺腺癌中10種最常見(jiàn)的基因突變數(shù)據(jù)輸入到算法系統(tǒng)中。經(jīng)過(guò)訓(xùn)練,計(jì)算機(jī)系統(tǒng)能夠以73%-86%的準(zhǔn)確率,通過(guò)分析病理學(xué)圖像來(lái)預(yù)測(cè)6種基因突變的存在。


這項(xiàng)研究表明,AI不但能夠幫助進(jìn)行癌癥的診斷,而且能夠幫助醫(yī)生們發(fā)現(xiàn)癌癥的特定遺傳特征,從而指導(dǎo)對(duì)患者的治療選擇。


輸入:組學(xué)數(shù)據(jù),輸出:癌癥進(jìn)化


即使沒(méi)有圖像,組學(xué)數(shù)據(jù)本身也能夠?yàn)榘┌Y治療提供洞見(jiàn)。例如,英國(guó)癌癥研究所(Institute of Cancer Research, ICR)的研究人員在利用機(jī)器學(xué)習(xí)分析基因組學(xué)數(shù)據(jù),理解癌癥的進(jìn)化過(guò)程。一個(gè)腫瘤通常包括從原始癌細(xì)胞中產(chǎn)生的多個(gè)細(xì)胞譜系。想要有效治療癌癥,很重要的一點(diǎn)是理解腫瘤的異質(zhì)性和腫瘤進(jìn)化的方式。如果療法只對(duì)腫瘤的一部分有效,那么癌癥會(huì)復(fù)發(fā)。


通過(guò)對(duì)腫瘤的不同部位采樣,研究人員能夠推斷出癌癥的進(jìn)化路徑。而不同患者的腫瘤,通常具有差別很大的進(jìn)化樹(shù),即便他們患上同樣一種癌癥。ICR的研究人員認(rèn)為,如果他們能夠發(fā)現(xiàn)癌癥進(jìn)化的共同路徑,腫瘤學(xué)家就可以使用這些信息將患者分組,他們可能會(huì)有類似的疾病進(jìn)展,或者對(duì)藥物的反應(yīng)相同。


研究人員使用了一種稱為遷移學(xué)習(xí)(transfer learning)的機(jī)器學(xué)習(xí)系統(tǒng)來(lái)尋找不同患者腫瘤的共同進(jìn)化樹(shù)。這種算法同時(shí)對(duì)所有患者基因組的進(jìn)化樹(shù)進(jìn)行分析,分享從不同進(jìn)化樹(shù)中獲得的信息,然后找出一種與整個(gè)患者群體相符的解決方案。


1558581601(1).jpg


▲AI找尋不同患者腫瘤的共同進(jìn)化途徑(圖片來(lái)源:參考資料[5])


作為第一步檢測(cè),研究人員設(shè)計(jì)了一個(gè)人工構(gòu)建的“假”進(jìn)化樹(shù),然后把相關(guān)的基因組信息輸入到機(jī)器學(xué)習(xí)系統(tǒng)中,不出所料,AI輸出了與研究人員構(gòu)建的進(jìn)化樹(shù)一樣的癌癥進(jìn)化信息。


然后,研究人員用一個(gè)常見(jiàn)的癌癥進(jìn)化樹(shù)來(lái)檢驗(yàn)AI的表現(xiàn)。在結(jié)直腸癌中,良性腺瘤以特定的順序積累癌癥驅(qū)動(dòng)基因的突變,例如:先是APC基因出現(xiàn)突變,然后是KRAS,然后是PIK3CA。研究人員將9個(gè)良性腺瘤和10個(gè)惡性腫瘤的基因組信息輸入給AI,它也能夠描繪出從良性腺瘤向惡性腫瘤轉(zhuǎn)變的正確進(jìn)化樹(shù)。


最后,研究人員讓AI分析進(jìn)化路徑尚不明確的腫瘤樣本。實(shí)驗(yàn)結(jié)果表明,AI根據(jù)99名非小細(xì)胞肺癌患者的基因組信息,將他們分為10個(gè)小組,其中有的小組患者生存期小于150天,而其它小組的患者生存期顯著延長(zhǎng)。這意味著這些分組具有預(yù)測(cè)預(yù)后結(jié)果的價(jià)值。這一算法同時(shí)還將50名乳腺癌患者分為不同小組,每個(gè)小組的患者生存期不一。“我們沒(méi)有預(yù)計(jì)會(huì)出現(xiàn)分組,”這項(xiàng)研究的負(fù)責(zé)人,ICR進(jìn)化和癌癥中心的Andrea Sottoriva博士說(shuō):“這些結(jié)果表明,癌癥的進(jìn)化途徑是可以預(yù)測(cè)的?!盜CR最近啟動(dòng)了一項(xiàng)藥物研發(fā)項(xiàng)目,專門針對(duì)癌癥進(jìn)化開(kāi)發(fā)抗癌療法。


藥物開(kāi)發(fā)依靠的是可以預(yù)測(cè)的規(guī)律,AI是一種幫助發(fā)現(xiàn)具有臨床意義的規(guī)律的有力工具。目前,AI在癌癥研究中的應(yīng)用還剛剛開(kāi)始,可以預(yù)見(jiàn),將來(lái)的AI不只會(huì)整合組學(xué)數(shù)據(jù)和圖像信息,還將整合其它類型的數(shù)據(jù),包括治療結(jié)果、疾病進(jìn)展?fàn)顩r,和其它科學(xué)家們能夠獲取的信息。


“癌癥是一種復(fù)雜的疾病,”Snyder博士說(shuō):“我們需要綜合所有的信息來(lái)打敗它!”


參考資料:

[1] AI Uses Images and Omics to Decode Cancer. Retrieved May 22, 2019, from https://www.the-scientist.com/features/ai-uses-images-and-omics-to-decode-cancer-65732

[2] Yu et al, (2017). Association of Omics Features with Histopathology Patterns in Lung Adenocarcinoma. Cell System, https://doi.org/10.1016/j.cels.2017.10.014

[3] Yu et al, (2016). Predicting non-small cell lung cancer prognosis by fully automated microscopic pathology image features. Nature Communications, https://doi.org/10.1038/ncomms12474

[4] Hu et al, (2019). An Observational Study of Deep Learning and Automated Evaluation of Cervical Images for Cancer Screening. JNCI: Journal of the National Cancer Institute, https://doi.org/10.1093/jnci/djy225

[5] Caravagna et al, (2018). Detecting repeated cancer evolution from multiregion tumor sequencing data. Nature Methods, https://doi.org/10.1038/s41592-018-0108-x