當藥物研發(fā)遇上阿里云超算,GHDDI如何實現(xiàn)高通量分子篩選?

2020年6月1日凌晨,武漢市衛(wèi)健委發(fā)布通告稱,5月31日,武漢市對6萬余人進行了核酸檢測,未發(fā)現(xiàn)無癥狀感染者。這是武漢市公布無癥狀感染者人數(shù)以來,首次無癥狀感染者當日新增為零,國內(nèi)抗疫取得又一關(guān)鍵的階段性成果。

 

然而,全球范圍內(nèi)的新冠疫情對社會經(jīng)濟活動帶來的影響還在持續(xù),尋找行之有效的治療方案仍是全球科學(xué)家當下重要的任務(wù)。4月中旬接受央視記者白巖松采訪時,比爾·蓋茨曾特別提及:“GHDDI的研發(fā)團隊將幫助世界更好地理解并對抗疫情。”這家創(chuàng)立于2016年的獨立運營、非營利性質(zhì)新藥研發(fā)機構(gòu),再次以如此高調(diào)的方式進入公眾視野。

 

GHDDI,全稱全球健康藥物研發(fā)中心(Global Health Drug Discovery Institute),由比爾及梅琳達·蓋茨基金會、清華大學(xué)和北京市政府聯(lián)合發(fā)起成立于中國北京。清華大學(xué)藥學(xué)院院長、拜耳特聘教授丁勝教授擔任中心主任。通過匯聚全球頂尖資源、發(fā)揮中國特色優(yōu)勢,GHDDI致力于建設(shè)引領(lǐng)性的生物醫(yī)藥研發(fā)能力和創(chuàng)新藥物轉(zhuǎn)化平臺,攻克人類面臨的重大疾病挑戰(zhàn),改善全球健康。

 

與GHDDI一同抗疫的,還有阿里云。1月29日,阿里云宣布對全球公共科研機構(gòu)免費開放一切AI算力,以支持抗疫。在此之前,阿里云高性能計算平臺就開始免費支持GHDDI研究新冠病毒。

 

早在新冠肺炎疫情爆發(fā)之初的2020年1月,GHDDI即宣布會同清華大學(xué)藥學(xué)院向全球科研人員免費開放了包括高通量藥物篩選平臺和多個化合物庫在內(nèi)的內(nèi)部研發(fā)平臺和藥研資源。隨后,數(shù)以百計的海內(nèi)外科研機構(gòu)和研究團隊基于GHDDI的開放資源進行針對新冠肺炎病毒的藥物、疫苗開發(fā)。

 

藥物篩選平臺和內(nèi)部藥研資源開放的兩天后,GHDDI人工智能研發(fā)團隊就上線了針對新冠病毒研究的一站式科研數(shù)據(jù)與信息共享平臺 “Targeting COVID-19”。據(jù)了解,“Targeting COVID-19”平臺從設(shè)計到搭建完成,耗時僅4天。此外,GHDDI聯(lián)合阿里云共同搭建新冠病毒人工智能全球共享云計算系統(tǒng),用頂尖的數(shù)據(jù)庫和高性能的超算資源助力全球抗疫的創(chuàng)新探索。


高通量:快速鎖定新冠病毒潛在靶點


1月21日,全國已有13個省市相繼出現(xiàn)新冠肺炎確診病例,疫情加劇。同時,新冠病毒基因組序列公開發(fā)布。

 

在阿里云高性能計算負責人何萬青的詢問下,GHDDI人工智能部門負責人潘麓蓉博士比對了新冠病毒和SARS病毒的相似度。意識到這種病毒的潛在威脅,GHDDI決心投入資源幫助對抗新冠病毒。


實際上,GHDDI在1月即模擬了幾乎全部新冠病毒相關(guān)靶點的三維結(jié)構(gòu),并完成全面的同源性、傳染性相關(guān)分析,快速鎖定在后續(xù)藥物開發(fā)、抗體設(shè)計中發(fā)揮關(guān)鍵作用的抗原靶點。確定關(guān)鍵靶點后,GHDDI公布前期研究數(shù)據(jù)供外部團隊進行藥物開發(fā)的同時,也開展了基于計算模型的虛擬藥物分子篩選。

 

動脈網(wǎng)從GHDDI相關(guān)負責人處了解到,GHDDI藥研團隊聚焦“老藥新用”思路,對現(xiàn)有超過9000種抗病毒活性小分子和內(nèi)部ReFRAME化合物庫(內(nèi)含12000多種臨床安全的化合物)進行構(gòu)效關(guān)系和歷史數(shù)據(jù)分析,篩選出幾百個高概率具有抗擊新冠病毒活性的小分子。至此,GHDDI始終秉持開源的態(tài)度,將科研數(shù)據(jù)和基于此間數(shù)據(jù)構(gòu)建的各級抗原靶點表型分析模型對外發(fā)布,供全球科研群體開展后續(xù)的成藥性相關(guān)研究。

 

新冠病毒疫情的背景下,資源和研究成果共享無疑能極大的加速研究者的進展,避免重復(fù)工作。

 

我們知道,藥物研發(fā)是一個非常復(fù)雜和耗時的過程。在化合物發(fā)現(xiàn)階段,傳統(tǒng)方法是通過大量實驗完成篩選,發(fā)現(xiàn)可能適合的化合物。以確定與蛋白病毒酶結(jié)合的小分子為例,由于存在數(shù)量巨大的不同商業(yè)化合物庫,且每個庫的化合物數(shù)以百萬計,合計上億,完全依靠實驗方式一一測試幾乎不可能實現(xiàn)。

微信圖片_20200604141309.jpg

于是,科學(xué)家嘗試通過機器模擬分子化合物與靶點的相互作用等計算方式篩選出可能有效的化合物做小通量實驗。其中一種傳統(tǒng)虛擬篩選方式是通過小分子和靶點對接,對不同配體的結(jié)合效果打分或者通過分子動力學(xué)進一步計算,篩選出得分高且結(jié)合模式合理的配體作為候選藥物進行實驗驗證,加速藥物研究進程。

 

由于分子庫巨大,哪怕用計算機實現(xiàn)虛擬篩選,需要在有限時間完成,也極大挑戰(zhàn)了計算機性能。假設(shè)某化合物庫有10,000個候選配體,以每個化合物在單核CPU平均處理時間1.5個小時計算,總共需要15,000 個小時(625天)才能完成此化合物庫的分子篩選。而高性能計算集群的應(yīng)用,為現(xiàn)代藥物研發(fā)提供了必不可少的支撐。


如果在高性能集群上,用625個CPU并行計算,一天則可完成上述任務(wù)。如果用高性能GPU訓(xùn)練好的人工智能模型進行預(yù)測篩選,在單個GPU上四分鐘則可以完成上述任務(wù)。


云超算的藥物研發(fā)場景驗證


高性能計算又稱超算,是一種用超級計算機或大規(guī)模的計算集群來解決需要大量計算能力(如并行計算、AI模型運算)需求的方法,在石油勘探、氣象預(yù)報、藥物研發(fā)中廣泛應(yīng)用。一般而言,為在規(guī)定時間內(nèi)完成藥物研發(fā)的分子篩選,研究者需要擁有強大計算能力的計算平臺、大容量存儲和大量配套的高性能應(yīng)用軟件,如Amber, NAMD等。

 

在高性能計算出現(xiàn)后的許多年中,由于虛擬化造成的性能損耗,云計算并不被從事高性能計算開發(fā)的專家看好。在單個節(jié)點實驗中,物理機性能一定比虛擬機高,使用配置最好最快的物理機器幾乎成為高性能計算領(lǐng)域的“潛規(guī)則“。

 

2017年,阿里云在云棲大會上發(fā)布神龍服務(wù)器。這款由阿里云自主開發(fā)的云服務(wù)器,主要通過自研芯片和MOC卡來實現(xiàn)虛擬化功能,并將存儲網(wǎng)絡(luò)的管控放上來,使得CPU本身不再浪費,100%地為計算者提供服務(wù)。

 

盡管理論上還是會耗掉資源,但神龍服務(wù)器的優(yōu)勢顯而易見。容器在神龍服務(wù)器上運行的性能,比傳統(tǒng)物理機上高20-30%。因為在傳統(tǒng)物理機上高密度部署容器時,由于存儲網(wǎng)絡(luò)虛擬化的資源核心和業(yè)務(wù)所占的CPU的資源,之間會互相爭搶,隨著整體負載率提升,它的業(yè)務(wù)的延時會迅速惡化,最后導(dǎo)致業(yè)務(wù)不可用。而在神龍上面,因為?每一個容器之間的數(shù)據(jù)鏈路都是用芯片的硬件隊列進行隔離的,不會互相影響,即便負載接近90%,延時的變化依然不大。

 

消除了虛擬化損耗的神龍讓云超算得以實現(xiàn),阿里云超級算計集群以神龍服務(wù)器作為算力底座,通過RoCE高速網(wǎng)絡(luò)連接,加上并行存儲文件系統(tǒng)CPFS,對外提供了完整高性能計算所需要的硬件基礎(chǔ)設(shè)施。軟件調(diào)度層面則提供了E-HPC(Elastic High Performance Computing)能夠讓用戶自助在云上搭建自己的高性能集群系統(tǒng),配置高性能服務(wù)器和大容量存儲,提供軟件多節(jié)點運行和高通量任務(wù)處理解決方案,直接滿足藥物研發(fā)人員對計算平臺的需求。

 

新冠疫情期間,GHDDI在阿里云之上搭建了開放共享平臺,使用E-HPC搭建高性能計算集群,用于藥物研發(fā)的分子對接、分子動力學(xué)模擬、深度學(xué)習(xí)模型訓(xùn)練,同時為合作伙伴創(chuàng)建不同的云超算子賬戶,實現(xiàn)計算資源共享和數(shù)據(jù)共享。

 

阿里云資深專家何萬青博士告訴動脈網(wǎng),GHDDI的共享平臺幫助科學(xué)家更便捷地將即時的想法轉(zhuǎn)化為具有指導(dǎo)意義的創(chuàng)新探索,極大地提高了新冠肺炎相關(guān)藥物、疫苗的開發(fā)效率。未來,阿里云超算將基于彈性的高性能計算能力,為更多的藥物研發(fā)工作提供必要的算力支撐。