浙江突破AI診斷技術:疑似病例基因分析縮至半小時
2月1日,浙江省疾控中心上線自動化的全基因組檢測分析平臺,這一平臺由浙江省疾控中心聯(lián)合達摩院和杰毅生物聯(lián)合研發(fā)。
借助阿里達摩院研發(fā)的AI算法,原來數(shù)小時的疑似病例基因分析縮短至半小時,加上杰毅生物技術的新型檢測設備,大幅縮短疑似患者確診時間。
達摩院介紹,這一平臺還能有效防止病毒變異產生的漏檢,并精準檢測出可能存在的病毒變異情況,為后續(xù)疫苗與藥物研發(fā)提供支撐。
在抗擊新型冠狀病毒緊要關頭,這樣的AI突破,對于有效提升疑似病例確診效率,及時阻斷病毒的傳播,必然會有極大助益。
那么,這到底是一個什么樣的突破?這一突破又意味著什么?
我們從“疑似病例”這一關鍵詞開始說起。
還有19544例疑似病例尚未得到確診
最新數(shù)據(jù),截至2月1日24時,國家衛(wèi)生健康委收到31個省(自治區(qū)、直轄市)和新疆生產建設兵團累計報告確診病例14380例,疑似病例有19544例。
快速、精確診斷武漢新型冠狀病毒(2019-nCoV),對于疫情傳播控制來說,顯得尤其重要。
目前,全國大多數(shù)醫(yī)院普遍采用核酸檢測來確診患者是否患有新型冠狀病毒肺炎。
雖然背后的方法已經相對成熟完善,但仍舊需要很長的時間。
果殼此前發(fā)布的文章對整個過程分析之后稱:從病人樣本送到實驗室即刻開始測試到出檢測報告差不多也需要8個小時。
加上新冠狀病毒傳染性較強,開展核酸檢測對于實驗室、設備、人員也都有相應要求。
因此,新型冠狀病毒核酸檢測一開始只能在湖北省疾控中心進行,而且核酸檢測試劑盒生產較少,就出現(xiàn)了疑似患者確診困難,得不到及時救治的狀況。
雖然現(xiàn)在能夠進行新冠狀病毒核酸檢測的醫(yī)院和機構增多,而且核酸檢測試劑盒產量逐步跟上,疑似患者確診困難狀況得到緩解。
但仍舊是依靠人肉來推動,效率并沒有得到提高,所以依舊有大量疑似患者存在。
而且,當前采用的核酸檢測方法, 也有不足之處。
根據(jù)各個機構公布的數(shù)據(jù),新型冠狀病毒全基因組序列全長29847bp,是基因組序列最長的病毒之一。
達摩院算法專家顧斐博士介紹稱,核酸檢測方法只能檢測到病毒基因的局部。
“由于病毒存在變異的可能性,對于整個基因序列來說,這種檢測方法猶如盲人摸象。一旦病毒發(fā)生變異,就可能出現(xiàn)漏檢的情況,”他說。
因此,在嚴峻的抗疫形式面前,仍舊需要一種效率更高的病毒檢測方法。
浙江省疾控中心上線的全新檢測平臺,不僅使用了更先進的檢測儀器,還有達摩院的算法發(fā)揮作用,而且?guī)砹饲袑嵉男Ч?/p>
AI如何大幅度提高檢測效率?
浙江省的自動化全基因組檢測分析平臺采用的是不同于核酸檢測方法的全基因組檢測技術,是對疑似病例的病毒樣本進行全基因組序列分析比對。
達摩院介紹稱,這屬于高通量測序,可以一次對幾十萬到幾百萬條DNA分子進行序列測定,使得對一個物種的轉錄組和基因組進行細致全貌的分析成為可能。
應用在新型冠狀病毒中,可以有效防止病毒變異產生的漏檢。雖然能力很強,但它也有缺陷。最直接的不足就是其前處理和數(shù)據(jù)分析都非常費時費力。
但在AI算法的加持下,這些問題也都得到了克服。
根據(jù)官方信息,這一平臺主要由浙江省疾控中心、阿里巴巴達摩院、杰毅生物共同研發(fā)。杰毅生物開發(fā)了全自動高通量測序建庫儀,把整體常規(guī)人工需要12小時的工作縮短到2個小時。
每次測序過程產生的海量數(shù)據(jù),則交由達摩院的算法進行分析。
△新型冠狀病毒結構
顧斐介紹稱,在序列比對過程中,他們對算法增加了分布式設計,病毒基因分析的速度由數(shù)小時縮短到半小時,從而大幅提高疑似病例的確診速度。
在病毒的拼接階段,他們也采用了分布式設計的de Bruijn圖算法,將病毒拼接的速度由30分鐘-1小時縮短到15-30分鐘。
不僅只有速度的提升,還有質量的提高。達摩院表示,這能夠幫醫(yī)護人員檢測到病毒全貌,就算變異的病毒也能精準檢測,大幅提升確診效率。
怎么評價這一平臺?目前,這個平臺已經上線,浙江省疾控中心也給出了評論。
“這個平臺基于阿里云的強大算力與達摩院新算法可以為病毒的解析提供支撐,”其基因測序負責人孫逸博士說:“基于這個平臺,未來還可以在短時間內將檢測范圍覆蓋整個確診病例,也為后續(xù)疫苗與藥物研發(fā)打下了堅實基礎?!?/p>
據(jù)介紹,平臺將會在全省應用。達摩院也說,他們也正在努力與合作伙伴共同將這套系統(tǒng)推廣至全國。
阿里達摩院,用算法抗疫
疫情兇猛,科技公司如何能夠貢獻一份力量?達摩院的做法可以作為一個參考:讓自身技術能力在抗疫第一線發(fā)揮作用。
達摩院介紹說,疫情發(fā)生之后,他們就組建了十余人團隊,針對新冠病毒基因的特征進行了分析,決定采用分布式設計的分析算法,并基于蛋白質數(shù)據(jù)庫(PDB)等公共數(shù)據(jù)集的數(shù)據(jù)進行算法的優(yōu)化訓練。
并深入到一線,與浙江省疾控中心、杰毅生物共同打造自動化全基因組檢測分析平臺,于是才有了病毒基因分析速度由數(shù)小時縮短到半小時的直接產出。
△顧斐在疾控中心基因檢測分析現(xiàn)場
除此之外,達摩院的并沒有就此停下腳步。
顧斐說,在病毒序列拼接完成后,通過設BiLSTM+DNN的方式訓練模型還可以在還可以15-30分鐘內預測病毒蛋白二級結構。
而且, 達摩院還在研究基于序列的蛋白質三維結構預測模型以及藥物篩選模型,為藥物研發(fā)貢獻技術能力。
所以,雖然疫情突至,誰也沒能預料。
但現(xiàn)在,技術的力量正在成為抗擊疫情的新驅動引擎。
達摩院這樣的機構創(chuàng)辦,最初或許并不為這樣的時刻而生,但正在用實際行動帶來希望、帶來信心。
俠之大者,當如是。