用圖像識(shí)別做基因預(yù)測(cè) 谷歌拿到了FDA挑戰(zhàn)賽最高分
去年,谷歌宣布從Mobile First(移動(dòng)先行)轉(zhuǎn)向AI First(人工智能先行)。在過去的幾年內(nèi),其不僅收購了多家AI公司(包括主攻語義理解、語義網(wǎng)絡(luò)的Metaweb;深度學(xué)習(xí)公司DNNresearch;專注于機(jī)器學(xué)習(xí)跟神經(jīng)網(wǎng)絡(luò)研究的DeepMind;聊天機(jī)器人API.AI等),由谷歌旗下DeepMind公司團(tuán)隊(duì)開發(fā)的阿爾法狗(AlphaGo)也在近期成為了“網(wǎng)紅”,其在去年與圍棋世界冠軍、職業(yè)九段選手李世石進(jìn)行了扣人心弦的人機(jī)大戰(zhàn),并且以4:1的總比分獲勝。谷歌推出的Tensor Flow深度學(xué)習(xí)框架也得到了廣泛的好評(píng)。
當(dāng)然,谷歌還得繼續(xù)在人工智能領(lǐng)域“搞事情”。
制定目標(biāo) 超越GATK
GATK(The Genome Analysis Toolkit)是目前使用最廣泛的二代測(cè)序數(shù)據(jù)分析軟件,主要注重于變異的查找、基因分析且高度重視數(shù)據(jù)質(zhì)量。GATK使用了一種人工編碼算法,可以將統(tǒng)計(jì)數(shù)據(jù)應(yīng)用到測(cè)序機(jī)器最常出錯(cuò)的地方。
2015年6月份,Google Genomics(谷歌基因組)宣布與博德研究所(Broad Institute)進(jìn)行合作,兩者聯(lián)手推出基因組分析軟件GATK(The Genome Analysis Toolkit)的云端版。谷歌基因組是谷歌公司為幫助科學(xué)界存儲(chǔ)、處理和管理海量基因組數(shù)據(jù)而搭建的云端平臺(tái),于2013年3月份推出。科學(xué)家可利用谷歌云端提供的API接口,儲(chǔ)存、處理、分析以及分享DNA序列。
不過,谷歌并不滿足于此,想自己開發(fā)一套能超越GATK的基于人工智能的工具。此前,谷歌的人工智能對(duì)遺傳學(xué)一無所知。事實(shí)上,這些人工智能工具只用來識(shí)別圖像,正如識(shí)別上傳到谷歌貓狗照片的神經(jīng)網(wǎng)絡(luò)一樣,要學(xué)習(xí)的地方還有很多。
Mark DePristo和Ryan Poplin接手了這項(xiàng)工作,他們也曾是GATK創(chuàng)建小組的成員。
DePristo表示:“(GATK)不可能再有進(jìn)展了,我們建立了許多不同的模型,但毫無成效。”然后,人工智能技術(shù)出現(xiàn)了。
僅僅過去了八個(gè)月,(Mark DePristo和Ryan Poplin牽頭開發(fā)的)這個(gè)神經(jīng)網(wǎng)絡(luò)準(zhǔn)確判斷了DNA序列中的突變點(diǎn),贏得了“FDA”(美國(guó)食品藥品管理局Food and Drug Admistraton)挑戰(zhàn)賽的最高分。短短一年,該人工智能已超越了標(biāo)準(zhǔn)的人工編碼算法GATK,它就是谷歌DeepVariant。
DeepVariant強(qiáng)在哪里?
DeepVariant可實(shí)現(xiàn)將高通量測(cè)序所測(cè)區(qū)的數(shù)據(jù),轉(zhuǎn)換成完整的基因組圖像。其可以自動(dòng)識(shí)別測(cè)序數(shù)據(jù)中的插入基因、缺失突變以及單堿基對(duì)變異。
和GATK一樣,DeepVariant解決了“變異檢測(cè)”(variant calling)這個(gè)重要的技術(shù)性問題。分析DNA時(shí),現(xiàn)代測(cè)序儀不會(huì)返回一條長(zhǎng)鏈,而是可能返回長(zhǎng)達(dá)100個(gè)堿基且相互重疊的短DNA片段。這些片段排列成一條直線,與已知序列的參考基因組進(jìn)行對(duì)比。真正的突變可能出現(xiàn)在不同于參考基因組的片段上,當(dāng)現(xiàn)在片段與參考基因組和其余片段有差異時(shí),問題就出現(xiàn)了。
GATK試圖通過大量數(shù)據(jù)解決這一問題。DNA測(cè)序器運(yùn)行時(shí)偶爾會(huì)出錯(cuò),GATK團(tuán)隊(duì)著重研究其易出錯(cuò)的地方(比如堿基GTG)。他們長(zhǎng)期思索著像“隱馬爾可夫模型的統(tǒng)計(jì)模型”這樣的事情,然后試圖預(yù)測(cè)DNA某一具體位置的實(shí)際堿基。
與GATK不同,DeepVariant雖然對(duì)DNA測(cè)序器一無所知,但已經(jīng)吸收了大量數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)通常被類比為處理逐漸復(fù)雜化概念的“神經(jīng)元”層——第一層感應(yīng)光,第二層感應(yīng)形狀,第三層則感應(yīng)實(shí)際物體。通過數(shù)據(jù)訓(xùn)練,DeepVariant可以判斷哪些“神經(jīng)元”更重要,哪些可以忽略。最后,從誤判中分辨出實(shí)際的突變點(diǎn)。
為了使用圖像識(shí)別AI處理DNA測(cè)序數(shù)據(jù),谷歌決定將數(shù)據(jù)轉(zhuǎn)化為圖像??茖W(xué)家在識(shí)別變異點(diǎn)時(shí),經(jīng)常將排列整齊的基因片段提取出來進(jìn)行研究。
對(duì)此,Poplin表示,“如果將DNA識(shí)別當(dāng)作一個(gè)視覺任務(wù),為什么不直接以視覺形式呈現(xiàn)呢?”秉持這種觀念,谷歌將圖像概念嵌入到識(shí)別任務(wù)中。將數(shù)據(jù)轉(zhuǎn)化為RGB(紅、綠、藍(lán))圖像,其中紅色標(biāo)記ATCG四種堿基,綠色標(biāo)記序列質(zhì)量,藍(lán)色用來表示DNA的正反向鏈。
之后只需要輸入神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)。根據(jù)Depristo的說法,“很大程度上改變了我們處理問題的角度,從開始努力研究現(xiàn)有數(shù)據(jù)到現(xiàn)在致力于尋找更多數(shù)據(jù)。”
DeepVariant將人工智能引入了未來基因研究領(lǐng)域
去年十二月,團(tuán)隊(duì)發(fā)表了關(guān)于DeepVariant的預(yù)印本(Preprint)。上周,谷歌正式發(fā)布該工具。這期間,團(tuán)隊(duì)不斷改進(jìn)修正DeepVariant。
在之前采用紅黃藍(lán)三色的基礎(chǔ)上,團(tuán)隊(duì)正考慮為其新增兩個(gè)數(shù)據(jù)層。在人們眼中這些數(shù)據(jù)是無法構(gòu)成圖像的,增加幾層數(shù)字對(duì)于機(jī)器來說并不意味著什么。
DeepVariant自身無法改變現(xiàn)有遺傳學(xué)研究。與GATK相比,該工具只顯示出了微弱優(yōu)勢(shì)。一定條件下,速度只能達(dá)到GATK的一半。然而,DeepVariant逐漸將AI技術(shù)引入了未來基因研究領(lǐng)域。
目前,Oxford Nanopore等新型測(cè)序技術(shù)愈發(fā)流行,在這些技術(shù)的幫助下,如果DeepVariant能夠趕超GATK(GATK花費(fèi)了五年時(shí)間最終成型),更快地學(xué)會(huì)識(shí)別變異點(diǎn),可以加速測(cè)序技術(shù)的投入使用。
Depristo表示,將數(shù)據(jù)層放置于基因組中能夠解決比預(yù)測(cè)變異更加重要的問題。比如用數(shù)據(jù)層表示基因是否具備活性。DeepVariant以三個(gè)數(shù)據(jù)層為出發(fā)點(diǎn),現(xiàn)在已經(jīng)發(fā)展為七個(gè),最終可能會(huì)達(dá)到幾十個(gè)。毫無疑問,人工智能可以讓在人腦中毫無意義的數(shù)據(jù)變得更有價(jià)值。