可能改變未來的一項(xiàng)技術(shù)之一是基因科技,據(jù)麥卡錫去年發(fā)布的一份報(bào)告,預(yù)計(jì)到2025年,全球?qū)?huì)累計(jì)產(chǎn)生10億人次的全基因組數(shù)據(jù),而檢測(cè)基因的成本將下降到接近為0。在可以預(yù)見的未來,基于深度學(xué)習(xí)的基因檢測(cè)算法將會(huì)有更大的施展空間。
考慮到每一個(gè)人的全基因組數(shù)據(jù)將會(huì)達(dá)到100G,如何對(duì)這些海量數(shù)據(jù)的解讀,現(xiàn)有的生物信息方法基于統(tǒng)計(jì)學(xué)模型,而12月20日來自谷歌子公司Deepmind的科學(xué)家發(fā)表了一篇論文,提出一個(gè)名為DeepVariant的檢測(cè)工具,使用深度神經(jīng)學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)CNN來檢查基因組上的單堿基突變(SNP)和小的插入缺失(Indel),其準(zhǔn)確性超越了當(dāng)前主流的生物信息學(xué)軟件GATK。而在12月30日,來自康奈爾大學(xué)的另一組研究者又獨(dú)立的發(fā)表了一篇用類似方法檢測(cè)基因變異的軟件。兩篇論文的爆發(fā)式出現(xiàn),彰顯了深度學(xué)習(xí)在基因組數(shù)據(jù)挖掘領(lǐng)域的巨大潛力。
每個(gè)人的體內(nèi)都包含著3億對(duì)堿基,這些堿基的排列方式?jīng)Q定了我們從生老病死的方方面面,找到了你的基因組的差異之處,可以幫助我們了解我們的疾病的易感性,也可以知道我們的個(gè)體特征。對(duì)基因數(shù)據(jù)的傳統(tǒng)分析方法,基于貝葉斯統(tǒng)計(jì)和專家的經(jīng)驗(yàn),針對(duì)不同的檢測(cè)物種,需要很多人工的調(diào)節(jié)和試錯(cuò),并且針對(duì)不同的測(cè)序平臺(tái),也需要進(jìn)行特異性的配置。而基于深度學(xué)習(xí)的方法,巧妙的利用了圖像識(shí)別領(lǐng)域成熟的技術(shù),不止可以以通用的學(xué)習(xí)流程達(dá)到了現(xiàn)行軟件相同的水平,更獲得了由美國(guó)FDA監(jiān)管的SNP檢測(cè)算法比賽的第一名。由于這兩項(xiàng)研究都還處于初期,考慮到深度學(xué)習(xí)算法巨大的提升空間,在可以預(yù)見的未來,基于深度學(xué)習(xí)的基因檢測(cè)算法將會(huì)有更大的施展空間。
而在表觀遺傳學(xué)上,深度學(xué)習(xí)工具DeepCpG則可以根據(jù)基因序列預(yù)測(cè)單細(xì)胞層面是否會(huì)出現(xiàn)甲基化。在小鼠的胚胎干細(xì)胞上驗(yàn)證后,DeepCpG的表現(xiàn)優(yōu)于現(xiàn)有的其他軟件。甲基化會(huì)影響基因是否表達(dá),而諸多啟動(dòng)子和增強(qiáng)子(DNA序列中的調(diào)控區(qū))與其調(diào)控的基因之間的相互作用則會(huì)影響基因的表達(dá)數(shù)量。同樣是基于深度學(xué)習(xí)的SPEID基于基因序列預(yù)測(cè)啟動(dòng)子和增強(qiáng)子之間的相互作用,這是第一個(gè)基于基因序列來預(yù)測(cè)啟動(dòng)子和增強(qiáng)子的軟件,其效果優(yōu)于基于基因功能做出的預(yù)測(cè)。
傳統(tǒng)的基因組關(guān)聯(lián)分析(GWAS)大多只能檢測(cè)一個(gè)點(diǎn)突變(SNP)與所研究疾病的關(guān)系,而DeepWAS,這一新提出的框架則能夠根據(jù)功能單元,選擇出一組SNP的集合,來更加綜合的研究治病的基因突變,并能直接的尋找調(diào)控區(qū)域的基因突變。在一項(xiàng)針對(duì)抑郁癥的研究中,使用DeepWAS框架的新研究發(fā)現(xiàn)了一個(gè)新的控制抑郁癥的主要基因MEF2C。
以上列出的5項(xiàng)研究,都來自與2016年下半年,而在2017年1月,又有一篇基于CNN的文章嘗試預(yù)測(cè)HLA基因與多肽的相互反應(yīng)。這些文章雖然都來自于論文預(yù)印本,沒有經(jīng)過正規(guī)的同行審查,但不同領(lǐng)域的大規(guī)模井噴式爆發(fā),也顯示了該領(lǐng)域的巨大潛力。隨著基因組數(shù)據(jù)的大量積累,以及深度學(xué)習(xí)開源平臺(tái)的普及,未來深度學(xué)習(xí)必將成為生物信息領(lǐng)域的“一股清流”,為人類的健康做出貢獻(xiàn)。
考慮到每一個(gè)人的全基因組數(shù)據(jù)將會(huì)達(dá)到100G,如何對(duì)這些海量數(shù)據(jù)的解讀,現(xiàn)有的生物信息方法基于統(tǒng)計(jì)學(xué)模型,而12月20日來自谷歌子公司Deepmind的科學(xué)家發(fā)表了一篇論文,提出一個(gè)名為DeepVariant的檢測(cè)工具,使用深度神經(jīng)學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)CNN來檢查基因組上的單堿基突變(SNP)和小的插入缺失(Indel),其準(zhǔn)確性超越了當(dāng)前主流的生物信息學(xué)軟件GATK。而在12月30日,來自康奈爾大學(xué)的另一組研究者又獨(dú)立的發(fā)表了一篇用類似方法檢測(cè)基因變異的軟件。兩篇論文的爆發(fā)式出現(xiàn),彰顯了深度學(xué)習(xí)在基因組數(shù)據(jù)挖掘領(lǐng)域的巨大潛力。
每個(gè)人的體內(nèi)都包含著3億對(duì)堿基,這些堿基的排列方式?jīng)Q定了我們從生老病死的方方面面,找到了你的基因組的差異之處,可以幫助我們了解我們的疾病的易感性,也可以知道我們的個(gè)體特征。對(duì)基因數(shù)據(jù)的傳統(tǒng)分析方法,基于貝葉斯統(tǒng)計(jì)和專家的經(jīng)驗(yàn),針對(duì)不同的檢測(cè)物種,需要很多人工的調(diào)節(jié)和試錯(cuò),并且針對(duì)不同的測(cè)序平臺(tái),也需要進(jìn)行特異性的配置。而基于深度學(xué)習(xí)的方法,巧妙的利用了圖像識(shí)別領(lǐng)域成熟的技術(shù),不止可以以通用的學(xué)習(xí)流程達(dá)到了現(xiàn)行軟件相同的水平,更獲得了由美國(guó)FDA監(jiān)管的SNP檢測(cè)算法比賽的第一名。由于這兩項(xiàng)研究都還處于初期,考慮到深度學(xué)習(xí)算法巨大的提升空間,在可以預(yù)見的未來,基于深度學(xué)習(xí)的基因檢測(cè)算法將會(huì)有更大的施展空間。
而在表觀遺傳學(xué)上,深度學(xué)習(xí)工具DeepCpG則可以根據(jù)基因序列預(yù)測(cè)單細(xì)胞層面是否會(huì)出現(xiàn)甲基化。在小鼠的胚胎干細(xì)胞上驗(yàn)證后,DeepCpG的表現(xiàn)優(yōu)于現(xiàn)有的其他軟件。甲基化會(huì)影響基因是否表達(dá),而諸多啟動(dòng)子和增強(qiáng)子(DNA序列中的調(diào)控區(qū))與其調(diào)控的基因之間的相互作用則會(huì)影響基因的表達(dá)數(shù)量。同樣是基于深度學(xué)習(xí)的SPEID基于基因序列預(yù)測(cè)啟動(dòng)子和增強(qiáng)子之間的相互作用,這是第一個(gè)基于基因序列來預(yù)測(cè)啟動(dòng)子和增強(qiáng)子的軟件,其效果優(yōu)于基于基因功能做出的預(yù)測(cè)。
傳統(tǒng)的基因組關(guān)聯(lián)分析(GWAS)大多只能檢測(cè)一個(gè)點(diǎn)突變(SNP)與所研究疾病的關(guān)系,而DeepWAS,這一新提出的框架則能夠根據(jù)功能單元,選擇出一組SNP的集合,來更加綜合的研究治病的基因突變,并能直接的尋找調(diào)控區(qū)域的基因突變。在一項(xiàng)針對(duì)抑郁癥的研究中,使用DeepWAS框架的新研究發(fā)現(xiàn)了一個(gè)新的控制抑郁癥的主要基因MEF2C。
以上列出的5項(xiàng)研究,都來自與2016年下半年,而在2017年1月,又有一篇基于CNN的文章嘗試預(yù)測(cè)HLA基因與多肽的相互反應(yīng)。這些文章雖然都來自于論文預(yù)印本,沒有經(jīng)過正規(guī)的同行審查,但不同領(lǐng)域的大規(guī)模井噴式爆發(fā),也顯示了該領(lǐng)域的巨大潛力。隨著基因組數(shù)據(jù)的大量積累,以及深度學(xué)習(xí)開源平臺(tái)的普及,未來深度學(xué)習(xí)必將成為生物信息領(lǐng)域的“一股清流”,為人類的健康做出貢獻(xiàn)。