DNA基因測序技術(shù)從上世紀70年代起,歷經(jīng)三代技術(shù)后,目前已發(fā)展成為一項相對成熟的生物產(chǎn)業(yè)。測序技術(shù)的應(yīng)用也擴展到了生物、醫(yī)學、制藥、健康、農(nóng)林、園藝、花卉、環(huán)保、法醫(yī)等許多領(lǐng)域,并成為一項與我們衣食住行密切相關(guān)的高技術(shù)產(chǎn)業(yè)。據(jù)最新統(tǒng)計,2012年全球基因測序市場的產(chǎn)值已超過百億,按最近幾年增長速度,預(yù)計2017年市場產(chǎn)值將加倍。在測序產(chǎn)業(yè)占世界市場份額第一的正是總部設(shè)在深圳的我國華大基因研究院。因此可以說,基因測序在我國生物科技領(lǐng)域具有非常重要的戰(zhàn)略意義。
“第三代測序技術(shù)”的研發(fā)已有近十年時間,商業(yè)化的第三代測序儀上市也有三年。但目前測序市場仍為二代測序技術(shù)所壟斷(我國頂級科研機構(gòu)和商業(yè)公司所擁有的三代測序儀可能僅有數(shù)十臺)。三代測序技術(shù)產(chǎn)生的讀段更長,測序成本更低,其取代二代技術(shù)是測序技術(shù)發(fā)展的必然趨勢。然而由于三代測序技術(shù)錯誤率高,現(xiàn)有的組裝軟件多是對第二代測序數(shù)據(jù)組裝軟件的“修補”而并沒有充分考慮到三代測序技術(shù)的數(shù)據(jù)特征。事實上,基因組裝算法問題被廣泛認為是計算生物學和生物信息學領(lǐng)域最復(fù)雜的計算難題之一,也是目前阻礙基因測序產(chǎn)業(yè)從二代技術(shù)升級到三代技術(shù)最大的技術(shù)障礙。
最近,美國馬里蘭大學 Chengxi Ye, James A. Yorke, Aleksey Zimin 等與中國科學院昆明動物研究所遺傳資源與進化國家重點實驗室馬占山研究員在這一領(lǐng)域的合作研發(fā)取得新突破。該研究團隊在一篇題為DBG2OLC: Efficient Assembly of Large Genomes Using the Compressed Overlap Graph 的文章中引入了一種新的針對三代測序技術(shù)的基因組裝算法,并開發(fā)出一款軟件(DBG2OLC)。另外作者(Ye et al. 2011, 2012)于2011年發(fā)布的SparseAssembler曾經(jīng)比當時主流的基因組裝軟件節(jié)省90%的內(nèi)存空間,而其計算時間和組裝質(zhì)量卻毫不遜色。著名的SOAPdenovo的升級版,也是目前最廣泛應(yīng)用的基因組裝軟件SOAPdenovo2即采用了SparseAssembler算法。
多組測序數(shù)據(jù)的測試表明:與目前用于三代測序最優(yōu)秀的一些基因組裝軟件(例如PacBio2CA, HGAP, ECTools)相比,DBG2OLC在計算時間和內(nèi)存空間的消耗通常僅為其它算法的1/10。理論上,DBG2OLC在時間和空間的使用上相對其它同類軟件可減少達1000倍。例如組裝關(guān)鍵步驟之一的“兩兩比對”計算,采用一組由 PacBio提供的人類基因組數(shù)據(jù),DBG2OLC 使用一臺普通PC僅用了6小時完成。而同樣計算,Pacific Biosciences所報道的時間為 405000 CPU小時,而且是在Google的計算集群上完成。因此,DBG2OLC 算法基本解決了目前三代測序技術(shù)所面臨的計算技術(shù)挑戰(zhàn),從而為推進基因測序技術(shù)的產(chǎn)業(yè)升級奠定了良好的技術(shù)基礎(chǔ)。