高通量測(cè)序的推出背景:
2004年全球多個(gè)國(guó)家共計(jì)預(yù)算30億美金的人類(lèi)基因組測(cè)序完成以后,發(fā)現(xiàn)單單完成一個(gè)人的基因組序列還遠(yuǎn)遠(yuǎn)不足以理解人類(lèi)自身及疾病的機(jī)理。由于有了已經(jīng)完成的人類(lèi)基因組當(dāng)做參考基因組,采用廉價(jià)、快速的方法對(duì)多個(gè)樣本、群體、病種基因組的比對(duì)測(cè)序就能提供大量有價(jià)值的科研和臨床信息。這就要求測(cè)序價(jià)格足夠低、速度足夠快,然而對(duì)測(cè)序結(jié)果是否易于拼接、組裝基因組則沒(méi)有明確需求。于是,美國(guó)國(guó)家基因組研究院(NHGRI)提出了把全基因組測(cè)序降至1000美金的研究規(guī)劃,從而引領(lǐng)科學(xué)界、企業(yè)界大力發(fā)展測(cè)序技術(shù)。
高通量測(cè)序的十年:
2005年,454公司首先推出了二代測(cè)序儀;2006年,Solexa推出了Genome Analyzer,2007年年初Illumina收購(gòu)了Solexa公司,在隨后的幾年陸續(xù)推出了Hiseq2000、MiSeq、Hiseq2500、MiseqDx、NextSeq 500測(cè)序儀,占據(jù)了高通量測(cè)序的大部分市場(chǎng)。ABI也在2007年推出的是SOLiD測(cè)序平臺(tái),隨后收購(gòu)了454測(cè)序儀發(fā)明者創(chuàng)立的Ion Torrent,轉(zhuǎn)而大力推廣PGM和Ion Proton平臺(tái)。2014年,也就是高通量測(cè)序技術(shù)發(fā)展的第十年,illumina公司的Hiseq X平臺(tái)已經(jīng)實(shí)現(xiàn)了1000美金一個(gè)人類(lèi)基因組測(cè)序的目標(biāo)。雖然這個(gè)價(jià)格的實(shí)現(xiàn),需要在保證未來(lái)數(shù)年充足機(jī)時(shí)的情況下才能完成,但也比十年前的30億美金降低了300萬(wàn)倍。除此以外,還有好多公司開(kāi)發(fā)了第三代測(cè)序儀,比如Pacific Biosciences的PacBio RS測(cè)序儀,DNA模板無(wú)需二代測(cè)序常用的PCR擴(kuò)增的方法,就可以實(shí)現(xiàn)長(zhǎng)讀長(zhǎng)、實(shí)時(shí)的測(cè)序;Oxford Nanopore MinION測(cè)序儀只有USB存儲(chǔ)器那么大等等。
2013年9月,illumina公司的MiseqDx平臺(tái),首次通過(guò)了美國(guó)FDA的技術(shù)認(rèn)證,作為開(kāi)放平臺(tái)和囊纖維化的試劑產(chǎn)品準(zhǔn)許進(jìn)入臨床,標(biāo)志著經(jīng)過(guò)10年的發(fā)展,高通量測(cè)序技術(shù)已從純科學(xué)研究的平臺(tái)進(jìn)入臨床診斷領(lǐng)域。
各代測(cè)序的應(yīng)用范圍:
一代測(cè)序(Sanger)適合單一片段,長(zhǎng)度小于800bp的精準(zhǔn)測(cè)序;二代適合快速、低價(jià)測(cè)量海量數(shù)據(jù),每次測(cè)序能產(chǎn)生數(shù)百、數(shù)千萬(wàn)條序列,但讀長(zhǎng)不超過(guò)500bp;而以PacBio為代表的三代測(cè)序更適合單分子測(cè)序,最長(zhǎng)可以到幾十K的讀長(zhǎng),但測(cè)序質(zhì)量略低。所以目前還沒(méi)有哪一代測(cè)序技術(shù)可以完全取代同類(lèi)技術(shù),并不能簡(jiǎn)單的通過(guò)名字來(lái)判斷技術(shù)先進(jìn)性,重要的還是各個(gè)平臺(tái)都有各自最適合的應(yīng)用領(lǐng)域。
高通量測(cè)序應(yīng)用范圍:
無(wú)需BAC文庫(kù)構(gòu)建就可以進(jìn)行全基因組鳥(niǎo)槍法沖測(cè)序;數(shù)以千萬(wàn)計(jì)的序列同時(shí)測(cè)序;測(cè)序結(jié)果無(wú)需通過(guò)毛細(xì)管電泳獲得等等特點(diǎn)決定了高通量測(cè)序儀具有廣闊的應(yīng)用范圍:基因組從頭測(cè)序、基因組重測(cè)序、目標(biāo)片段測(cè)序、數(shù)字化基因表達(dá)譜、小RNA測(cè)序、甲基化測(cè)序、蛋白質(zhì)DNA相互作用測(cè)序等等。本文主要就高通量測(cè)序的幾個(gè)應(yīng)用在臨床診斷領(lǐng)域的開(kāi)展做一個(gè)簡(jiǎn)單介紹。
高通量測(cè)序的臨床應(yīng)用:
1.染色體疾病檢測(cè)
2008年香港中文大學(xué)的盧煜明和斯坦福的Stephen Quake先后發(fā)表文章提出通過(guò)檢測(cè)母體外周血中的游離DNA,可以準(zhǔn)確的判斷該孕婦胎兒的染色體非整倍體,該技術(shù)無(wú)需常規(guī)的羊膜腔穿刺、絨毛膜穿刺等創(chuàng)傷性染色體疾病檢測(cè)技術(shù),故常被簡(jiǎn)稱(chēng)為無(wú)創(chuàng)產(chǎn)前檢測(cè)。
無(wú)創(chuàng)染色體檢測(cè)的技術(shù)核心為拷貝數(shù)變異的原理。測(cè)序所得的序列通過(guò)生物信息算法,把所有序列比對(duì)到人類(lèi)參考基因組。通過(guò)計(jì)數(shù)每一個(gè)染色體的唯一對(duì)應(yīng)的序列條數(shù)來(lái)獲取全染色體拷貝數(shù)變異情況。如果其中有一個(gè)染色體增加一條或缺少一條,則該染色體的拷貝數(shù)會(huì)顯著增加或減少。
在當(dāng)前常見(jiàn)的無(wú)創(chuàng)染色體非整倍體檢測(cè)中,主要針對(duì)T21、T18、T13這三個(gè)染色體三體綜合征。從國(guó)內(nèi)外各家公司公布的數(shù)字來(lái)看,準(zhǔn)確率、陽(yáng)性預(yù)測(cè)值都可以達(dá)到99%。相對(duì)血清唐氏篩查技術(shù),無(wú)創(chuàng)技術(shù)大大提高了準(zhǔn)確率,降低了假陽(yáng)性率。從而推動(dòng)產(chǎn)前檢測(cè)技術(shù)極大的發(fā)展,也幫助高通量測(cè)序真正的進(jìn)入了臨床轉(zhuǎn)化應(yīng)用階段。在染色體非整倍體疾病中,性染色體異常(XXX、XO、XXY)等也頗為常見(jiàn),由于X染色體(155mb)相對(duì)Y染色體(60mb)要大很多,血漿游離DNA中母體的DNA含量占50~90%,從而造成無(wú)創(chuàng)檢測(cè)性染色體異常 具有一定的難度,準(zhǔn)確率基本在90%左右。
除了染色體非整倍體以外,染色體病還有微缺失微重復(fù),是指染色體上有局部片段缺失或出現(xiàn)重復(fù)片段。常見(jiàn)的表現(xiàn)為染色體上的部分三體、部分單體,比如貓叫綜合征、迪格奧爾格綜合征(Digeorge) 、Wolf-Hirschhorn syndrome、Prader-Willi syndrome等等。自從高通量測(cè)序技術(shù)應(yīng)用于無(wú)創(chuàng)產(chǎn)前檢測(cè),業(yè)界也開(kāi)始使用該技術(shù)來(lái)檢測(cè)微缺失微重復(fù)。由于微缺失微重復(fù)染色體改變相對(duì)較小,需要較深的測(cè)序深度,才能較準(zhǔn)確的判斷染色體變異情況。
以上提到的都是無(wú)創(chuàng)的方式去檢測(cè)染色體非整倍及微缺失微重復(fù)。對(duì)于診斷篩查成年人、嬰幼兒、流產(chǎn)組織等染色體變異情況,利用高通量測(cè)序也是一種很好的選擇,相對(duì)于傳統(tǒng)的Array CGH,高通量測(cè)序技術(shù)更準(zhǔn)確、速度更快、檢測(cè)分辨率更高,需要的起始樣本量更低,只要幾納克。
產(chǎn)前檢測(cè)領(lǐng)域具有很大的特殊性,每一個(gè)結(jié)果都會(huì)影響一個(gè)還未出生的小生命,對(duì)于檢測(cè)的準(zhǔn)確率相對(duì)其他檢測(cè)技術(shù)要求要高很多。不管是假陰性還是假陽(yáng)性,都要求盡可能的低,否則會(huì)引起很多臨床糾紛。而且由于要給后續(xù)的產(chǎn)前診斷技術(shù)正確盡可能多的時(shí)間,所以就要求檢測(cè)周期盡可能短。無(wú)創(chuàng)染色體檢測(cè)需要每一個(gè)樣本有一定的測(cè)序量,但并不是簡(jiǎn)單的說(shuō)測(cè)序越深結(jié)果就一定越好,需要保證每批測(cè)序的穩(wěn)定性,就對(duì)實(shí)驗(yàn)室流程控制、試劑盒本身的質(zhì)量控制、數(shù)據(jù)分析的校正都提出了很高的要求。如果沒(méi)有很好的控制,哪怕一臺(tái)測(cè)序儀就跑一個(gè)樣本,幾十倍于常規(guī)的測(cè)序通量,也不一定就能準(zhǔn)確判斷結(jié)果陰陽(yáng)性。
2.基因突變檢測(cè)
不同于一代測(cè)序針對(duì)單一片段的測(cè)序檢測(cè)基因突變,高通量測(cè)序往往可以針對(duì)一個(gè)基因多個(gè)位點(diǎn)、多個(gè)基因或全外顯子突變的快速檢測(cè)。在這類(lèi)檢測(cè)中,首先通過(guò)PCR或者探針捕獲的方式富集待檢區(qū)域的DNA,然后通過(guò)高通量測(cè)序儀進(jìn)行測(cè)序。高通量測(cè)序的準(zhǔn)確率不如一代測(cè)序,所以為了得到準(zhǔn)確的結(jié)果,每一個(gè)堿基位置都需要至少100條以上的序列結(jié)果。由于一個(gè)或多個(gè)基因位點(diǎn)組合、哪怕是全基因組外顯子組合,也就70mb左右的DNA區(qū)域,實(shí)際工作中很容易實(shí)現(xiàn)100X以上的測(cè)序深度,往往都可以達(dá)到1000X以上。
表皮生長(zhǎng)因子受體(EGFR)基因突變檢測(cè)為當(dāng)前最常用的單基因突變檢測(cè),檢測(cè)結(jié)果可用于輔助臨床醫(yī)生篩選可受益于易瑞沙、特羅凱和凱美納等靶向藥物的非小細(xì)胞肺癌患者。目前常用的方法為熒光定量技術(shù),需要做多個(gè)反應(yīng)。根據(jù)Ensembl的數(shù)據(jù)庫(kù),EGFR最長(zhǎng)的編碼形式有28個(gè)外顯子,編碼區(qū)共有9821個(gè)堿基,不管是一代測(cè)序還是熒光定量都很難一次把EGFR全部位點(diǎn)都檢測(cè)到。而針對(duì)10K的區(qū)域,對(duì)于高通量測(cè)序來(lái)說(shuō)只需完成10mb測(cè)序量(1000X)就可以精確檢測(cè)所有位點(diǎn)的信息。目前市場(chǎng)上主流的高通量測(cè)序儀一次測(cè)序都可以完成10G~1.8T,也就說(shuō)可以一次開(kāi)機(jī)至少可以完成1000個(gè)以上病人的樣本。
對(duì)于單基因的檢測(cè),除非這個(gè)基因很長(zhǎng),或者具有大片段的缺失、重復(fù),否則用高通量測(cè)序來(lái)做單基因檢測(cè)有點(diǎn)大材小用,現(xiàn)實(shí)臨床檢驗(yàn)工作中要短時(shí)間聚齊1000個(gè)病人的樣本也頗有難度,樣本太少的話(huà)單個(gè)樣本的平攤成本就會(huì)劇增。因此對(duì)于基因突變檢測(cè),高通量測(cè)序技術(shù)更適合多基因組合、甚至全外顯子捕獲等測(cè)序方式。
3.微生物、病毒、細(xì)菌鑒定
采用PCR方式來(lái)鑒定微生物、病毒、細(xì)菌非常快捷、廉價(jià),但是需要利用已知物種的DNA序列設(shè)計(jì)PCR引物探針,對(duì)于未知物種則一籌莫展;一代測(cè)序的方法是可以鑒定未知物種,但是樣本要求是經(jīng)過(guò)分離培養(yǎng),DNA背景單一,混合多個(gè)物種的DNA樣本,一代測(cè)序會(huì)產(chǎn)生大量雜峰而無(wú)法正常得出測(cè)序結(jié)果。而高通量測(cè)序無(wú)需做任何培養(yǎng)、分離、也無(wú)需事先知曉物種,只要把待測(cè)樣本的基因組DNA構(gòu)建測(cè)序文庫(kù),測(cè)序產(chǎn)生數(shù)十萬(wàn)~數(shù)千萬(wàn)條不同的DNA序列,即可以輕易知道待測(cè)樣本中有何種微生物、病毒、細(xì)菌、每一個(gè)物種的比例、堿基是否有突變、是否為新物種。
2009年H1N1病毒爆發(fā)感染時(shí),有一名病人死于呼吸系統(tǒng)引起的多器官衰竭,然而并不知道具體的死因??茖W(xué)家把病人的肺部穿刺組織的DNA拿來(lái)做高通量測(cè)序。最終在950萬(wàn)條序列中,含有0.85%的序列來(lái)自于H1N1病毒基因組,從而幫助科學(xué)家發(fā)現(xiàn)了該病人的真正死因。在這樣高人類(lèi)基因組干擾的背景下,目前其他技術(shù)都難以快速發(fā)現(xiàn)致病病毒序列、以及分子分型。
結(jié)核桿菌感染現(xiàn)在越來(lái)越嚴(yán)重,由于結(jié)核桿菌生長(zhǎng)緩慢,發(fā)現(xiàn)結(jié)核桿菌感染及分子分型往往需要數(shù)月的時(shí)間。而結(jié)核桿菌的基因組只有4.4mb,利用高通量測(cè)序儀可以非常早期發(fā)現(xiàn)結(jié)核桿菌感染,同時(shí)還可輕易測(cè)得結(jié)核桿菌基因組的大部分區(qū)域,便于選擇合適的敏感藥物,以及確定是否為全新分子分型。
腸道微生態(tài)為目前熱門(mén)的研究領(lǐng)域,在腸道內(nèi)微生物種類(lèi)眾多,各菌群的種類(lèi)和比例會(huì)影響人體的建庫(kù)、代謝情況。高通量測(cè)序儀也是該領(lǐng)域的唯一選擇。
4.腫瘤相關(guān)檢測(cè)
除了前述的腫瘤基因突變檢測(cè)以外,在血漿中尋找腫瘤組織脫落的DNA片段,對(duì)早期發(fā)現(xiàn)腫瘤、監(jiān)控術(shù)后復(fù)發(fā)等領(lǐng)域被寄予厚望。血漿中大部分為正常組織的脫落細(xì)胞DNA,如果有腫瘤發(fā)生,異常增生的細(xì)胞脫落外周血循環(huán),降解成低豐度DNA片段,由于含量低、碎片化DNA,基因芯片和PCR都不能正常檢測(cè)。在無(wú)創(chuàng)產(chǎn)前檢測(cè)的技術(shù)流程上做分析優(yōu)化,高通量測(cè)序技術(shù)可精確檢測(cè)游離DNA的每一個(gè)堿基,從而發(fā)現(xiàn)是否有腫瘤突變基因存在。美國(guó)霍普金斯大學(xué)也曾提出,首先對(duì)手術(shù)腫瘤組織進(jìn)行全基因組深度測(cè)序,發(fā)現(xiàn)個(gè)體化的腫瘤基因組融合片段,隨后在外周血中利用實(shí)時(shí)熒光PCR方法檢測(cè)該個(gè)體化基因組融合片段的豐度,如果豐度提高則提示腫瘤有轉(zhuǎn)移、復(fù)發(fā)的可能。
總結(jié)
十年來(lái),高通量測(cè)序慢慢從實(shí)驗(yàn)室進(jìn)入了臨床檢驗(yàn),展現(xiàn)了蓬勃的生機(jī)及想象空間,未來(lái)肯定還有很多新的檢測(cè)項(xiàng)目有待開(kāi)發(fā)。10年來(lái),高通量測(cè)序的單堿基成本已經(jīng)降低了數(shù)百倍,也許在不久的將來(lái),每一個(gè)新生兒都會(huì)有自己的基因組序列。海量數(shù)據(jù)的產(chǎn)生,也會(huì)反過(guò)來(lái)幫助近幾年遭遇瓶頸的藥物研發(fā)機(jī)構(gòu),研發(fā)更多的個(gè)體化藥物。
高通量測(cè)序本身還有很多局限性,一次測(cè)序需要多個(gè)樣本混合、成本還是相對(duì)昂貴、數(shù)據(jù)分析具有挑戰(zhàn)性、操作環(huán)節(jié)多。企業(yè)界、科學(xué)界都在解決測(cè)序儀的穩(wěn)定性、樣本處理的便捷性、一體化數(shù)據(jù)分析等等問(wèn)題。就像二代測(cè)序技術(shù)無(wú)法取代一代測(cè)序一樣,高通量測(cè)序技術(shù)也無(wú)法取代PCR、FISH等其他類(lèi)型的分子診斷技術(shù)。高通量測(cè)序技術(shù)會(huì)成為未來(lái)分子診斷領(lǐng)域的重要組成部分,大大推動(dòng)技術(shù)前進(jìn)。