下一代基因測(cè)序等新的生物醫(yī)學(xué)技術(shù)正在制造海量的數(shù)據(jù),改變這個(gè)科學(xué)領(lǐng)域。這一趨勢(shì)帶來了過去無法想象的突破,也讓研究人員不得不奮起直追,好趕上先進(jìn)技術(shù)的步伐。
安妮·柯克蘭(Anne Corcoran)說:“這讓我感覺自己老了。”她是位于英國(guó)劍橋的人類生物學(xué)研究中心——巴布拉漢姆研究所(Babraham Institute)的一名科學(xué)家??驴颂m帶領(lǐng)的團(tuán)隊(duì)在研究人類基因組與免疫系統(tǒng)、尤其是抵御感染的抗體之間的關(guān)系,
用她自己的話說,她是一個(gè)“老派生物學(xué)家”,練就了一身使用移液管、培養(yǎng)皿和護(hù)目鏡的技術(shù),那種坐在板凳上擺弄瓶瓶罐罐的工作被稱為“濕實(shí)驗(yàn)”?;叵胱约涸缒甑穆殬I(yè)生涯,她說:“我很清楚凝膠上的基因長(zhǎng)什么樣。”
圖片來源:Dávid Biró for Mosaic
現(xiàn)如今僅有這些技能是不夠的??驴颂m說:“十五年前我開始招博士的時(shí)候,他們?nèi)巧瞄L(zhǎng)濕實(shí)驗(yàn)室技術(shù)的。但現(xiàn)在我們招博士生的時(shí)候,首先考慮的是他們能不能處理復(fù)雜的生物信息分析。”現(xiàn)在,要想成為一名生物學(xué)家,你還得是個(gè)統(tǒng)計(jì)學(xué)家,甚至是程序員。你得會(huì)寫算法才行。
算法本質(zhì)上是一組指令,即一組預(yù)先定義的步驟。菜譜也可以被視為一種算法,當(dāng)然更明顯的算法是計(jì)算機(jī)程序。你確定了輸入,食材、數(shù)字或者隨便什么,一步步運(yùn)行算法(可以像“對(duì)每個(gè)數(shù)字加一”那么簡(jiǎn)單,也能像谷歌的搜索算法那么復(fù)雜),就能得到輸出:蛋糕、搜索結(jié)果,或者一個(gè) Excel 電子表格。
像柯克蘭這樣的研究者們需要用到算法,在她擔(dān)任團(tuán)隊(duì)領(lǐng)導(dǎo)者的 17 年中,生物學(xué)發(fā)生了天翻地覆的變化。引發(fā)改變的原因,正是隨生物醫(yī)學(xué)技術(shù),尤其是新一代測(cè)序技術(shù)發(fā)展而產(chǎn)生的海量數(shù)據(jù)。
不久之前,對(duì)整個(gè)基因組進(jìn)行測(cè)序、確定 DNA 螺旋中所有 30 億個(gè)堿基對(duì)的順序還需要花費(fèi)數(shù)年。人類基因組計(jì)劃(The Human Genome Project)首次確定了人類全套基因組序列,它從提出到 2003 年結(jié)束共耗費(fèi)了 13 年時(shí)間、20 億英鎊(約合人民幣 180 億元)。而現(xiàn)在,新一代測(cè)序技術(shù)僅需 24 小時(shí)就能完成同樣的工作,花費(fèi)不超過 1000 英鎊 (人民幣 9100 元)。
這完全改變了科學(xué)家的工作方式。這不僅意味著他們需要干的臟活變少了,需要具備的技能改變了,更意味著科學(xué)的整個(gè)過程,即從產(chǎn)生想法到完成驗(yàn)證,都已經(jīng)被顛覆。
許多年長(zhǎng)的科學(xué)家都得了解之前沒有接觸過的技術(shù),還得對(duì)學(xué)生進(jìn)行指導(dǎo)。那些原本沒有教授現(xiàn)代生物學(xué)所需技術(shù)的學(xué)校也在你追我趕,爭(zhēng)相開設(shè)相關(guān)課程。但最重要的是,這些技術(shù)的出現(xiàn)為科學(xué)發(fā)現(xiàn)帶來了突破性的進(jìn)展,這是在 20 年前、甚至 10 年前根本不可能實(shí)現(xiàn)的。
從巴布拉漢姆出發(fā),只需十分鐘車程,就能到達(dá)欣克斯頓村(Hinxton),這里坐落著另一個(gè)重要的生命科學(xué)中心,維爾康姆基金會(huì)桑格研究所(Wellcome Sanger Institute)。它最近滿 25 歲了,這里的一磚一瓦都記錄了基因組學(xué)的飛速發(fā)展。
桑格研究所旁邊就是歐洲生物信息學(xué)研究所(the European Bioinformatics Institute),目前在這里工作的莫里茨·格斯登(Moritz Gerstung)回憶起往事,笑了出來。他說:“我的博士后研究就是在桑格做的。你幾乎一眼就能看出這建筑是什么時(shí)候設(shè)計(jì)的,用來做實(shí)驗(yàn)的空間特別大,但是可以讓科學(xué)家們?cè)陔娔X前坐著分析數(shù)據(jù)的地方卻沒有多少。”
牛津大學(xué)大數(shù)據(jù)研究所(Big Data Institute)的統(tǒng)計(jì)遺傳學(xué)教授吉爾·麥克維恩(Gil McVean)表示,這點(diǎn)在哪兒都一樣。如今,基因組研究的大部分工作都是在電腦上完成的,很少會(huì)用到實(shí)驗(yàn)臺(tái)。他說:“那些成立十五年以上的研究所里,90% 都是濕實(shí)驗(yàn)室,但如果你進(jìn)去看看,就會(huì)發(fā)現(xiàn)幾乎讓人人都坐在電腦前?,F(xiàn)在建立的生物醫(yī)學(xué)研究中心里,僅有 10% 的濕實(shí)驗(yàn)室,其他 90% 都是電腦計(jì)算實(shí)驗(yàn)室。”
這并不是唯一的變化。麥克維恩認(rèn)為:“科學(xué)界一個(gè)重大的變化,是人們漸漸拋棄之前那種專一、有針對(duì)性、假設(shè)引導(dǎo)的模式,即那種‘產(chǎn)生想法、設(shè)計(jì)實(shí)驗(yàn)、進(jìn)行實(shí)驗(yàn)、驗(yàn)證結(jié)果’的模式。”
圖片來源:Dávid Biró for Mosaic
在過去,你必須事先對(duì)某個(gè)基因可能起到的作用作出基本可靠的設(shè)想,也就是說,要對(duì)其生化作用通路展開合理的想象,判斷這個(gè)基因與某一疾病或特征的關(guān)聯(lián)。耗時(shí)的基因測(cè)序以及有限的電腦計(jì)算能力意味著,為了節(jié)約時(shí)間和金錢,在實(shí)驗(yàn)之前你就要明確自己要找的是什么。
但現(xiàn)在,你只需要收集大量的數(shù)據(jù),讓數(shù)據(jù)決定假設(shè)是什么,麥克維恩說道。如果你有 10000 個(gè)某種疾病患者的基因組和 10000 個(gè)健康人的基因組數(shù)據(jù),那么你就不再需要提前甄別出可能有關(guān)的基因,只要寫一個(gè)算法來比較這些數(shù)據(jù),分析兩組的差異,然后找出與疾病有關(guān)的基因就行了。
這就是全基因組關(guān)聯(lián)研究(genome-wide association study),數(shù)據(jù)驅(qū)動(dòng)時(shí)代一種常見的分析形式。理念很簡(jiǎn)單,就是從一大群人中獲取基因組信息,進(jìn)行測(cè)序,然后用算法來比較所有的 DNA。要比較的信息不僅包含大約 2.4 萬個(gè)編碼 DNA(即基因,只占基因組中的 1-2%),還包括那些目前仍然保持神秘的未編碼 DNA。算法也很簡(jiǎn)單:例如,比較特定 DNA 突變?cè)诰哂心撤N特征和不具有這種特征的人群中出現(xiàn)的頻率。如果這個(gè)突變?cè)诰哂心撤N特征的人群中出現(xiàn)的頻率顯著高于預(yù)期,算法就會(huì)將其標(biāo)記出來。
這種做法的難點(diǎn)在于,疾病大都很復(fù)雜,涉及成百上千個(gè)基因或未編碼 DNA 片段。因此,復(fù)雜的多維分析很快應(yīng)運(yùn)而生。雖然不會(huì)用到新的數(shù)學(xué)知識(shí),但在如此龐大的任務(wù)中,算法必不可少。應(yīng)用算法,通常能一次比較幾十個(gè)到數(shù)百個(gè)參數(shù)。
這和谷歌的搜索算法有點(diǎn)相似。對(duì)網(wǎng)頁進(jìn)行排序的過程并不復(fù)雜——比如檢測(cè)你的搜索關(guān)鍵詞在頁面上出現(xiàn)的頻率、位置,以及到該頁面的鏈接數(shù)量等。但算法能夠結(jié)合數(shù)百種方法,同時(shí)完成數(shù)十億網(wǎng)頁的檢測(cè),這是人力不所能及的。
算法的應(yīng)用給人來帶來了巨大的便捷。格斯登的研究領(lǐng)域——癌癥基因組學(xué)可能是受益最大的領(lǐng)域之一,比如在白血病方面。
在某些情況下,這種給人致命打擊的疾病可以通過骨髓移植完全治愈。不過骨髓移植是一場(chǎng)大手術(shù),它帶來的并發(fā)癥也可能導(dǎo)致病人死亡。只有在無計(jì)可施的時(shí)候,醫(yī)生才會(huì)對(duì)白血病患者進(jìn)行骨髓移植。
然而,預(yù)測(cè)哪種白血病最為致命十分困難。白血病的癥狀非常復(fù)雜,醫(yī)生不一定能夠據(jù)此推斷出準(zhǔn)確的預(yù)后。
因此,格斯登團(tuán)隊(duì)的研究對(duì) 1500 名癌癥患者的基因組進(jìn)行測(cè)序,找出相關(guān)的 DNA 突變,然后判斷這些突變分別對(duì)應(yīng)哪些癥狀。他們共找到了 5000 種不同的突變和約 1000 種不同的組合,然后將這些組合按死亡風(fēng)險(xiǎn)的高低分為 11 類。格斯登表示:“這能讓臨床醫(yī)生做出更準(zhǔn)確的決定。”
數(shù)據(jù)驅(qū)動(dòng)帶來的影響還要比這大得多。南安普敦大學(xué)(University of Southampton)癌癥免疫學(xué)教授埃德·詹姆斯(Edd James)認(rèn)為,對(duì)腫瘤基因組進(jìn)行測(cè)序已經(jīng)在癌癥治療方法中引發(fā)了“思維轉(zhuǎn)變”,“癌癥不只是一大堆復(fù)制的細(xì)胞,如今我們對(duì)這一事實(shí)感到更加慶幸”。
圖片來源:Pixabay
一種癌癥可能會(huì)包含數(shù)十種不同類型的細(xì)胞,每種細(xì)胞又有不同的 DNA 突變組合,需要使用不同的藥物進(jìn)行治療。所以基因測(cè)序讓臨床醫(yī)生能夠?qū)λ麄兊牟∪耍ê湍[瘤)選擇更有針對(duì)性的藥物。詹姆斯說:“以前,治療都是針對(duì)人群的,‘X% 的病人在接受這種治療后會(huì)有好轉(zhuǎn)’,但有了基因測(cè)序的信息之后,你能判斷每個(gè)個(gè)體是否適合這種治療。”
除了發(fā)現(xiàn)差異,基因測(cè)序也能反映不同癌癥之間的共性。詹姆斯說,歷史上,癌癥根據(jù)解剖部位來定義:如肺癌、肝癌、頭頸癌等,“但應(yīng)用新一代測(cè)序技術(shù),你會(huì)發(fā)現(xiàn)有些不同部位癌癥之間的共同點(diǎn)比同一部位之間的還要多。這讓我們意識(shí)到,某些癌癥(如乳腺癌)的特效藥也許能治療其他部位的癌癥。”
格斯登支持這個(gè)觀點(diǎn):“從遺傳學(xué)角度看,不同解剖部位的癌癥存在大量重疊。甚至有人在某些前列腺癌中發(fā)現(xiàn)了 BRCA1(一種與乳腺癌密切相關(guān)的基因)。”
這種相似性也變得愈發(fā)重要。美國(guó)食品藥品監(jiān)督管理局(Food and Drug Administration)最近批準(zhǔn)一種抗癌藥物——派姆單抗(pembrolizumab)——用于治療任何出現(xiàn)錯(cuò)配修復(fù)缺陷(一種 DNA 修復(fù)錯(cuò)誤)跡象的癌癥,這標(biāo)志著按基因而不是發(fā)病部位治療癌癥的藥物開始獲批。這一切都?xì)w功于不斷涌現(xiàn)的數(shù)據(jù)流。
桑格研究所研究致病菌基因組的數(shù)據(jù)科學(xué)家妮可·惠勒(Nicole Wheeler)表示:“我們很善于生成數(shù)據(jù),結(jié)果得到了過多的數(shù)據(jù)。”麥克維恩也表示贊同:“根據(jù)摩爾定律,計(jì)算能力每 18 個(gè)月能翻一番。通過基因組測(cè)序和醫(yī)學(xué)成像、數(shù)字病理學(xué)采集到的生物醫(yī)學(xué)數(shù)據(jù)增長(zhǎng)速率比這還要快。生物醫(yī)學(xué)數(shù)據(jù)遵循的是‘超級(jí)摩爾定律’。”
在本世紀(jì)初,生物學(xué)家自己檢查數(shù)據(jù)還是一件完全不可能的事。這也就意味著生物學(xué)家要么聘用專人,要么自己成為數(shù)據(jù)科學(xué)家。
安妮·柯克蘭說:“幾年前我們遇到了瓶頸。我們有許多數(shù)據(jù),卻不知該如何處理。由此算法應(yīng)運(yùn)而生,處理數(shù)據(jù),使其發(fā)揮最大價(jià)值。如果研究一個(gè)或幾個(gè)基因,還可以手動(dòng)計(jì)算;但如果你要研究?jī)扇f個(gè)基因表達(dá),手動(dòng)統(tǒng)計(jì)根本不現(xiàn)實(shí)。”
許多生物學(xué)家都像柯克蘭一樣,在實(shí)驗(yàn)臺(tái)和玻璃器皿之間成長(zhǎng)起來,而不是電腦和辦公桌旁——他們不得不學(xué)著使用這些算法。柯克蘭說:“我覺得年長(zhǎng)的科學(xué)家常常被算法嚇倒,他們比對(duì)年輕的同事可能會(huì)過于依賴,或者更愿意承認(rèn)這點(diǎn)。”
柯克蘭發(fā)展出了關(guān)于算法原理的 “實(shí)用知識(shí)”,但她也承認(rèn),“這是一個(gè)有些脆弱的時(shí)期,團(tuán)隊(duì)領(lǐng)導(dǎo)看不懂下屬們做的工作。”
柯克蘭在巴布拉漢姆研究所的同事沃爾夫·瑞克(Wolf Reik)對(duì)此表示同意。瑞克領(lǐng)導(dǎo)著一個(gè)表觀遺傳學(xué)研究團(tuán)隊(duì),他說,老一輩科學(xué)家的思考方式完全不同,“這點(diǎn)很有趣——開組會(huì)的時(shí)候,我的員工會(huì)把基因組當(dāng)做一個(gè)整體來思考問題;而我會(huì)分析單個(gè)基因,然后進(jìn)行歸納,因?yàn)檫@就是我受到的思維訓(xùn)練。”
他認(rèn)為,對(duì)處在他這個(gè)位置的人來說,理解新一輩科學(xué)家的工作很關(guān)鍵,“最關(guān)鍵的是要對(duì)如何使用算法工具形成直覺理解……畢竟工作中最后會(huì)有我的署名。”
圖片來源:Pixabay
另一方面,年輕科學(xué)家在數(shù)據(jù)環(huán)境下長(zhǎng)大,而且其中一些人之前就接觸過相關(guān)知識(shí)。格斯登本科學(xué)的是物理,不過有些團(tuán)隊(duì)負(fù)責(zé)人也是如此,如麥克維恩。但一些原本學(xué)習(xí)生物的人現(xiàn)在卻學(xué)起了編程。在桑格研究所研究基因型與人類不同表現(xiàn)型關(guān)系的博士后蔡娜(音,Na Cai)說:“我本科學(xué)的是生物,那才是我的專業(yè)領(lǐng)域。”
“而現(xiàn)在我每天做的是統(tǒng)計(jì)分析。這就像學(xué)習(xí)一種或幾種新的語言一樣,我得把之前大腦中生化路徑和流程圖的思維方式,轉(zhuǎn)化成一種更結(jié)構(gòu)化的編程思維。”
與她共事的那些年長(zhǎng)科學(xué)家都“挺跟得上發(fā)展潮流”,她說道,“他們可能自己不會(huì)寫代碼,但是能看懂寫好的代碼能做什么分析。”
蔡娜的同事惠勒也是生物學(xué)出身,后來學(xué)起了編程?;堇照f:“我沒有傳統(tǒng)的軟件工程背景,我是邊讀博士邊學(xué)了編程。(我編的程序)不是最高效的,也不是最迷人的,但編程的目的是明確你要進(jìn)行怎樣的計(jì)算,然后實(shí)現(xiàn)它。”
為了滿足這些需求,這幾年本科學(xué)位發(fā)生了很大變化。比如,紐卡斯?fàn)柎髮W(xué)(Newcastle University)在生物系本科課程中增設(shè)了生物信息學(xué)。雷丁大學(xué)(Reading University)的畢業(yè)設(shè)計(jì)課題中也包含了計(jì)算生物學(xué),不過學(xué)生們很少在前幾年選修計(jì)算課程,所以他們會(huì)在最后一年“臨時(shí)抱佛腳”。倫敦帝國(guó)理工學(xué)院(Imperial College London) 已經(jīng)開設(shè)了生物信息學(xué)課程,正計(jì)劃給大一大二學(xué)生增設(shè)編程課?;堇照f:“我覺得人們已經(jīng)認(rèn)識(shí)到,生物學(xué)涉及的數(shù)據(jù)比過去要多得多,因此人們需要具備處理這些數(shù)據(jù)的技能。”
但是,改變過程很慢,而且有時(shí)候會(huì)受到學(xué)生們的抵觸,畢竟有些人選擇生物可不是為了學(xué)編程??驴颂m表示:“我只能說本科課程正在追趕這一趨勢(shì),但總體而言還沒趕上,從計(jì)算機(jī)相關(guān)碩士課程的激增就能看出這點(diǎn)。”
當(dāng)然,改變還是必要的。即使是那些最需要做濕實(shí)驗(yàn)工作的科學(xué)家,在接受采訪時(shí)也表示他們做實(shí)驗(yàn)的時(shí)間比以往減少了 50%;更有一些人表示,這一比例已經(jīng)降到了 10%,例如蔡娜的例子,自從專門研究生物信息學(xué)以來就根本就沒做過濕實(shí)驗(yàn)。
惠勒說,向數(shù)據(jù)驅(qū)動(dòng)的轉(zhuǎn)變,可以看做是科學(xué)從假設(shè)-檢驗(yàn)到假設(shè)-生成的轉(zhuǎn)變。一位不愿透露姓名的科學(xué)家擔(dān)心這會(huì)降低科學(xué)的創(chuàng)造力,但惠勒認(rèn)為事實(shí)并非如此,她說:“這只是轉(zhuǎn)移了創(chuàng)造力。在某些方面,發(fā)揮創(chuàng)造力的空間反而更大了。你能夠用相對(duì)較低的成本嘗試一些瘋狂的想法。”
好處還不止這些。位于英國(guó)諾福克的計(jì)算生物學(xué)研究中心——厄勒姆研究所(Earlham Institute)的生物信息學(xué)家馬特·鮑恩(Matt Bawn)說:“你的思路可能會(huì)被假說限制。最好是做一個(gè)沒有先入之見的公正觀察者,等待畫面從空白的畫布中浮現(xiàn)出來。”
但最大的好處是,數(shù)據(jù)驅(qū)動(dòng)的研究總能在之前無法探究的復(fù)雜領(lǐng)域,提出迷人的新發(fā)現(xiàn)。
斯蒂芬·肖恩菲爾德(Stefan Schoenfelder)也是巴布拉漢姆研究所的研究員,研究染色體的 3D 形狀及其對(duì)基因表達(dá)的影響。人類基因組工程完成之時(shí),發(fā)現(xiàn)的基因數(shù)量遠(yuǎn)比預(yù)想的少——只有 2.4 萬個(gè),大約是科學(xué)家估計(jì)的最小數(shù)量的四分之一。其余的 DNA 根本不編碼蛋白質(zhì)。
后來人們意識(shí)到,非編碼區(qū)域的作用之一是調(diào)節(jié)基因表達(dá):在一些細(xì)胞中開啟表達(dá),在另一些中關(guān)閉表達(dá)。它們實(shí)現(xiàn)這種功能的方式之一,就是在不同細(xì)胞中折疊成不同形狀。
人們通常將染色體描繪為“X”形,但它們只有在細(xì)胞分裂時(shí)才是這種形態(tài)。在其他時(shí)間里,幾乎在所有細(xì)胞中,兩米長(zhǎng)的 DNA 都會(huì)蜷曲成復(fù)雜的一團(tuán)。所以,即使某段 DNA 與染色體上的基因相距很遠(yuǎn),它仍能有可能對(duì)其起調(diào)節(jié)作用,因?yàn)樵趯?shí)際情況下,兩者有密切的物理接觸,肖恩菲爾德講道。“所以研究 3D 狀態(tài)下的染色體很重要:如果你只觀察序列,假設(shè)相鄰的基因才會(huì)受到調(diào)節(jié),常常會(huì)得出錯(cuò)誤的結(jié)論。”
最重要的是,染色體折疊的方式很不一樣,肖恩菲爾德說。“相同的基因組,在T細(xì)胞中與在肝細(xì)胞和腦細(xì)胞中的構(gòu)象都不一樣,因此它們表達(dá)的基因不同,細(xì)胞的功能也不同。”
研究各個(gè)情況下染色體的 3D 形狀是很困難的,這涉及細(xì)胞類型的測(cè)序,和發(fā)現(xiàn)其與其他細(xì)胞類型的差異、分析是哪段 DNA 產(chǎn)生了相互作用。但首先 ,需要用一種被稱為交聯(lián)和連接的復(fù)雜技術(shù)處理 DNA,進(jìn)行測(cè)序,從而判斷哪些 DNA 片段是相近的。如果兩段原本相距很遠(yuǎn)的 DNA 在細(xì)胞核中緊密相鄰,那有可能這種折疊方式就是為了方便其中一個(gè)基因調(diào)控另一個(gè)。但在更普遍的情況下,這只是 DNA 隨機(jī)纏結(jié)的結(jié)果。
圖片來源:Dávid Biró for Mosaic
要從噪聲中分辨出真正起作用的關(guān)聯(lián)段,需要對(duì)數(shù)十億數(shù)據(jù)進(jìn)行分析,找出那些出現(xiàn)頻率較高的基因連接片段。這就需要算法發(fā)揮作用了。一旦找到染色體中哪幾對(duì)片段有相互接觸,你就可以在此基礎(chǔ)上用其他算法進(jìn)行 3D 建模了。
肖恩菲爾德說:“這整個(gè)領(lǐng)域只有 15 年的歷史。”他還說,在這之前,“我從來沒考慮過基因組的形狀,我認(rèn)為它就像一團(tuán)塞入細(xì)胞核的意大利面。而它到底怎樣塞入直徑大約 5 微米的細(xì)胞核中,我覺得這只是怎么安排的問題。”
“讓我震驚的是結(jié)構(gòu)微調(diào),即使在這種極度壓縮的條件下,結(jié)構(gòu)微調(diào)依然存在。”染色體的 3D 形狀,以及這種形狀的染色體中哪些基因會(huì)對(duì)另一些起調(diào)控作用,將告訴我們?nèi)祟愺w內(nèi)的 200 多種細(xì)胞是如何產(chǎn)生的。
與此同時(shí),麥克維恩指出,基因組研究迫使臨床醫(yī)生對(duì)多發(fā)性硬化(multiple sclerosis)這種疾病完全重新分類。他說:“我們發(fā)現(xiàn)了 250 多個(gè)增加患病風(fēng)險(xiǎn)的基因片段,由此可以對(duì)個(gè)人的患病風(fēng)險(xiǎn)作出較準(zhǔn)確的判斷。這些基因還使我們發(fā)現(xiàn)了它與類風(fēng)濕性關(guān)節(jié)炎等疾病的重合之處:某些增加多發(fā)性硬化患病風(fēng)險(xiǎn)的基因,也會(huì)降低類風(fēng)濕性關(guān)節(jié)炎的風(fēng)險(xiǎn)。”
麥克維恩接著說:“因此我們發(fā)現(xiàn),盡管多發(fā)性硬化表現(xiàn)出神經(jīng)退行性疾病的癥狀,它其實(shí)是一種自身免疫性疾病。目前已有四五家公司基于這一判斷推出了新的治療方案。”
巴布拉姆研究所的伍爾夫·瑞克還有個(gè)令人激動(dòng)、甚至有點(diǎn)科幻的故事要講。他研究表觀遺傳學(xué),觀察細(xì)胞的化學(xué)環(huán)境如何影響基因表達(dá)。他的研究也要對(duì) RNA(一種可以讀取 DNA 并制造蛋白質(zhì)的信使分子)進(jìn)行測(cè)序,了解它在不同細(xì)胞中的差異。他們的團(tuán)隊(duì)對(duì)衰老尤其感興趣。
五年前,科學(xué)家們發(fā)現(xiàn)(瑞克的工作也證實(shí)了這點(diǎn)),人體所有細(xì)胞中都有一個(gè)控制衰老的時(shí)鐘,即 DNA 甲基化(DNA methylation)。DNA 共有四種堿基:C(胞嘧啶)、A(腺嘌呤)、G(鳥嘌呤)和T(胸腺嘧啶)。隨著年齡的增長(zhǎng),我們的 DNA 中越來越多的 C 會(huì)被打上一個(gè)小小的化學(xué)標(biāo)記,叫做甲基。要看懂這個(gè)時(shí)鐘十分簡(jiǎn)單,數(shù)一下甲基數(shù)就行了。但這又一次涉及到了龐大的返回?cái)?shù)據(jù),只能用算法計(jì)算。
里克說:“通過讀取這個(gè)時(shí)鐘,我們可以預(yù)測(cè)你我的年齡,誤差不超過 3 年。它的準(zhǔn)確度出奇的高,這是我們擁有的關(guān)于衰老最準(zhǔn)確的生物標(biāo)記。”
當(dāng)然,“無論是對(duì)老化過程的解讀,還是用程序預(yù)測(cè)壽命”,都非常有意思。但里克認(rèn)為,這項(xiàng)研究的意義還在于我們可以打斷衰老時(shí)鐘:“我相信未來一定會(huì)發(fā)展出能夠減慢衰老時(shí)鐘的藥物和小分子。”
通過大數(shù)據(jù)來獲得永生可能有點(diǎn)不切實(shí)際,但每一位接受采訪的科學(xué)家都同意,算法主導(dǎo)、數(shù)據(jù)密集型基因組研究的興起已經(jīng)改變了生命科學(xué)。它令老一輩科學(xué)家有時(shí)會(huì)看不懂新一輩同事的工作,也令現(xiàn)代研究中心的實(shí)驗(yàn)室變得富余,而能夠使用用電腦的辦公室變得緊缺。肖恩菲爾德認(rèn)為,變化的步伐可能會(huì)“讓人迷失方向”。
他說:“現(xiàn)代生活太復(fù)雜了,13 年前我讀博士時(shí)掌握的技能已經(jīng)完全跟不上現(xiàn)代科學(xué)發(fā)展的腳步。”但這些變化給基因組研究帶來的影響是正面的。人類基因組工程快要告一段落的時(shí)候,大家都特別興奮,相信解開了基因的謎題后,很多疾病很快就能被攻克。但這些疾病大多涉及多個(gè)基因,很是復(fù)雜,僅靠研究單個(gè)基因是不可能實(shí)現(xiàn)的?,F(xiàn)在,借助新一代基因測(cè)序和篩選數(shù)據(jù)的工具,攻克這些疾病成為了可能。
肖恩菲爾德說:“現(xiàn)在我每做一個(gè)實(shí)驗(yàn),都能得到一兩億個(gè)數(shù)據(jù)點(diǎn)。我之前還以為這輩子也不會(huì)出現(xiàn)這樣的事,但短短幾年就實(shí)現(xiàn)了。我們能夠解決十年前想都不敢想的問題,這真是一場(chǎng)非凡的革命。”