目前獲取海量數(shù)據(jù)變得越來越方便,但一家機(jī)構(gòu)與另一家產(chǎn)生的資料有很多差別,把這些信息集中分析時(shí)就需要一個(gè)共同的標(biāo)準(zhǔn)。
標(biāo)準(zhǔn)化雖然艱難,但與會(huì)的業(yè)內(nèi)人士普遍認(rèn)為,當(dāng)務(wù)之急是解決生物醫(yī)學(xué)和信息科學(xué)兼通的復(fù)合型人才缺乏困境。
大數(shù)據(jù)時(shí)代正在深刻影響生物醫(yī)學(xué)研究:海量數(shù)據(jù)需要在不同系統(tǒng)和機(jī)構(gòu)間共享和分析,但因缺乏統(tǒng)一的標(biāo)準(zhǔn)而使研究者無從下手;信息技術(shù)和生物醫(yī)學(xué)的結(jié)合更加緊密,兩者兼通的復(fù)合型人才也明顯缺乏。
面對(duì)如潮水般涌來的海量數(shù)據(jù),如何更好地利用,成為了信息技術(shù)和生物醫(yī)學(xué)領(lǐng)域共同面對(duì)的挑戰(zhàn)。
大數(shù)據(jù)時(shí)代來臨
2012年,美國(guó)政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,旨在利用大量復(fù)雜數(shù)據(jù)集合獲取知識(shí)和提升洞見能力,投入金額高達(dá)2億美元。
所謂大數(shù)據(jù),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助決策更積極目的的資訊。
2月18日至20日,由李嘉誠(chéng)基金會(huì)出資舉辦的以“信息技術(shù)與未來醫(yī)學(xué)”為主題的第二屆“與大師同行”學(xué)術(shù)交流活動(dòng)上,來自耶魯大學(xué)、麻省理工學(xué)院與哈佛大學(xué)博勞德研究所、美國(guó)勞倫斯伯克利國(guó)家實(shí)驗(yàn)室、中國(guó)工程院等研究機(jī)構(gòu)的國(guó)際知名學(xué)者,對(duì)大數(shù)據(jù)對(duì)生物醫(yī)學(xué)的影響、大數(shù)據(jù)時(shí)代生物醫(yī)學(xué)研究標(biāo)準(zhǔn)化困境和復(fù)合型人才缺乏難題進(jìn)行了探討。
中國(guó)工程院院士韋鈺對(duì)《中國(guó)科學(xué)報(bào)》記者表示:“生物醫(yī)學(xué)正進(jìn)入大數(shù)據(jù)時(shí)代,很多研究都是大數(shù)據(jù)研究、大數(shù)據(jù)存儲(chǔ),從大數(shù)據(jù)里面挖掘新信息?!?/P>
她舉例說,比如現(xiàn)在診斷某種疾病,醫(yī)生可能需要調(diào)用患者的基因數(shù)據(jù)、從小到大的病歷等大量數(shù)據(jù)。
深圳華大基因研究院院長(zhǎng)汪建近日曾表示,大數(shù)據(jù)與大科學(xué)是未來生物經(jīng)濟(jì)發(fā)展的核心點(diǎn)?!耙鉀Q當(dāng)前生命科學(xué)的問題,需要從時(shí)空狀態(tài)對(duì)生老病死進(jìn)行解讀,這就需要大數(shù)據(jù)。這種大數(shù)據(jù)揭示的就是大科學(xué),從而衍生出大產(chǎn)業(yè)?!?/P>
僅以深圳國(guó)家基因庫為例,其中的樣本量已達(dá)130萬份,其中人類樣本115萬份,動(dòng)植物、微生物等其他樣本15萬份。至2013年底,預(yù)計(jì)實(shí)現(xiàn)1000萬份可溯源生物樣本的存儲(chǔ),2015年底實(shí)現(xiàn)3000萬份生物樣本的存儲(chǔ)。
而這僅僅是不斷膨脹的大數(shù)據(jù)的冰山一角。
標(biāo)準(zhǔn)化困境
不同系統(tǒng)和科研機(jī)構(gòu)之間難以實(shí)現(xiàn)標(biāo)準(zhǔn)化的數(shù)據(jù)共享和分析,這令很多科學(xué)家無所適從。
美國(guó)特拉華大學(xué)生物信息學(xué)和計(jì)算機(jī)生物學(xué)中心主任吳慧華對(duì)《中國(guó)科學(xué)報(bào)》記者表示,上述問題是生物醫(yī)學(xué)與信息科學(xué)結(jié)合過程中遇到的關(guān)鍵難題。目前獲取海量數(shù)據(jù)變得越來越方便,但一家機(jī)構(gòu)與另一家產(chǎn)生的資料有很多差別,把這些信息集中分析時(shí)就需要一個(gè)共同的標(biāo)準(zhǔn)。
以對(duì)大數(shù)據(jù)需求最為迫切的醫(yī)院為例。美國(guó)勞倫斯伯克利國(guó)家實(shí)驗(yàn)室基因組科學(xué)部主任魯賓(Rubin)表示,理想狀態(tài)下的目標(biāo)是建立統(tǒng)一的電子病歷系統(tǒng),這些信息應(yīng)該有統(tǒng)一的標(biāo)準(zhǔn),但現(xiàn)實(shí)并非如此,各個(gè)醫(yī)院存儲(chǔ)的數(shù)據(jù)標(biāo)準(zhǔn)不同,而且不同系統(tǒng)存儲(chǔ)的信息也不一樣。
據(jù)吳慧華觀察,目前在美國(guó)等國(guó)家,不同機(jī)構(gòu)和資料庫產(chǎn)生和存儲(chǔ)的數(shù)據(jù)都是遵從不同的標(biāo)準(zhǔn),標(biāo)準(zhǔn)化問題在業(yè)內(nèi)尚未達(dá)成共識(shí)。
對(duì)于標(biāo)準(zhǔn)化之難,魯賓對(duì)《中國(guó)科學(xué)報(bào)》記者解釋道,數(shù)據(jù)量大并非關(guān)鍵,而是數(shù)據(jù)類型的多樣性導(dǎo)致了難以統(tǒng)一標(biāo)準(zhǔn)。
他說,比如基因測(cè)序,雖然數(shù)據(jù)量很大,但屬于同一類型,就比較容易在同一標(biāo)準(zhǔn)下進(jìn)行分析,而生物醫(yī)學(xué)方面的數(shù)據(jù)就困難得多,涉及血壓、心跳等多種不同類型的臨床和數(shù)字化信息,有些數(shù)據(jù)之間難以關(guān)聯(lián),這便造成了標(biāo)準(zhǔn)化的挑戰(zhàn)。目前各個(gè)國(guó)家已經(jīng)開始重視這個(gè)問題,信息科學(xué)和生物醫(yī)學(xué)的學(xué)者需要更加緊密的合作。
在吳慧華看來,中國(guó)科學(xué)家應(yīng)該積極加入國(guó)際標(biāo)準(zhǔn)的討論、設(shè)計(jì)和制定中,更多參與國(guó)際上的生物醫(yī)學(xué)信息共享。
復(fù)合型人才缺乏
標(biāo)準(zhǔn)化雖然艱難,但與會(huì)的業(yè)內(nèi)人士普遍認(rèn)為,當(dāng)務(wù)之急是解決生物醫(yī)學(xué)和信息科學(xué)兼通的復(fù)合型人才缺乏困境。因?yàn)閮烧呓Y(jié)合過程中的標(biāo)準(zhǔn)化及一系列問題的化解,需要研究者對(duì)兩個(gè)領(lǐng)域都有很深的造詣。
據(jù)與會(huì)專家介紹,目前鮮有高校主動(dòng)設(shè)置生物醫(yī)學(xué)和信息科學(xué)的交叉學(xué)科和院系,橫跨這兩個(gè)領(lǐng)域的復(fù)合型人才大多源自學(xué)者自發(fā)或在導(dǎo)師引導(dǎo)下的選修。
耶魯大學(xué)醫(yī)學(xué)院干細(xì)胞研究中心主任林海帆對(duì)自己的一位學(xué)生印象深刻。這位學(xué)生曾經(jīng)主動(dòng)提出關(guān)注生物信息方面的研究,當(dāng)年很多老師以為他不務(wù)正業(yè)。最后他選擇了兼修信息科學(xué),現(xiàn)在已經(jīng)是生物醫(yī)學(xué)和信息科學(xué)兼?zhèn)涞南∪比瞬拧?/P>
“我發(fā)現(xiàn)有的學(xué)生雖然選擇生物專業(yè),但其實(shí)很有數(shù)學(xué)天分,我們研究所信息部的主任就是這樣培養(yǎng)出來的?!绷趾7珜?duì)《中國(guó)科學(xué)報(bào)》記者表示。
吳慧華也是這種復(fù)合型人才的典型。她同時(shí)具備生物學(xué)和計(jì)算機(jī)科學(xué)教育背景,曾獲臺(tái)灣大學(xué)理科學(xué)士學(xué)位、美國(guó)普渡大學(xué)植物病理學(xué)碩士和博士學(xué)位,得克薩斯大學(xué)泰勒分校第二碩士學(xué)位(計(jì)算機(jī)學(xué))。
為促進(jìn)多學(xué)科研究和教育,她2009年在特拉華大學(xué)創(chuàng)立生物信息學(xué)與計(jì)算生物學(xué)中心(CBCB),由來自5個(gè)學(xué)院的60多名教師組成,并創(chuàng)立或負(fù)責(zé)多個(gè)生物信息學(xué)教育項(xiàng)目。
麻省理工學(xué)院和哈佛大學(xué)博勞德研究所副主任、首席信息官梅西羅夫(Mesirov)向《中國(guó)科學(xué)報(bào)》記者介紹,美國(guó)政府正在推動(dòng)計(jì)算機(jī)科學(xué)和生物學(xué)等交叉學(xué)科的教育,從國(guó)家級(jí)科學(xué)中心的層面促進(jìn)高中階段的學(xué)生就開始學(xué)習(xí)交叉學(xué)科的知識(shí)。
這也許對(duì)中國(guó)會(huì)有所借鑒。