近日,關(guān)注深圳創(chuàng)新驅(qū)動(dòng)與轉(zhuǎn)型升級(jí)的媒體采訪團(tuán)(人民日?qǐng)?bào)、新華社、光明日?qǐng)?bào)、經(jīng)濟(jì)日?qǐng)?bào)、中央人民廣播電臺(tái)、中國(guó)國(guó)際廣播電臺(tái)、中央電視臺(tái)、中新社、中國(guó)日?qǐng)?bào)以及南方日?qǐng)?bào)、廣東電視臺(tái)等媒體的60余位編輯記者)調(diào)研了位于深圳鹽田區(qū)的華大基因。
華大基因首席執(zhí)行官CEO楊爽透露,華大基因組建和運(yùn)營(yíng)的深圳國(guó)家基因庫(kù)一期建設(shè)已經(jīng)完工,“內(nèi)部裝修中,裝修完畢即可入駐。”該基因庫(kù)將打造“三庫(kù)兩平臺(tái)”,存儲(chǔ)、管理、利用好我國(guó)遺傳資源,為我國(guó)生命科學(xué)和生物經(jīng)濟(jì)發(fā)展提供支撐平臺(tái)。
梅永紅
此前,關(guān)于國(guó)家基因庫(kù)最為知名的新聞,則是去年9月,原山東濟(jì)寧市委副書(shū)記、市長(zhǎng)梅永紅加盟華大基因,并出任深圳國(guó)家基因庫(kù)負(fù)責(zé)人。這一事件先后被各大媒體爭(zhēng)先報(bào)道,針對(duì)梅永紅的這一任職,華大基因董事長(zhǎng)汪建曾公開(kāi)表示,梅永紅曾有農(nóng)業(yè)部與科技部二十多年的工作經(jīng)歷,由他出任國(guó)家基因庫(kù)負(fù)責(zé)人,既符合他自身的興趣與志向,又能施展長(zhǎng)期積累的科技管理經(jīng)驗(yàn)、戰(zhàn)略運(yùn)籌和綜合能力。
梅永紅接受媒體采訪時(shí)也曾表示,個(gè)人抱負(fù)能夠與國(guó)家戰(zhàn)略結(jié)合、生物經(jīng)濟(jì)前景中亦藏有巨大潛力,能夠用自己的能力為華大基因做一些工作、為中國(guó)的生物經(jīng)濟(jì)產(chǎn)業(yè)做一些有價(jià)值的事情,我就非常滿足了。
梅永紅眼中的深圳國(guó)家基因庫(kù)
2011年1月,國(guó)家發(fā)改委批復(fù)同意深圳依托華大基因組建國(guó)家基因庫(kù)。同年10月,國(guó)家發(fā)改委、財(cái)政部、工業(yè)和信息化部以及當(dāng)時(shí)的衛(wèi)生部批復(fù),深圳國(guó)家基因庫(kù)由深圳華大基因組建及運(yùn)營(yíng),是國(guó)家“十二五”重點(diǎn)基礎(chǔ)能力建設(shè)項(xiàng)目。其位于深圳市大鵬街道下沙片區(qū)“禾塘仔”地塊,建設(shè)規(guī)模約116000平米,建筑外形基本參照了云南元陽(yáng)哈尼梯田,分兩期建設(shè),是繼美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)、歐洲生物信息研究所(EBI)、日本DNA數(shù)據(jù)庫(kù)(DDBJ)之后的第四個(gè)國(guó)家級(jí)基因庫(kù),
此前,梅永紅在即將接掌深圳國(guó)家基因庫(kù)時(shí)曾表示深圳國(guó)家基因庫(kù)被定義為“官辦民營(yíng)”、“國(guó)家購(gòu)買(mǎi)服務(wù)”的模式。”社會(huì)有能力、有資源投入一個(gè)平臺(tái)運(yùn)營(yíng)的時(shí)候,政府更多是提供政策的支持和提供資金購(gòu)買(mǎi)服務(wù),這樣效率會(huì)更高。在建設(shè)階段,國(guó)家基因庫(kù)的運(yùn)營(yíng)資金來(lái)自國(guó)家發(fā)改委、深圳市和華大基因三方,其中國(guó)家層面的資金占大頭,由發(fā)改委方面投入。按照目前規(guī)劃,基因庫(kù)投入使用后將由華大基因進(jìn)行運(yùn)行維護(hù)。
華大是在國(guó)家的支持下,構(gòu)建一個(gè)國(guó)家級(jí)平臺(tái),跟社會(huì)上現(xiàn)有的各種機(jī)構(gòu)合作,形成一個(gè)開(kāi)放、合作的平臺(tái)。這樣的一個(gè)平臺(tái),不是華大一家能夠做得了的,一定要有國(guó)家的支持。這件事情首先是國(guó)家需要。國(guó)家需要平臺(tái)來(lái)支撐未來(lái)的生物經(jīng)濟(jì)。華大基因目前有著很強(qiáng)的基因解讀能力,在世界上也處于前列,我想這是國(guó)家選擇華大的重要原因。
2016年,除了總部建設(shè)之外,國(guó)家基因庫(kù)最需要的是足夠的樣本。借助國(guó)家和各部委的支持,盡快形成基因庫(kù)的聯(lián)盟,比如中科院、各大學(xué)和其他擁有自己基因庫(kù)的機(jī)構(gòu)。目前的基因資源都局限在各個(gè)機(jī)構(gòu)內(nèi)部,他希望能夠整合這些資源使它們可以被資源共享、開(kāi)放利用。
我相信,國(guó)家立這個(gè)項(xiàng),不僅僅是要建一個(gè)基因庫(kù),更重要的是要建一個(gè)基因共享機(jī)制。“梅永紅解釋說(shuō),現(xiàn)在機(jī)構(gòu)們的開(kāi)放度都不夠,基因資源一般是政府所有、機(jī)構(gòu)所有,甚至研究組個(gè)人所有,要推動(dòng)它們之間進(jìn)行開(kāi)放合作,非常困難。
因此,要完成基因聯(lián)盟、實(shí)現(xiàn)基因共享,除了橫向與各個(gè)擁有基因資源的結(jié)構(gòu)溝通,梅永紅更重要的工作是要縱向與各部委進(jìn)行協(xié)調(diào)溝通,進(jìn)行”很好的頂層設(shè)計(jì)“,實(shí)現(xiàn)制度上的突破。
對(duì)這一涉及多方面政策和多部委的復(fù)雜制度突破該如何實(shí)現(xiàn),梅永紅說(shuō)自己”一直在思考“:”我相信能夠突破。今天世界上很多國(guó)家都能做到,為什么我們就做不到呢?我不相信。“他認(rèn)為,由社會(huì)系統(tǒng)來(lái)操盤(pán)這個(gè)國(guó)家級(jí)平臺(tái),少了很多部門(mén)和系統(tǒng)的局限—可以用很多的機(jī)制去實(shí)現(xiàn)目標(biāo),比如市場(chǎng)機(jī)制、知識(shí)產(chǎn)權(quán)的機(jī)制、利益機(jī)制、人才機(jī)制等。
關(guān)于國(guó)家基因庫(kù)
國(guó)家基因庫(kù)的基本構(gòu)成
根據(jù)的介紹,國(guó)家基因庫(kù)著眼于為本國(guó)生命科學(xué)研究和生物產(chǎn)業(yè)發(fā)展提供基礎(chǔ)性和支撐性服務(wù)平臺(tái),儲(chǔ)存和管理本國(guó)特有的遺傳資源、生物信息和基因數(shù)據(jù),是維系一個(gè)民族生存與發(fā)展的命脈,具有國(guó)家水平、服務(wù)國(guó)家戰(zhàn)略需求的創(chuàng)新科研和產(chǎn)業(yè)基礎(chǔ)項(xiàng)目。
國(guó)家基因庫(kù)集生物資源樣本庫(kù)、生物信息數(shù)據(jù)庫(kù)和生物資源信息網(wǎng)絡(luò)為一體,通過(guò)建立高水平的生物資源樣本庫(kù)、高效的生物信息數(shù)據(jù)處理、存儲(chǔ)與管理系統(tǒng)以及覆蓋廣泛的聯(lián)盟網(wǎng)絡(luò),有效保護(hù)、合理開(kāi)發(fā)和利用我國(guó)生物資源及基因數(shù)據(jù)資源,充分調(diào)動(dòng)、發(fā)揮及整合各地區(qū)、各單位的資源和技術(shù)優(yōu)勢(shì),積極開(kāi)展廣泛交流與合作,搭建信息資源研究開(kāi)發(fā)的基礎(chǔ)性支撐平臺(tái),提高我國(guó)生命科學(xué)研究水平和國(guó)際影響力,促進(jìn)我國(guó)生物產(chǎn)業(yè)發(fā)展。
國(guó)家基因庫(kù)構(gòu)成
資源樣本的應(yīng)用
國(guó)家基因庫(kù)以生物資源為依托,形成資源到科研到產(chǎn)業(yè)的全貫穿、全覆蓋模式,實(shí)現(xiàn)大資源、大數(shù)據(jù)、大科學(xué)、大產(chǎn)業(yè)的整合與應(yīng)用。應(yīng)用方向主要包括:人類(lèi)健康、新型農(nóng)業(yè)、物種多樣性及生態(tài)環(huán)境保護(hù)。
基因庫(kù)資源樣本的應(yīng)用
1、人類(lèi)健康:數(shù)字健康管理、臨床檢測(cè)的準(zhǔn)確率、疾病防治及生物制藥的針對(duì)性需要大樣本量數(shù)據(jù)的支撐,以便驗(yàn)證技術(shù)的可靠性,確定最佳策略,同時(shí)充分考慮人群差異。
2、新型農(nóng)業(yè):動(dòng)植物分子育種、功能基因的發(fā)掘、新能源的開(kāi)發(fā)利用,需要以大量物種資源為基礎(chǔ),搭建大型基因型和表型數(shù)據(jù)庫(kù),為育種者和開(kāi)發(fā)者提供完整的信息指導(dǎo),加快育種和開(kāi)發(fā)進(jìn)程。
3、物種多樣性及生態(tài)環(huán)境保護(hù):通過(guò)收集和保存各種有價(jià)值的種質(zhì)資源,建立大規(guī)模的資源庫(kù)或保護(hù)區(qū),保護(hù)物種的多樣性,并闡明外界條件和生物之間的相互作用,對(duì)生態(tài)環(huán)境起到保護(hù)和監(jiān)測(cè)作用。
基因庫(kù)主要進(jìn)展及科研成果
國(guó)家基因庫(kù):生物資源庫(kù)
生物資源庫(kù)包括人類(lèi)和非人兩種資源類(lèi)型,其中非人資源方向包括動(dòng)物細(xì)胞資源、植物種質(zhì)資源、微生物資源和海洋資源四大類(lèi)型。通過(guò)收集人和非人兩個(gè)方向的不同來(lái)源和形式的資源樣本(動(dòng)、植物活體細(xì)胞,微生物菌株,人類(lèi)組織細(xì)胞,重要瀕危物種,血液和小分子等),形成大規(guī)模、高質(zhì)量、規(guī)范化的樣本資源庫(kù)。確保我國(guó)生物資源尤其是我國(guó)的特有物種、瀕危物種、具有重要經(jīng)濟(jì)價(jià)值和科學(xué)研究?jī)r(jià)值的物種以及生態(tài)系統(tǒng)物種種群的安全性,有效的保護(hù)我國(guó)生物資源的多樣性,可持續(xù)利用生物資源,為人類(lèi)社會(huì)可持續(xù)發(fā)展提供物質(zhì)基礎(chǔ)。
樣本資源類(lèi)型
國(guó)家基因庫(kù):生物樣本庫(kù)
國(guó)家基因庫(kù)樣本庫(kù)致力于建立生物樣本庫(kù)建庫(kù)的標(biāo)準(zhǔn)規(guī)范,與聯(lián)盟伙伴分享建庫(kù)的流程和方法,共創(chuàng)科研思路,探索樣本利用的有效途徑,提升國(guó)內(nèi)樣本庫(kù)的整體水平。同時(shí),國(guó)家基因庫(kù)樣本庫(kù)能為科研、醫(yī)藥、臨床等工作者提供實(shí)驗(yàn)技術(shù)服務(wù),并根據(jù)研究的需要提供和執(zhí)行全面的解決方案。國(guó)家基因庫(kù)大鵬基地的生物樣本庫(kù)存儲(chǔ)空間未來(lái)可拓展至8,000㎡,至2015底可存儲(chǔ)3,000萬(wàn)份生物樣本的存儲(chǔ)。
樣本全程管理系統(tǒng)
該系統(tǒng)不僅能對(duì)樣本保存、出入庫(kù)進(jìn)行管理,而且能對(duì)樣本的整個(gè)流程進(jìn)行管理與監(jiān)控,包括樣本采集、運(yùn)輸、前處理、保存、應(yīng)用等整個(gè)樣本流向過(guò)程。另外,本系統(tǒng)設(shè)有端口,能與HIS等外部系統(tǒng)關(guān)聯(lián),做到信息全覆蓋。
樣本資源管理系統(tǒng)
大規(guī)模、多層次的樣本存儲(chǔ)空間
樣本庫(kù)服務(wù)項(xiàng)目
1)標(biāo)準(zhǔn)化建設(shè)咨詢。
通過(guò)聯(lián)盟建立覆蓋國(guó)內(nèi)乃至國(guó)際的生物資源信息網(wǎng)絡(luò),共同搭建資源信息、技術(shù)、人才平臺(tái),共同承擔(dān)重大項(xiàng)目,實(shí)現(xiàn)科學(xué)產(chǎn)業(yè)突破。并有由專(zhuān)業(yè)知識(shí)、經(jīng)驗(yàn)豐富組成的國(guó)家基因庫(kù)團(tuán)隊(duì)專(zhuān)注于為合作伙伴提供生物樣品庫(kù)基礎(chǔ)設(shè)施、設(shè)備耗材相關(guān)產(chǎn)品建議,實(shí)施標(biāo)準(zhǔn)流程、信息系統(tǒng)、質(zhì)量管理等平臺(tái)的搭建。
2)個(gè)性化保存。
依托大規(guī)模、高質(zhì)量、規(guī)范化的生物樣本資源及深圳華大基因研究院的核酸及蛋白測(cè)序技術(shù)、高性能計(jì)算平臺(tái)、國(guó)際領(lǐng)先水平的基因組科學(xué)研究,為廣大用戶提供樣品收集、組學(xué)數(shù)據(jù)獲得、全組貫穿分析、科研成果應(yīng)用等一套個(gè)性化樣品保存和應(yīng)用方案。
3)第三方實(shí)驗(yàn)室服務(wù)。
擁有一支經(jīng)驗(yàn)豐富、技術(shù)嫻熟的人才隊(duì)伍,并具備完善的標(biāo)準(zhǔn)資源,一流的實(shí)驗(yàn)環(huán)境,低成本、高通量、自動(dòng)化的生產(chǎn)設(shè)備,可以進(jìn)行規(guī)?;纳a(chǎn),科學(xué)化的管理,高效的運(yùn)營(yíng)。我們本著“科技以人為本”的理念為廣大用戶提供包括樣品采集、樣品保存、樣品提取、樣品檢測(cè)等優(yōu)質(zhì)服務(wù)。
4)樣本庫(kù)解決方案。
國(guó)家基因庫(kù)能為需要建立樣本庫(kù)的合作伙伴提供樣本庫(kù)建設(shè)的指導(dǎo)支持及個(gè)性化的解決方案。擁有豐富樣本庫(kù)建設(shè)經(jīng)驗(yàn)的團(tuán)隊(duì)將從樣本庫(kù)建設(shè)前期的經(jīng)費(fèi)預(yù)算、樣本庫(kù)及相關(guān)實(shí)驗(yàn)室的規(guī)劃布局到硬件設(shè)施的配備、儀器軟件的配置等項(xiàng)目對(duì)樣本庫(kù)建立的整體規(guī)劃及各個(gè)相關(guān)方面進(jìn)行梳理,并可根據(jù)實(shí)際需求派出技術(shù)人員進(jìn)行樣本庫(kù)建設(shè)的現(xiàn)場(chǎng)支持與指導(dǎo)。同時(shí),我們有專(zhuān)門(mén)的團(tuán)隊(duì)可根據(jù)需求及樣本庫(kù)的實(shí)際情況,從前期樣本的收集、處理、運(yùn)輸及保存到后期樣本在生物、醫(yī)學(xué)領(lǐng)域的應(yīng)用提供個(gè)性化的解決方案和指導(dǎo)意見(jiàn)。
國(guó)家基因庫(kù)--生物信息數(shù)據(jù)庫(kù)
生物信息數(shù)據(jù)庫(kù)匯集包含基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、表觀組、代謝組及臨床表型等數(shù)據(jù)信息,預(yù)計(jì)最終將達(dá)到500PB級(jí)別的巨量數(shù)據(jù)容量。將會(huì)成為“大數(shù)據(jù)”生物學(xué)時(shí)代研究生物生長(zhǎng)發(fā)育、衰老、死亡以及向產(chǎn)業(yè)化推廣的有利工具。
大數(shù)據(jù)
依托國(guó)家基因庫(kù)資源樣本庫(kù)豐富的生物樣本資源及深圳華大基因研究院高通量測(cè)序平臺(tái)、高性能計(jì)算平臺(tái)、信息存儲(chǔ)能力和信息分析能力的支撐,生成海量數(shù)字化樣本資源。
生物信息數(shù)據(jù)庫(kù)-大數(shù)據(jù)
存儲(chǔ)和計(jì)算
與國(guó)家超算中心、深圳超算中心、廣州超算中心等機(jī)構(gòu)展開(kāi)戰(zhàn)略性合作。總存儲(chǔ)能力達(dá)到20PB,總峰值計(jì)算能力達(dá)到212Tflops,并擁有云存儲(chǔ)技術(shù),有能力為海量生物資源表型數(shù)據(jù)及組學(xué)數(shù)據(jù)進(jìn)行存儲(chǔ)、處理和分析。
云存儲(chǔ)與計(jì)算模式
開(kāi)放性平臺(tái)
?。?)存儲(chǔ)生物基因數(shù)據(jù):運(yùn)用云存儲(chǔ)技術(shù),保存海量貫穿組學(xué)數(shù)據(jù),為后續(xù)研究提供數(shù)據(jù)保障。(2)提供生物信息檢索:國(guó)家基因庫(kù)為開(kāi)放性、公益性科研平臺(tái),向用戶提供生物信息檢索、比較、分析等服務(wù)。(3)服務(wù)生命科學(xué)研究:依托深圳華大基因研究院云計(jì)算與云存儲(chǔ)技術(shù),向各科研機(jī)構(gòu)提供生命科學(xué)研究平臺(tái)。
2015年7月份,國(guó)家基因庫(kù)聯(lián)合聯(lián)盟成員及合作伙伴共同搭建了E-BioBank資源信息共享平臺(tái)(簡(jiǎn)稱“E-BioBank平臺(tái)”),將致力于國(guó)內(nèi)外生物資源的整合,并促進(jìn)樣本的科學(xué)應(yīng)用。該平臺(tái)先后建立了樣本定位、項(xiàng)目資源、技術(shù)支持、樣本庫(kù)目錄等四大模塊,分別從樣本庫(kù)建設(shè)、樣本采集、保存與管理、樣本應(yīng)用等全方位多角度營(yíng)造生物樣本庫(kù)行業(yè)的資源信息共享生態(tài)圈。據(jù)悉,平臺(tái)已整合人類(lèi)、動(dòng)物、植物、微生物等樣本資源55.6萬(wàn)份,共享科研項(xiàng)目信息10余項(xiàng),分享行業(yè)技術(shù)性文件400余份,與100多家單位建立聯(lián)盟合作關(guān)系。
國(guó)家基因庫(kù)戰(zhàn)略性意義及應(yīng)用前景
國(guó)家基因庫(kù)著眼于為本國(guó)生命科學(xué)研究和生物產(chǎn)業(yè)發(fā)展提供基礎(chǔ)性和支撐性服務(wù)平臺(tái),儲(chǔ)存和管理本國(guó)特有的遺傳資源、生物信息和基因數(shù)據(jù),是維系一個(gè)民族生存與發(fā)展的命脈,具有國(guó)家水平、服務(wù)國(guó)家戰(zhàn)略需求的創(chuàng)新科研和產(chǎn)業(yè)基礎(chǔ)項(xiàng)目。國(guó)家基因庫(kù)以生物資源為依托,踐行從資源到科研到產(chǎn)業(yè)的全貫穿、全覆蓋模式,實(shí)現(xiàn)大資源、大數(shù)據(jù)、大科學(xué)、大產(chǎn)業(yè)的整合與應(yīng)用。
此前國(guó)家基因庫(kù)執(zhí)行主任周欣電話會(huì)議精要
國(guó)家基因庫(kù)與華大基因的關(guān)系
華大通過(guò)深圳市政府提出建構(gòu)數(shù)據(jù)庫(kù)的提議,得到了深圳市政府的大力支持。2011年國(guó)家發(fā)改委批復(fù)同意深圳依托華大基因研究院組建國(guó)家基因庫(kù)。基因庫(kù)一期的建設(shè)由國(guó)家、地方及華大基因共同投資建設(shè),華大基因?yàn)槌修k方。按照目前規(guī)劃基因庫(kù)投入使用后將由華大基因進(jìn)行運(yùn)行維護(hù)。
基因組項(xiàng)目目的是為了整個(gè)領(lǐng)域未來(lái)更好地發(fā)展。在未來(lái)不會(huì)出現(xiàn)華大基因和其他基因公司之間的惡性競(jìng)爭(zhēng)。分享數(shù)據(jù)、資源整合、擴(kuò)大平臺(tái)降低成本,達(dá)到1 1>2的效果使我們所追求的。
國(guó)家基因庫(kù)戰(zhàn)略性意義
目前世界范圍內(nèi)在美國(guó)、歐洲、日本有三個(gè)大的生物數(shù)據(jù)庫(kù)。我國(guó)近十年來(lái)生物科技發(fā)展迅猛但是沒(méi)有獨(dú)立的國(guó)家級(jí)的數(shù)據(jù)庫(kù)。我國(guó)生物科學(xué)家在國(guó)際期刊發(fā)表文章時(shí)無(wú)償將數(shù)據(jù)提交給外國(guó)數(shù)據(jù)庫(kù),不但造成諸多不便,更使得國(guó)家遺傳資源長(zhǎng)期外流。建立國(guó)家級(jí)的基因庫(kù)對(duì)于我國(guó)相關(guān)領(lǐng)域的發(fā)展有著長(zhǎng)遠(yuǎn)的意義。
我們希望將國(guó)家基因庫(kù)做成全世界第四大的基因數(shù)據(jù)庫(kù)。國(guó)際三大數(shù)據(jù)庫(kù)目前積累數(shù)據(jù)40-50PB。我們希望我國(guó)的基因庫(kù)最終可以達(dá)到幾百個(gè)PB的數(shù)據(jù)承載量。這樣大的數(shù)據(jù)體量與后端產(chǎn)業(yè)的發(fā)展機(jī)會(huì)甚至政策制定息息相關(guān)。從針對(duì)單一類(lèi)型疾病的機(jī)理的研究,到基于大人群特別是健康人群的普適性篩查,科研方法在不斷改進(jìn)?;诮y(tǒng)計(jì)學(xué)的數(shù)據(jù)分析讓我們可以得到更可信更有說(shuō)服力的結(jié)論。當(dāng)樣本庫(kù)數(shù)量達(dá)到一定程度時(shí)我們可以直接從數(shù)據(jù)庫(kù)信息得到疾病機(jī)理、療效的數(shù)據(jù),而不需要像過(guò)去做很多基礎(chǔ)性調(diào)研。未來(lái)發(fā)展方向是非常明確地:無(wú)論是科學(xué)領(lǐng)域還是相關(guān)產(chǎn)業(yè)或是政策制定都需要有提供大人群、大樣本、大數(shù)據(jù)的平臺(tái)進(jìn)行支持。這是國(guó)家投入如此大人力物力建立這個(gè)國(guó)家級(jí)基因庫(kù)的根本原因。
建立樣本庫(kù)的必要性
基因庫(kù)計(jì)劃制定時(shí)深圳市政府做了前瞻性的提案:不僅要做數(shù)據(jù)庫(kù)還要樣本庫(kù)。所有關(guān)注的遺傳信息存在于樣本中,建立能夠追溯數(shù)據(jù)的樣本庫(kù)是非常有必要的。目前國(guó)際上三大數(shù)據(jù)庫(kù)均缺乏樣本庫(kù)的建構(gòu)。我們認(rèn)為樣本和數(shù)據(jù)庫(kù)對(duì)于未來(lái)發(fā)展都很重要?,F(xiàn)在三大數(shù)據(jù)庫(kù)雖然經(jīng)過(guò)同行評(píng)審還是有錯(cuò)誤和污染情況,如果有完善的樣本追溯系統(tǒng)則可以人為糾錯(cuò)。例如育種行業(yè),如果可以把樣本及生物學(xué)信息(表型:毛色、彎直等等)整合則可以更好的指導(dǎo)育種。將樣本和數(shù)據(jù)有機(jī)關(guān)聯(lián)是我們的努力方向。
樣本庫(kù)構(gòu)成及形式
基因庫(kù)特別是樣本庫(kù)包括人、動(dòng)植物,及代表生物多樣性的各種物種。樣本庫(kù)由人樣本及非人樣本組成。樣本的物種分布將由實(shí)際應(yīng)用/科研需求的體量比重決定。目前已有樣本中約99%為人樣本,預(yù)計(jì)在未來(lái)樣本擴(kuò)充過(guò)程中人樣本仍將占主導(dǎo)地位。與醫(yī)學(xué)相關(guān)的人樣本會(huì)占主要部分,體現(xiàn)了醫(yī)療、科研產(chǎn)業(yè)的分布情況?;驇?kù)樣本數(shù)據(jù)體量目前還不能達(dá)到精準(zhǔn)醫(yī)療/個(gè)性化醫(yī)療所需要的數(shù)據(jù)量。預(yù)期在2015年年底國(guó)家基因庫(kù)樣本庫(kù)可以達(dá)到1000萬(wàn)份樣本,數(shù)據(jù)庫(kù)達(dá)到500PB數(shù)據(jù)量。目前國(guó)內(nèi)醫(yī)院領(lǐng)先的疾病研究科室(對(duì)某類(lèi)疾病有較長(zhǎng)的研究歷史及較強(qiáng)研究興趣)經(jīng)過(guò)十幾年積累后生物樣本庫(kù)的規(guī)模約10-20萬(wàn)份。我們希望基因庫(kù)達(dá)到的1000萬(wàn)樣本的體量體現(xiàn)了對(duì)未來(lái)我國(guó)科研、產(chǎn)業(yè)發(fā)展規(guī)模的預(yù)期。
采取多形式
保存。從活體到生殖細(xì)胞、組織、血樣、DNA、RNA。每個(gè)物種的保存形式、時(shí)間、體量需要按照需求(例如是否是科研用途為主)具體決定。我們希望以盡可能全的形式保存樣本,以方便今后在各個(gè)領(lǐng)域的應(yīng)用。
對(duì)萬(wàn)億市場(chǎng)的解讀
“萬(wàn)億市場(chǎng)”的提出是對(duì)相關(guān)市場(chǎng)的一個(gè)引導(dǎo),也是一個(gè)相對(duì)保守的估計(jì)。目前國(guó)家基因庫(kù)處于樣本搭建、數(shù)據(jù)整理過(guò)程。數(shù)據(jù)產(chǎn)生只是第一步,數(shù)據(jù)解釋分析是下一步過(guò)程。對(duì)于這樣大的市場(chǎng),基因庫(kù)本身不可能承擔(dān)所有的外延及下游的項(xiàng)目。相信基因庫(kù)的建立會(huì)對(duì)所有與樣本和數(shù)據(jù)相關(guān)的下游產(chǎn)業(yè)起到很好的先導(dǎo)作用?;驇?kù)的建構(gòu)主要承擔(dān)了這樣的責(zé)任:對(duì)下一步科研和產(chǎn)業(yè)的發(fā)展方向正確的認(rèn)知和布局;在平臺(tái)的技術(shù)上和標(biāo)準(zhǔn)上甚至科研和產(chǎn)業(yè)的文化上起到先導(dǎo)的作用。同時(shí)基因庫(kù)的建立是一個(gè)多方合作、共同摸索的過(guò)程,是過(guò)去的研究和應(yīng)用沒(méi)有涉及的高度。
美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)
1988年,美國(guó)參議員ClaudePepper意識(shí)到信息計(jì)算機(jī)化過(guò)程方法對(duì)指導(dǎo)生物醫(yī)學(xué)研究的重要性,發(fā)起了在1988年11月4日建立國(guó)立生物技術(shù)信息中心(NCBI)的立法。NCBI是在NIH的國(guó)立醫(yī)學(xué)圖書(shū)館(NLM)的一個(gè)分支,其任務(wù)包括建立關(guān)于分子生物學(xué),生物化學(xué),和遺傳學(xué)知識(shí)的存儲(chǔ)和分析的自動(dòng)系統(tǒng);實(shí)行關(guān)于用于分析生物學(xué)重要分子和復(fù)合物的結(jié)構(gòu)和功能的基于計(jì)算機(jī)的信息處理的先進(jìn)方法的研究;加速生物技術(shù)研究者和醫(yī)藥治療人員對(duì)數(shù)據(jù)庫(kù)和軟件的使用;全世界范圍內(nèi)的生物技術(shù)信息收集的合作努力。
NCBI有一個(gè)多學(xué)科的研究小組包括計(jì)算機(jī)科學(xué)家、分子生物學(xué)家、數(shù)學(xué)家、生物化學(xué)家、實(shí)驗(yàn)物理學(xué)家及結(jié)構(gòu)生物學(xué)家,集中于計(jì)算分子生物學(xué)的基本的和應(yīng)用的研究。這些研究者不僅僅在基礎(chǔ)科學(xué)上做出重要貢獻(xiàn),而且往往成為應(yīng)用研究活動(dòng)產(chǎn)生新方法的源泉。他們一起用數(shù)學(xué)和計(jì)算的方法研究在分子水平上的基本的生物醫(yī)學(xué)問(wèn)題。這些問(wèn)題包括基因的組織,序列的分析和結(jié)構(gòu)的預(yù)測(cè)。目前研究計(jì)劃的一些代表是:檢測(cè)和分析基因組織,重復(fù)序列形式,蛋白domain和結(jié)構(gòu)單元,建立人類(lèi)基因組的基因圖譜,HIV感染的動(dòng)力學(xué)數(shù)學(xué)模型,數(shù)據(jù)庫(kù)搜索中的序列錯(cuò)誤影響的分析,開(kāi)發(fā)新的數(shù)據(jù)庫(kù)搜索和多重序列對(duì)齊算法,建立非冗余序列數(shù)據(jù)庫(kù),序列相似性的統(tǒng)計(jì)顯著性評(píng)估的數(shù)學(xué)模型,和文本檢索的矢量模型等。另外,NCBI研究者還堅(jiān)持推動(dòng)與NIH內(nèi)部其他研究所及許多科學(xué)院和政府的研究實(shí)驗(yàn)室的合作。
歐洲生物信息研究所(EBI)
歐洲生物信息研究所建立于1994年,是歐洲分子生物學(xué)實(shí)驗(yàn)室的一部分,致力于以信息學(xué)手段解答生命科學(xué)問(wèn)題。主要研究任務(wù)包括為科學(xué)界提供免費(fèi)生物信息資源、促進(jìn)基礎(chǔ)研究、提供培訓(xùn)和傳播行業(yè)尖端技術(shù)。為科學(xué)界建立和維護(hù)生物學(xué)數(shù)據(jù)庫(kù),提供免費(fèi)的數(shù)據(jù)和生物信息服務(wù),支持生物學(xué)數(shù)據(jù)的存儲(chǔ)和挖掘,促進(jìn)科技進(jìn)步;通過(guò)生物信息學(xué)的基礎(chǔ)研究繼續(xù)推動(dòng)生物學(xué)發(fā)展;為各個(gè)層次的科學(xué)工作者提供生物信息學(xué)培訓(xùn);支持幫助邊緣尖端科技成果向工業(yè)界的轉(zhuǎn)化;協(xié)調(diào)歐洲生物數(shù)據(jù)的提供。
歐洲生物信息研究所擁有超過(guò)20年生物信息學(xué)研究和服務(wù)經(jīng)驗(yàn),是全球收集和傳播生物數(shù)據(jù)、提供免費(fèi)生物信息服務(wù)的歐洲節(jié)點(diǎn)。該所管理維護(hù)著世界最全面的分子生物數(shù)據(jù)庫(kù),其中很多是生物學(xué)家熟悉的數(shù)據(jù)庫(kù),例如ENA(核酸序列數(shù)據(jù)庫(kù)),Ensembl(基因組),ArrayExpress(基因表達(dá)數(shù)據(jù)),UniProtKB蛋白質(zhì)序列,InterPro(蛋白質(zhì)家族/域/蛋白指紋等)和PDBe(大分子結(jié)構(gòu))。
同時(shí),歐洲生物信息研究所管理和維護(hù)著多個(gè)大型生物信息公共數(shù)據(jù)庫(kù),跨基因組學(xué),蛋白質(zhì)組學(xué),化學(xué)信息學(xué),轉(zhuǎn)錄組學(xué),系統(tǒng)生物學(xué)等,同時(shí)創(chuàng)建了多種工具供讓研究人員分析和分享信息。歐洲生物信息研究所提供最優(yōu)質(zhì)的研究環(huán)境、無(wú)數(shù)跨學(xué)科的合作機(jī)會(huì)以及遍及世界各地的培訓(xùn)課程。
日本DNA數(shù)據(jù)庫(kù)(DDBJ)
日本DNA數(shù)據(jù)庫(kù)DDBJ(DNADataBankofJapan),于1984年建立,是世界三大DNA數(shù)據(jù)庫(kù)之一,與NCBI的GenBank,EBI的EMBL數(shù)據(jù)庫(kù)共同組成國(guó)際DNA數(shù)據(jù)庫(kù),每日都交換更新數(shù)據(jù)和信息,并主持兩個(gè)國(guó)際年會(huì)-國(guó)際DNA數(shù)據(jù)庫(kù)咨詢會(huì)議和國(guó)際DNA數(shù)據(jù)庫(kù)協(xié)作會(huì)議,互相交換信息,因此三個(gè)庫(kù)的數(shù)據(jù)實(shí)際上是相同的。
DDBJ主要向研究者收集DNA序列信息并賦予其數(shù)據(jù)存取號(hào),信息來(lái)源主要是日本的研究機(jī)構(gòu),亦接受其他國(guó)家呈遞的序列,數(shù)據(jù)庫(kù)通過(guò)WWW環(huán)球網(wǎng),匿名FTP,e-mail或Gopher方式為廣大研究人員服務(wù)。
他們開(kāi)發(fā)了SQmateh工具,用來(lái)搜索基因或蛋白質(zhì)中短的堿基或氨基酸序列區(qū)域,并建立了簡(jiǎn)便且易操作的SOAP(simpleobjectaeeessprotoco1)服務(wù)器。它的數(shù)據(jù)主要通過(guò)Sakura和MST工具來(lái)完成。與NCBI,EBM共同構(gòu)成DNA三大數(shù)據(jù)庫(kù),這三大數(shù)據(jù)中心各自收集序列數(shù)據(jù),并通過(guò)網(wǎng)絡(luò)每天進(jìn)行數(shù)據(jù)交換。近來(lái)三大數(shù)據(jù)庫(kù)合作的項(xiàng)目主要包括TPA(tirdpannotation)、CON(struct)或CON(tig)和XML數(shù)據(jù)交換格式的建立。TPA是一種基于已有數(shù)據(jù)庫(kù)中的核酸序列產(chǎn)生的注釋數(shù)據(jù),它的格式與傳統(tǒng)的GenBank一樣,只是包含了“TPA”標(biāo)簽。CON(struct)或CON(tig)用于存儲(chǔ)一些片段的拼接信息,這些片段是序列長(zhǎng)度大于350000bp的核酸被分割而產(chǎn)生的,但這種長(zhǎng)度限制在2004年6月就被取消。
華大基因首席執(zhí)行官CEO楊爽透露,華大基因組建和運(yùn)營(yíng)的深圳國(guó)家基因庫(kù)一期建設(shè)已經(jīng)完工,“內(nèi)部裝修中,裝修完畢即可入駐。”該基因庫(kù)將打造“三庫(kù)兩平臺(tái)”,存儲(chǔ)、管理、利用好我國(guó)遺傳資源,為我國(guó)生命科學(xué)和生物經(jīng)濟(jì)發(fā)展提供支撐平臺(tái)。
梅永紅
此前,關(guān)于國(guó)家基因庫(kù)最為知名的新聞,則是去年9月,原山東濟(jì)寧市委副書(shū)記、市長(zhǎng)梅永紅加盟華大基因,并出任深圳國(guó)家基因庫(kù)負(fù)責(zé)人。這一事件先后被各大媒體爭(zhēng)先報(bào)道,針對(duì)梅永紅的這一任職,華大基因董事長(zhǎng)汪建曾公開(kāi)表示,梅永紅曾有農(nóng)業(yè)部與科技部二十多年的工作經(jīng)歷,由他出任國(guó)家基因庫(kù)負(fù)責(zé)人,既符合他自身的興趣與志向,又能施展長(zhǎng)期積累的科技管理經(jīng)驗(yàn)、戰(zhàn)略運(yùn)籌和綜合能力。
梅永紅接受媒體采訪時(shí)也曾表示,個(gè)人抱負(fù)能夠與國(guó)家戰(zhàn)略結(jié)合、生物經(jīng)濟(jì)前景中亦藏有巨大潛力,能夠用自己的能力為華大基因做一些工作、為中國(guó)的生物經(jīng)濟(jì)產(chǎn)業(yè)做一些有價(jià)值的事情,我就非常滿足了。
梅永紅眼中的深圳國(guó)家基因庫(kù)
2011年1月,國(guó)家發(fā)改委批復(fù)同意深圳依托華大基因組建國(guó)家基因庫(kù)。同年10月,國(guó)家發(fā)改委、財(cái)政部、工業(yè)和信息化部以及當(dāng)時(shí)的衛(wèi)生部批復(fù),深圳國(guó)家基因庫(kù)由深圳華大基因組建及運(yùn)營(yíng),是國(guó)家“十二五”重點(diǎn)基礎(chǔ)能力建設(shè)項(xiàng)目。其位于深圳市大鵬街道下沙片區(qū)“禾塘仔”地塊,建設(shè)規(guī)模約116000平米,建筑外形基本參照了云南元陽(yáng)哈尼梯田,分兩期建設(shè),是繼美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)、歐洲生物信息研究所(EBI)、日本DNA數(shù)據(jù)庫(kù)(DDBJ)之后的第四個(gè)國(guó)家級(jí)基因庫(kù),
此前,梅永紅在即將接掌深圳國(guó)家基因庫(kù)時(shí)曾表示深圳國(guó)家基因庫(kù)被定義為“官辦民營(yíng)”、“國(guó)家購(gòu)買(mǎi)服務(wù)”的模式。”社會(huì)有能力、有資源投入一個(gè)平臺(tái)運(yùn)營(yíng)的時(shí)候,政府更多是提供政策的支持和提供資金購(gòu)買(mǎi)服務(wù),這樣效率會(huì)更高。在建設(shè)階段,國(guó)家基因庫(kù)的運(yùn)營(yíng)資金來(lái)自國(guó)家發(fā)改委、深圳市和華大基因三方,其中國(guó)家層面的資金占大頭,由發(fā)改委方面投入。按照目前規(guī)劃,基因庫(kù)投入使用后將由華大基因進(jìn)行運(yùn)行維護(hù)。
華大是在國(guó)家的支持下,構(gòu)建一個(gè)國(guó)家級(jí)平臺(tái),跟社會(huì)上現(xiàn)有的各種機(jī)構(gòu)合作,形成一個(gè)開(kāi)放、合作的平臺(tái)。這樣的一個(gè)平臺(tái),不是華大一家能夠做得了的,一定要有國(guó)家的支持。這件事情首先是國(guó)家需要。國(guó)家需要平臺(tái)來(lái)支撐未來(lái)的生物經(jīng)濟(jì)。華大基因目前有著很強(qiáng)的基因解讀能力,在世界上也處于前列,我想這是國(guó)家選擇華大的重要原因。
2016年,除了總部建設(shè)之外,國(guó)家基因庫(kù)最需要的是足夠的樣本。借助國(guó)家和各部委的支持,盡快形成基因庫(kù)的聯(lián)盟,比如中科院、各大學(xué)和其他擁有自己基因庫(kù)的機(jī)構(gòu)。目前的基因資源都局限在各個(gè)機(jī)構(gòu)內(nèi)部,他希望能夠整合這些資源使它們可以被資源共享、開(kāi)放利用。
我相信,國(guó)家立這個(gè)項(xiàng),不僅僅是要建一個(gè)基因庫(kù),更重要的是要建一個(gè)基因共享機(jī)制。“梅永紅解釋說(shuō),現(xiàn)在機(jī)構(gòu)們的開(kāi)放度都不夠,基因資源一般是政府所有、機(jī)構(gòu)所有,甚至研究組個(gè)人所有,要推動(dòng)它們之間進(jìn)行開(kāi)放合作,非常困難。
因此,要完成基因聯(lián)盟、實(shí)現(xiàn)基因共享,除了橫向與各個(gè)擁有基因資源的結(jié)構(gòu)溝通,梅永紅更重要的工作是要縱向與各部委進(jìn)行協(xié)調(diào)溝通,進(jìn)行”很好的頂層設(shè)計(jì)“,實(shí)現(xiàn)制度上的突破。
對(duì)這一涉及多方面政策和多部委的復(fù)雜制度突破該如何實(shí)現(xiàn),梅永紅說(shuō)自己”一直在思考“:”我相信能夠突破。今天世界上很多國(guó)家都能做到,為什么我們就做不到呢?我不相信。“他認(rèn)為,由社會(huì)系統(tǒng)來(lái)操盤(pán)這個(gè)國(guó)家級(jí)平臺(tái),少了很多部門(mén)和系統(tǒng)的局限—可以用很多的機(jī)制去實(shí)現(xiàn)目標(biāo),比如市場(chǎng)機(jī)制、知識(shí)產(chǎn)權(quán)的機(jī)制、利益機(jī)制、人才機(jī)制等。
關(guān)于國(guó)家基因庫(kù)
國(guó)家基因庫(kù)的基本構(gòu)成
根據(jù)的介紹,國(guó)家基因庫(kù)著眼于為本國(guó)生命科學(xué)研究和生物產(chǎn)業(yè)發(fā)展提供基礎(chǔ)性和支撐性服務(wù)平臺(tái),儲(chǔ)存和管理本國(guó)特有的遺傳資源、生物信息和基因數(shù)據(jù),是維系一個(gè)民族生存與發(fā)展的命脈,具有國(guó)家水平、服務(wù)國(guó)家戰(zhàn)略需求的創(chuàng)新科研和產(chǎn)業(yè)基礎(chǔ)項(xiàng)目。
國(guó)家基因庫(kù)集生物資源樣本庫(kù)、生物信息數(shù)據(jù)庫(kù)和生物資源信息網(wǎng)絡(luò)為一體,通過(guò)建立高水平的生物資源樣本庫(kù)、高效的生物信息數(shù)據(jù)處理、存儲(chǔ)與管理系統(tǒng)以及覆蓋廣泛的聯(lián)盟網(wǎng)絡(luò),有效保護(hù)、合理開(kāi)發(fā)和利用我國(guó)生物資源及基因數(shù)據(jù)資源,充分調(diào)動(dòng)、發(fā)揮及整合各地區(qū)、各單位的資源和技術(shù)優(yōu)勢(shì),積極開(kāi)展廣泛交流與合作,搭建信息資源研究開(kāi)發(fā)的基礎(chǔ)性支撐平臺(tái),提高我國(guó)生命科學(xué)研究水平和國(guó)際影響力,促進(jìn)我國(guó)生物產(chǎn)業(yè)發(fā)展。
國(guó)家基因庫(kù)構(gòu)成
資源樣本的應(yīng)用
國(guó)家基因庫(kù)以生物資源為依托,形成資源到科研到產(chǎn)業(yè)的全貫穿、全覆蓋模式,實(shí)現(xiàn)大資源、大數(shù)據(jù)、大科學(xué)、大產(chǎn)業(yè)的整合與應(yīng)用。應(yīng)用方向主要包括:人類(lèi)健康、新型農(nóng)業(yè)、物種多樣性及生態(tài)環(huán)境保護(hù)。
基因庫(kù)資源樣本的應(yīng)用
1、人類(lèi)健康:數(shù)字健康管理、臨床檢測(cè)的準(zhǔn)確率、疾病防治及生物制藥的針對(duì)性需要大樣本量數(shù)據(jù)的支撐,以便驗(yàn)證技術(shù)的可靠性,確定最佳策略,同時(shí)充分考慮人群差異。
2、新型農(nóng)業(yè):動(dòng)植物分子育種、功能基因的發(fā)掘、新能源的開(kāi)發(fā)利用,需要以大量物種資源為基礎(chǔ),搭建大型基因型和表型數(shù)據(jù)庫(kù),為育種者和開(kāi)發(fā)者提供完整的信息指導(dǎo),加快育種和開(kāi)發(fā)進(jìn)程。
3、物種多樣性及生態(tài)環(huán)境保護(hù):通過(guò)收集和保存各種有價(jià)值的種質(zhì)資源,建立大規(guī)模的資源庫(kù)或保護(hù)區(qū),保護(hù)物種的多樣性,并闡明外界條件和生物之間的相互作用,對(duì)生態(tài)環(huán)境起到保護(hù)和監(jiān)測(cè)作用。
基因庫(kù)主要進(jìn)展及科研成果
國(guó)家基因庫(kù):生物資源庫(kù)
生物資源庫(kù)包括人類(lèi)和非人兩種資源類(lèi)型,其中非人資源方向包括動(dòng)物細(xì)胞資源、植物種質(zhì)資源、微生物資源和海洋資源四大類(lèi)型。通過(guò)收集人和非人兩個(gè)方向的不同來(lái)源和形式的資源樣本(動(dòng)、植物活體細(xì)胞,微生物菌株,人類(lèi)組織細(xì)胞,重要瀕危物種,血液和小分子等),形成大規(guī)模、高質(zhì)量、規(guī)范化的樣本資源庫(kù)。確保我國(guó)生物資源尤其是我國(guó)的特有物種、瀕危物種、具有重要經(jīng)濟(jì)價(jià)值和科學(xué)研究?jī)r(jià)值的物種以及生態(tài)系統(tǒng)物種種群的安全性,有效的保護(hù)我國(guó)生物資源的多樣性,可持續(xù)利用生物資源,為人類(lèi)社會(huì)可持續(xù)發(fā)展提供物質(zhì)基礎(chǔ)。
樣本資源類(lèi)型
國(guó)家基因庫(kù):生物樣本庫(kù)
國(guó)家基因庫(kù)樣本庫(kù)致力于建立生物樣本庫(kù)建庫(kù)的標(biāo)準(zhǔn)規(guī)范,與聯(lián)盟伙伴分享建庫(kù)的流程和方法,共創(chuàng)科研思路,探索樣本利用的有效途徑,提升國(guó)內(nèi)樣本庫(kù)的整體水平。同時(shí),國(guó)家基因庫(kù)樣本庫(kù)能為科研、醫(yī)藥、臨床等工作者提供實(shí)驗(yàn)技術(shù)服務(wù),并根據(jù)研究的需要提供和執(zhí)行全面的解決方案。國(guó)家基因庫(kù)大鵬基地的生物樣本庫(kù)存儲(chǔ)空間未來(lái)可拓展至8,000㎡,至2015底可存儲(chǔ)3,000萬(wàn)份生物樣本的存儲(chǔ)。
樣本全程管理系統(tǒng)
該系統(tǒng)不僅能對(duì)樣本保存、出入庫(kù)進(jìn)行管理,而且能對(duì)樣本的整個(gè)流程進(jìn)行管理與監(jiān)控,包括樣本采集、運(yùn)輸、前處理、保存、應(yīng)用等整個(gè)樣本流向過(guò)程。另外,本系統(tǒng)設(shè)有端口,能與HIS等外部系統(tǒng)關(guān)聯(lián),做到信息全覆蓋。
樣本資源管理系統(tǒng)
大規(guī)模、多層次的樣本存儲(chǔ)空間
樣本庫(kù)服務(wù)項(xiàng)目
1)標(biāo)準(zhǔn)化建設(shè)咨詢。
通過(guò)聯(lián)盟建立覆蓋國(guó)內(nèi)乃至國(guó)際的生物資源信息網(wǎng)絡(luò),共同搭建資源信息、技術(shù)、人才平臺(tái),共同承擔(dān)重大項(xiàng)目,實(shí)現(xiàn)科學(xué)產(chǎn)業(yè)突破。并有由專(zhuān)業(yè)知識(shí)、經(jīng)驗(yàn)豐富組成的國(guó)家基因庫(kù)團(tuán)隊(duì)專(zhuān)注于為合作伙伴提供生物樣品庫(kù)基礎(chǔ)設(shè)施、設(shè)備耗材相關(guān)產(chǎn)品建議,實(shí)施標(biāo)準(zhǔn)流程、信息系統(tǒng)、質(zhì)量管理等平臺(tái)的搭建。
2)個(gè)性化保存。
依托大規(guī)模、高質(zhì)量、規(guī)范化的生物樣本資源及深圳華大基因研究院的核酸及蛋白測(cè)序技術(shù)、高性能計(jì)算平臺(tái)、國(guó)際領(lǐng)先水平的基因組科學(xué)研究,為廣大用戶提供樣品收集、組學(xué)數(shù)據(jù)獲得、全組貫穿分析、科研成果應(yīng)用等一套個(gè)性化樣品保存和應(yīng)用方案。
3)第三方實(shí)驗(yàn)室服務(wù)。
擁有一支經(jīng)驗(yàn)豐富、技術(shù)嫻熟的人才隊(duì)伍,并具備完善的標(biāo)準(zhǔn)資源,一流的實(shí)驗(yàn)環(huán)境,低成本、高通量、自動(dòng)化的生產(chǎn)設(shè)備,可以進(jìn)行規(guī)?;纳a(chǎn),科學(xué)化的管理,高效的運(yùn)營(yíng)。我們本著“科技以人為本”的理念為廣大用戶提供包括樣品采集、樣品保存、樣品提取、樣品檢測(cè)等優(yōu)質(zhì)服務(wù)。
4)樣本庫(kù)解決方案。
國(guó)家基因庫(kù)能為需要建立樣本庫(kù)的合作伙伴提供樣本庫(kù)建設(shè)的指導(dǎo)支持及個(gè)性化的解決方案。擁有豐富樣本庫(kù)建設(shè)經(jīng)驗(yàn)的團(tuán)隊(duì)將從樣本庫(kù)建設(shè)前期的經(jīng)費(fèi)預(yù)算、樣本庫(kù)及相關(guān)實(shí)驗(yàn)室的規(guī)劃布局到硬件設(shè)施的配備、儀器軟件的配置等項(xiàng)目對(duì)樣本庫(kù)建立的整體規(guī)劃及各個(gè)相關(guān)方面進(jìn)行梳理,并可根據(jù)實(shí)際需求派出技術(shù)人員進(jìn)行樣本庫(kù)建設(shè)的現(xiàn)場(chǎng)支持與指導(dǎo)。同時(shí),我們有專(zhuān)門(mén)的團(tuán)隊(duì)可根據(jù)需求及樣本庫(kù)的實(shí)際情況,從前期樣本的收集、處理、運(yùn)輸及保存到后期樣本在生物、醫(yī)學(xué)領(lǐng)域的應(yīng)用提供個(gè)性化的解決方案和指導(dǎo)意見(jiàn)。
國(guó)家基因庫(kù)--生物信息數(shù)據(jù)庫(kù)
生物信息數(shù)據(jù)庫(kù)匯集包含基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、表觀組、代謝組及臨床表型等數(shù)據(jù)信息,預(yù)計(jì)最終將達(dá)到500PB級(jí)別的巨量數(shù)據(jù)容量。將會(huì)成為“大數(shù)據(jù)”生物學(xué)時(shí)代研究生物生長(zhǎng)發(fā)育、衰老、死亡以及向產(chǎn)業(yè)化推廣的有利工具。
大數(shù)據(jù)
依托國(guó)家基因庫(kù)資源樣本庫(kù)豐富的生物樣本資源及深圳華大基因研究院高通量測(cè)序平臺(tái)、高性能計(jì)算平臺(tái)、信息存儲(chǔ)能力和信息分析能力的支撐,生成海量數(shù)字化樣本資源。
生物信息數(shù)據(jù)庫(kù)-大數(shù)據(jù)
存儲(chǔ)和計(jì)算
與國(guó)家超算中心、深圳超算中心、廣州超算中心等機(jī)構(gòu)展開(kāi)戰(zhàn)略性合作。總存儲(chǔ)能力達(dá)到20PB,總峰值計(jì)算能力達(dá)到212Tflops,并擁有云存儲(chǔ)技術(shù),有能力為海量生物資源表型數(shù)據(jù)及組學(xué)數(shù)據(jù)進(jìn)行存儲(chǔ)、處理和分析。
云存儲(chǔ)與計(jì)算模式
開(kāi)放性平臺(tái)
?。?)存儲(chǔ)生物基因數(shù)據(jù):運(yùn)用云存儲(chǔ)技術(shù),保存海量貫穿組學(xué)數(shù)據(jù),為后續(xù)研究提供數(shù)據(jù)保障。(2)提供生物信息檢索:國(guó)家基因庫(kù)為開(kāi)放性、公益性科研平臺(tái),向用戶提供生物信息檢索、比較、分析等服務(wù)。(3)服務(wù)生命科學(xué)研究:依托深圳華大基因研究院云計(jì)算與云存儲(chǔ)技術(shù),向各科研機(jī)構(gòu)提供生命科學(xué)研究平臺(tái)。
2015年7月份,國(guó)家基因庫(kù)聯(lián)合聯(lián)盟成員及合作伙伴共同搭建了E-BioBank資源信息共享平臺(tái)(簡(jiǎn)稱“E-BioBank平臺(tái)”),將致力于國(guó)內(nèi)外生物資源的整合,并促進(jìn)樣本的科學(xué)應(yīng)用。該平臺(tái)先后建立了樣本定位、項(xiàng)目資源、技術(shù)支持、樣本庫(kù)目錄等四大模塊,分別從樣本庫(kù)建設(shè)、樣本采集、保存與管理、樣本應(yīng)用等全方位多角度營(yíng)造生物樣本庫(kù)行業(yè)的資源信息共享生態(tài)圈。據(jù)悉,平臺(tái)已整合人類(lèi)、動(dòng)物、植物、微生物等樣本資源55.6萬(wàn)份,共享科研項(xiàng)目信息10余項(xiàng),分享行業(yè)技術(shù)性文件400余份,與100多家單位建立聯(lián)盟合作關(guān)系。
國(guó)家基因庫(kù)戰(zhàn)略性意義及應(yīng)用前景
國(guó)家基因庫(kù)著眼于為本國(guó)生命科學(xué)研究和生物產(chǎn)業(yè)發(fā)展提供基礎(chǔ)性和支撐性服務(wù)平臺(tái),儲(chǔ)存和管理本國(guó)特有的遺傳資源、生物信息和基因數(shù)據(jù),是維系一個(gè)民族生存與發(fā)展的命脈,具有國(guó)家水平、服務(wù)國(guó)家戰(zhàn)略需求的創(chuàng)新科研和產(chǎn)業(yè)基礎(chǔ)項(xiàng)目。國(guó)家基因庫(kù)以生物資源為依托,踐行從資源到科研到產(chǎn)業(yè)的全貫穿、全覆蓋模式,實(shí)現(xiàn)大資源、大數(shù)據(jù)、大科學(xué)、大產(chǎn)業(yè)的整合與應(yīng)用。
此前國(guó)家基因庫(kù)執(zhí)行主任周欣電話會(huì)議精要
國(guó)家基因庫(kù)與華大基因的關(guān)系
華大通過(guò)深圳市政府提出建構(gòu)數(shù)據(jù)庫(kù)的提議,得到了深圳市政府的大力支持。2011年國(guó)家發(fā)改委批復(fù)同意深圳依托華大基因研究院組建國(guó)家基因庫(kù)。基因庫(kù)一期的建設(shè)由國(guó)家、地方及華大基因共同投資建設(shè),華大基因?yàn)槌修k方。按照目前規(guī)劃基因庫(kù)投入使用后將由華大基因進(jìn)行運(yùn)行維護(hù)。
基因組項(xiàng)目目的是為了整個(gè)領(lǐng)域未來(lái)更好地發(fā)展。在未來(lái)不會(huì)出現(xiàn)華大基因和其他基因公司之間的惡性競(jìng)爭(zhēng)。分享數(shù)據(jù)、資源整合、擴(kuò)大平臺(tái)降低成本,達(dá)到1 1>2的效果使我們所追求的。
國(guó)家基因庫(kù)戰(zhàn)略性意義
目前世界范圍內(nèi)在美國(guó)、歐洲、日本有三個(gè)大的生物數(shù)據(jù)庫(kù)。我國(guó)近十年來(lái)生物科技發(fā)展迅猛但是沒(méi)有獨(dú)立的國(guó)家級(jí)的數(shù)據(jù)庫(kù)。我國(guó)生物科學(xué)家在國(guó)際期刊發(fā)表文章時(shí)無(wú)償將數(shù)據(jù)提交給外國(guó)數(shù)據(jù)庫(kù),不但造成諸多不便,更使得國(guó)家遺傳資源長(zhǎng)期外流。建立國(guó)家級(jí)的基因庫(kù)對(duì)于我國(guó)相關(guān)領(lǐng)域的發(fā)展有著長(zhǎng)遠(yuǎn)的意義。
我們希望將國(guó)家基因庫(kù)做成全世界第四大的基因數(shù)據(jù)庫(kù)。國(guó)際三大數(shù)據(jù)庫(kù)目前積累數(shù)據(jù)40-50PB。我們希望我國(guó)的基因庫(kù)最終可以達(dá)到幾百個(gè)PB的數(shù)據(jù)承載量。這樣大的數(shù)據(jù)體量與后端產(chǎn)業(yè)的發(fā)展機(jī)會(huì)甚至政策制定息息相關(guān)。從針對(duì)單一類(lèi)型疾病的機(jī)理的研究,到基于大人群特別是健康人群的普適性篩查,科研方法在不斷改進(jìn)?;诮y(tǒng)計(jì)學(xué)的數(shù)據(jù)分析讓我們可以得到更可信更有說(shuō)服力的結(jié)論。當(dāng)樣本庫(kù)數(shù)量達(dá)到一定程度時(shí)我們可以直接從數(shù)據(jù)庫(kù)信息得到疾病機(jī)理、療效的數(shù)據(jù),而不需要像過(guò)去做很多基礎(chǔ)性調(diào)研。未來(lái)發(fā)展方向是非常明確地:無(wú)論是科學(xué)領(lǐng)域還是相關(guān)產(chǎn)業(yè)或是政策制定都需要有提供大人群、大樣本、大數(shù)據(jù)的平臺(tái)進(jìn)行支持。這是國(guó)家投入如此大人力物力建立這個(gè)國(guó)家級(jí)基因庫(kù)的根本原因。
建立樣本庫(kù)的必要性
基因庫(kù)計(jì)劃制定時(shí)深圳市政府做了前瞻性的提案:不僅要做數(shù)據(jù)庫(kù)還要樣本庫(kù)。所有關(guān)注的遺傳信息存在于樣本中,建立能夠追溯數(shù)據(jù)的樣本庫(kù)是非常有必要的。目前國(guó)際上三大數(shù)據(jù)庫(kù)均缺乏樣本庫(kù)的建構(gòu)。我們認(rèn)為樣本和數(shù)據(jù)庫(kù)對(duì)于未來(lái)發(fā)展都很重要?,F(xiàn)在三大數(shù)據(jù)庫(kù)雖然經(jīng)過(guò)同行評(píng)審還是有錯(cuò)誤和污染情況,如果有完善的樣本追溯系統(tǒng)則可以人為糾錯(cuò)。例如育種行業(yè),如果可以把樣本及生物學(xué)信息(表型:毛色、彎直等等)整合則可以更好的指導(dǎo)育種。將樣本和數(shù)據(jù)有機(jī)關(guān)聯(lián)是我們的努力方向。
樣本庫(kù)構(gòu)成及形式
基因庫(kù)特別是樣本庫(kù)包括人、動(dòng)植物,及代表生物多樣性的各種物種。樣本庫(kù)由人樣本及非人樣本組成。樣本的物種分布將由實(shí)際應(yīng)用/科研需求的體量比重決定。目前已有樣本中約99%為人樣本,預(yù)計(jì)在未來(lái)樣本擴(kuò)充過(guò)程中人樣本仍將占主導(dǎo)地位。與醫(yī)學(xué)相關(guān)的人樣本會(huì)占主要部分,體現(xiàn)了醫(yī)療、科研產(chǎn)業(yè)的分布情況?;驇?kù)樣本數(shù)據(jù)體量目前還不能達(dá)到精準(zhǔn)醫(yī)療/個(gè)性化醫(yī)療所需要的數(shù)據(jù)量。預(yù)期在2015年年底國(guó)家基因庫(kù)樣本庫(kù)可以達(dá)到1000萬(wàn)份樣本,數(shù)據(jù)庫(kù)達(dá)到500PB數(shù)據(jù)量。目前國(guó)內(nèi)醫(yī)院領(lǐng)先的疾病研究科室(對(duì)某類(lèi)疾病有較長(zhǎng)的研究歷史及較強(qiáng)研究興趣)經(jīng)過(guò)十幾年積累后生物樣本庫(kù)的規(guī)模約10-20萬(wàn)份。我們希望基因庫(kù)達(dá)到的1000萬(wàn)樣本的體量體現(xiàn)了對(duì)未來(lái)我國(guó)科研、產(chǎn)業(yè)發(fā)展規(guī)模的預(yù)期。
采取多形式
保存。從活體到生殖細(xì)胞、組織、血樣、DNA、RNA。每個(gè)物種的保存形式、時(shí)間、體量需要按照需求(例如是否是科研用途為主)具體決定。我們希望以盡可能全的形式保存樣本,以方便今后在各個(gè)領(lǐng)域的應(yīng)用。
對(duì)萬(wàn)億市場(chǎng)的解讀
“萬(wàn)億市場(chǎng)”的提出是對(duì)相關(guān)市場(chǎng)的一個(gè)引導(dǎo),也是一個(gè)相對(duì)保守的估計(jì)。目前國(guó)家基因庫(kù)處于樣本搭建、數(shù)據(jù)整理過(guò)程。數(shù)據(jù)產(chǎn)生只是第一步,數(shù)據(jù)解釋分析是下一步過(guò)程。對(duì)于這樣大的市場(chǎng),基因庫(kù)本身不可能承擔(dān)所有的外延及下游的項(xiàng)目。相信基因庫(kù)的建立會(huì)對(duì)所有與樣本和數(shù)據(jù)相關(guān)的下游產(chǎn)業(yè)起到很好的先導(dǎo)作用?;驇?kù)的建構(gòu)主要承擔(dān)了這樣的責(zé)任:對(duì)下一步科研和產(chǎn)業(yè)的發(fā)展方向正確的認(rèn)知和布局;在平臺(tái)的技術(shù)上和標(biāo)準(zhǔn)上甚至科研和產(chǎn)業(yè)的文化上起到先導(dǎo)的作用。同時(shí)基因庫(kù)的建立是一個(gè)多方合作、共同摸索的過(guò)程,是過(guò)去的研究和應(yīng)用沒(méi)有涉及的高度。
美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)
1988年,美國(guó)參議員ClaudePepper意識(shí)到信息計(jì)算機(jī)化過(guò)程方法對(duì)指導(dǎo)生物醫(yī)學(xué)研究的重要性,發(fā)起了在1988年11月4日建立國(guó)立生物技術(shù)信息中心(NCBI)的立法。NCBI是在NIH的國(guó)立醫(yī)學(xué)圖書(shū)館(NLM)的一個(gè)分支,其任務(wù)包括建立關(guān)于分子生物學(xué),生物化學(xué),和遺傳學(xué)知識(shí)的存儲(chǔ)和分析的自動(dòng)系統(tǒng);實(shí)行關(guān)于用于分析生物學(xué)重要分子和復(fù)合物的結(jié)構(gòu)和功能的基于計(jì)算機(jī)的信息處理的先進(jìn)方法的研究;加速生物技術(shù)研究者和醫(yī)藥治療人員對(duì)數(shù)據(jù)庫(kù)和軟件的使用;全世界范圍內(nèi)的生物技術(shù)信息收集的合作努力。
NCBI有一個(gè)多學(xué)科的研究小組包括計(jì)算機(jī)科學(xué)家、分子生物學(xué)家、數(shù)學(xué)家、生物化學(xué)家、實(shí)驗(yàn)物理學(xué)家及結(jié)構(gòu)生物學(xué)家,集中于計(jì)算分子生物學(xué)的基本的和應(yīng)用的研究。這些研究者不僅僅在基礎(chǔ)科學(xué)上做出重要貢獻(xiàn),而且往往成為應(yīng)用研究活動(dòng)產(chǎn)生新方法的源泉。他們一起用數(shù)學(xué)和計(jì)算的方法研究在分子水平上的基本的生物醫(yī)學(xué)問(wèn)題。這些問(wèn)題包括基因的組織,序列的分析和結(jié)構(gòu)的預(yù)測(cè)。目前研究計(jì)劃的一些代表是:檢測(cè)和分析基因組織,重復(fù)序列形式,蛋白domain和結(jié)構(gòu)單元,建立人類(lèi)基因組的基因圖譜,HIV感染的動(dòng)力學(xué)數(shù)學(xué)模型,數(shù)據(jù)庫(kù)搜索中的序列錯(cuò)誤影響的分析,開(kāi)發(fā)新的數(shù)據(jù)庫(kù)搜索和多重序列對(duì)齊算法,建立非冗余序列數(shù)據(jù)庫(kù),序列相似性的統(tǒng)計(jì)顯著性評(píng)估的數(shù)學(xué)模型,和文本檢索的矢量模型等。另外,NCBI研究者還堅(jiān)持推動(dòng)與NIH內(nèi)部其他研究所及許多科學(xué)院和政府的研究實(shí)驗(yàn)室的合作。
歐洲生物信息研究所(EBI)
歐洲生物信息研究所建立于1994年,是歐洲分子生物學(xué)實(shí)驗(yàn)室的一部分,致力于以信息學(xué)手段解答生命科學(xué)問(wèn)題。主要研究任務(wù)包括為科學(xué)界提供免費(fèi)生物信息資源、促進(jìn)基礎(chǔ)研究、提供培訓(xùn)和傳播行業(yè)尖端技術(shù)。為科學(xué)界建立和維護(hù)生物學(xué)數(shù)據(jù)庫(kù),提供免費(fèi)的數(shù)據(jù)和生物信息服務(wù),支持生物學(xué)數(shù)據(jù)的存儲(chǔ)和挖掘,促進(jìn)科技進(jìn)步;通過(guò)生物信息學(xué)的基礎(chǔ)研究繼續(xù)推動(dòng)生物學(xué)發(fā)展;為各個(gè)層次的科學(xué)工作者提供生物信息學(xué)培訓(xùn);支持幫助邊緣尖端科技成果向工業(yè)界的轉(zhuǎn)化;協(xié)調(diào)歐洲生物數(shù)據(jù)的提供。
歐洲生物信息研究所擁有超過(guò)20年生物信息學(xué)研究和服務(wù)經(jīng)驗(yàn),是全球收集和傳播生物數(shù)據(jù)、提供免費(fèi)生物信息服務(wù)的歐洲節(jié)點(diǎn)。該所管理維護(hù)著世界最全面的分子生物數(shù)據(jù)庫(kù),其中很多是生物學(xué)家熟悉的數(shù)據(jù)庫(kù),例如ENA(核酸序列數(shù)據(jù)庫(kù)),Ensembl(基因組),ArrayExpress(基因表達(dá)數(shù)據(jù)),UniProtKB蛋白質(zhì)序列,InterPro(蛋白質(zhì)家族/域/蛋白指紋等)和PDBe(大分子結(jié)構(gòu))。
同時(shí),歐洲生物信息研究所管理和維護(hù)著多個(gè)大型生物信息公共數(shù)據(jù)庫(kù),跨基因組學(xué),蛋白質(zhì)組學(xué),化學(xué)信息學(xué),轉(zhuǎn)錄組學(xué),系統(tǒng)生物學(xué)等,同時(shí)創(chuàng)建了多種工具供讓研究人員分析和分享信息。歐洲生物信息研究所提供最優(yōu)質(zhì)的研究環(huán)境、無(wú)數(shù)跨學(xué)科的合作機(jī)會(huì)以及遍及世界各地的培訓(xùn)課程。
日本DNA數(shù)據(jù)庫(kù)(DDBJ)
日本DNA數(shù)據(jù)庫(kù)DDBJ(DNADataBankofJapan),于1984年建立,是世界三大DNA數(shù)據(jù)庫(kù)之一,與NCBI的GenBank,EBI的EMBL數(shù)據(jù)庫(kù)共同組成國(guó)際DNA數(shù)據(jù)庫(kù),每日都交換更新數(shù)據(jù)和信息,并主持兩個(gè)國(guó)際年會(huì)-國(guó)際DNA數(shù)據(jù)庫(kù)咨詢會(huì)議和國(guó)際DNA數(shù)據(jù)庫(kù)協(xié)作會(huì)議,互相交換信息,因此三個(gè)庫(kù)的數(shù)據(jù)實(shí)際上是相同的。
DDBJ主要向研究者收集DNA序列信息并賦予其數(shù)據(jù)存取號(hào),信息來(lái)源主要是日本的研究機(jī)構(gòu),亦接受其他國(guó)家呈遞的序列,數(shù)據(jù)庫(kù)通過(guò)WWW環(huán)球網(wǎng),匿名FTP,e-mail或Gopher方式為廣大研究人員服務(wù)。
他們開(kāi)發(fā)了SQmateh工具,用來(lái)搜索基因或蛋白質(zhì)中短的堿基或氨基酸序列區(qū)域,并建立了簡(jiǎn)便且易操作的SOAP(simpleobjectaeeessprotoco1)服務(wù)器。它的數(shù)據(jù)主要通過(guò)Sakura和MST工具來(lái)完成。與NCBI,EBM共同構(gòu)成DNA三大數(shù)據(jù)庫(kù),這三大數(shù)據(jù)中心各自收集序列數(shù)據(jù),并通過(guò)網(wǎng)絡(luò)每天進(jìn)行數(shù)據(jù)交換。近來(lái)三大數(shù)據(jù)庫(kù)合作的項(xiàng)目主要包括TPA(tirdpannotation)、CON(struct)或CON(tig)和XML數(shù)據(jù)交換格式的建立。TPA是一種基于已有數(shù)據(jù)庫(kù)中的核酸序列產(chǎn)生的注釋數(shù)據(jù),它的格式與傳統(tǒng)的GenBank一樣,只是包含了“TPA”標(biāo)簽。CON(struct)或CON(tig)用于存儲(chǔ)一些片段的拼接信息,這些片段是序列長(zhǎng)度大于350000bp的核酸被分割而產(chǎn)生的,但這種長(zhǎng)度限制在2004年6月就被取消。