<pre id="fh7hf"><strike id="fh7hf"></strike></pre>

    <track id="fh7hf"></track>
    <pre id="fh7hf"><strike id="fh7hf"><ol id="fh7hf"></ol></strike></pre>

    <address id="fh7hf"></address>

    <noframes id="fh7hf"><pre id="fh7hf"><strike id="fh7hf"></strike></pre>

    打破“數據孤島”,推動組學資源管理自立自強——走進國家基因組科學數據中心

      今年1月,依托中國科學院北京基因組研究所(國家生物信息中心)(以下簡稱基因組所)的國家基因組科學數據中心(NGDC)有10篇論文集中亮相國際生物數據庫期刊《核酸研究》。對于這樣一本頂級期刊來說,這種情況并不多見。

      一個剛6歲的數據中心何以取得這樣的成績?近日,《中國科學報》走進基因組所了解NGDC成長背后的秘密。

      面向國家需要,追趕國際步伐

      NGDC可追溯至2016年2月基因組所成立的生命與健康大數據中心。它的成立既是對接國家需求,也是研究所自身發展的需要。

      長期以來,全世界科學家產生的組學數據都要提交給三大數據庫——美國國立生物技術信息中心(NCBI)、歐洲生物信息學研究所(EBI)、日本核酸數據庫(DDBJ)。這三家于上世紀八九十年代成立的機構在2005年建立了國際核酸序列共享聯盟(INSDC),形成領域內數據存儲和共享使用的標準。

      這使得我國科學家發表論文時需要通過互聯網將數據提交到這些數據庫,而做科研時需要使用的數據又要從這些數據庫下載,科研效率經常遭遇國際帶寬瓶頸的約束。同時,我國科學基金項目和重點研發計劃產生的大量基因組科學數據,分散在不同研究單位和實驗室,形成了無法共享和進一步挖掘利用的“數據孤島”。

      “對標國際三大數據庫,建成一個永續性的生物信息存儲機構,曾是我們幾代生命科學研究者三十年的企盼?!痹?月中旬于基因組所舉行的NGDC年會上,中科院院士陳潤生說。

      解決這些問題既是我國幾代生命科學家的呼喚,也是年輕的基因組所的內在發展需求。

      “人類基因組計劃之后,研究所作為戰略科技力量,如何進一步擔當國家使命,需要轉型發展?!被蚪M所所長薛勇彪向《中國科學報》表示,當時的挑戰是“沒人沒錢缺機制”,但優勢是“船小好調頭”。

      為調整航向,基因組所進行了一系列學科布局與運行機制優化調整。

      例如,在學科發展上,該所將表觀基因組和生物信息研究“干濕結合”,進一步布局了大數據中心;運行機制上,打破傳統PI模式,將分屬科研和工程系列的三個團隊整合到一個大數據中心,實現從“單兵作戰”到“集團軍作戰”的轉變;資源配置以任務導向為主,研究所“自帶干糧”投入經費支持;考評機制方面,對數據中心的工作人員打破“唯論文”考評,讓更多人看到職業發展的希望。

      在此基礎上,2016年2月,該所生命與健康大數據中心應運而生,并構建了組學原始數據存儲歸檔系統(GSA)。其目標是:立足中國,服務全球。

      “數據中心從一開始就對標INSDC,并邀請該聯盟的專家擔任國際顧問,以增加他們對數據中心的了解和支持?!盢GDC副主任、基因組所研究員章張說,在同年10月召開的全國生物信息學與系統生物學大會上,由該數據中心發起的中國基因組學數據共享聯盟得到了國內與會科學家的一致支持。

      2017年,鮑一明研究員的加入讓大數據中心團隊增添了學術帶頭人。

      “一個人單槍匹馬的努力起不到多大作用,團隊非常重要?!盢GDC主任、基因組所研究員鮑一明對《中國科學報》說。他曾在NCBI工作16年,其間多次幫助緊急遞交論文的中國科學家解決遞交數據時的技術問題,選擇回國是希望發揮更大的作用。

      “這支團隊年輕、有活力,踏踏實實做事情,而且非常團結?!彼f,最關鍵的是,大家有著共同的目標:實現中國生物信息數據存管用的自立自強。

      圍繞共同的愿景,他們凝心聚力,“擼起袖子加油干”。

      在團隊成員的努力下,組學原始數據存儲歸檔系統(GSA)先后被愛思唯爾、威利、細胞、施普林格·自然等全球主要出版集團認可。2017年起,他們還受到INSDC邀請,作為該聯盟之外的唯一一家機構參加INSDC年會并在會上作報告。

      2019年6月,我國生物學家們終于迎來了企盼已久的時刻:NGDC作為首批20個國家科學數據中心之一獲批成立。該中心由基因組所作為依托單位,聯合中科院生物物理所和上海營養與健康所共同建設,旨在建設支撐我國生命科學發展、國際知名的基因組科學數據中心。

      同年11月,中央編辦批復中科院北京基因組研究所加掛“國家生物信息中心”牌子,承擔國家生物信息大數據統一匯交、集中存儲、安全管理與開放共享以及前沿交叉研究和轉化應用等工作。

      “這是一件非常值得慶祝的事情,能夠為創新驅動和國家戰略發展服務?!盢GDC顧問、北京大學教授羅靜初說。但他同時表示,“這并不是‘肥肉’,而是‘苦差事’?!?/p>

      主動攻關,獲國內外認可

      “打著兩塊‘國字頭’的招牌,一定要做出一點事!”鮑一明等人心里憋著一股勁兒,摩拳擦掌準備開發和啟動多個前沿數據庫。

      但新冠疫情突發而至。該團隊在研究所的部署下緊急開發新冠病毒信息庫。2020年1月22日,距離春節前三天,2019新冠病毒信息庫正式發布。

      該信息庫整合了全球相關機構和數據庫公開發布的冠狀病毒基因組序列數據、元信息、學術文獻等,并對不同冠狀病毒株的基因組序列做了變異分析與展示。這為此后開展病毒分子溯源、追蹤病毒株變異路徑、制定疫情防控策略等提供了數據基礎與決策支持。

      例如2020年1月,首次收錄發布由中國醫學科學院病原生物學研究所提交的國內5條新冠病毒基因組序列,并與NCBI實現數據同步共享;6月,北京新發地疫情,通過基因組比對分析確定問題出現在冷鏈三文魚,首次發現冷鏈貨物污染可能是造成局部疫情暴發的病毒源頭,為優化疫情常態化防控策略,實行“人物并重”的新型防控措施提供了科學依據;7月和次年1月,該中心專家全程參與WHO來華開展新冠病毒溯源聯合研究,提供了有力的數據支撐,受到國內外專家組成員的好評……

      “那段時間確實比較辛苦,經常連夜加班分析數據、整理材料、撰寫報告。但作為‘國家隊’一員,我們有責任和義務出一份力?!盢GDC副主任、基因組所正高級工程師趙文明說。

      據介紹,該信息庫被多家國際機構推薦使用,收到了來自國內多個機構以及美國、英國、意大利等10余個國家的研究者的積極反饋。他們來信感謝:“NGDC在極短的時間內建立了一個十分優秀、給人深刻印象的信息庫”“愿意與NGDC共享數據分析結果”。

      據介紹,目前新冠病毒信息庫仍在保持全球最新、最完整的相關基因組數據動態更新,為國內外科學研究和合作提供有力支撐。

      汗水澆灌出榮譽。去年,研究團隊的成果入選國家“十三五”科技創新成就展,并被科技部授予“全國科技系統抗擊新冠肺炎疫情先進集體”稱號。

      不只是在新冠病毒信息庫建設方面,該中心的科學家們還“雙線出戰”,不斷提升數據中心在國際上的可見度。

      “作為數據產出和使用大國,我國生物信息數量和用戶占INSDC相關比重的20%左右,是占比最多的國家之一。這意味著中國有能力成為該聯盟的一員?!滨U一明說。

      但作為一個后來者,想要加入INSDC并不容易。在鮑一明和同事的努力下,目前新冠數據資源方面,雙方已在標注NGDC編號的條件下實現共享。去年,INSDC主動提出如果成為合作伙伴,希望中國科學家在數據共享和存儲方面做出貢獻。

      該中心還在“一帶一路”國際科學組織聯盟(ANSO)的支持下,建立了以我國為主的國際生物多樣性和健康大數據共享聯盟(BHBD),當前已與12個國家的28個機構建立了數據共享和科研合作關系。

      務實發展,把好數據質量關

      六年來,NGDC不斷夯實自身的建設。據介紹,該中心已經建立了包含9大數據類型的63個數據庫,形成涵蓋“數據-信息-知識”一體化數據資源體系。

      鮑一明介紹,該資源體系可實現我國生物數據的安全匯交管理,同時開發了由數據可視化、序列比對、基因表達、表觀遺傳、基因組構成和新冠序列分析六個專題構成的生物信息在線分析平臺(BIT),為我國生物數據的挖掘利用提供了重要支撐。

      例如,組學原始數據存儲歸檔系統(GSA)已匯交科技項目4700個,來自近500家單位2300個用戶遞交的數據量超12PB,相關數據支撐了290種國內外期刊的940篇文章;新冠病毒信息庫目前已收錄新冠病毒序列900萬余條,為全球179個國家和地區150多萬名訪客提供數據服務,累計數據下載超26億條。

      在回顧成績的時候,鮑一明和同事們也清醒地認識到,當前NGDC尚處于初期階段,綜合能力與國際一流機構仍有比較明顯的差距。

      “比如數據整合和具有國際影響力的特色數據庫資源有待進一步發展,大數據挖掘分析技術和能力也待加強?!滨U一明說,科技部、財政部已經給NGDC相當大力度的資助,但與國際同類機構相比,NGDC還面臨存儲計算設施、人才隊伍以及經費支持等方面的問題。

      盡管還存在許多限制與挑戰,作為一名“后起之秀”,NGDC已連續5年被《核酸研究》評價為與NCBI、EBI并列的全球主要生物數據中心。

      “下一步,我們要堅持務實發展,在確保數據安全的前提下,彌補中心在數據處理、存儲和檢索等核心技術方面的短板,研發建立生物信息大數據關鍵核心算法和軟件,增強中心的服務能力和國際影響力?!滨U一明說。

    (原載于《中國科學報》2022 年3月17日 頭版

    附件下載:
    进入公主紧致

    <pre id="fh7hf"><strike id="fh7hf"></strike></pre>

      <track id="fh7hf"></track>
      <pre id="fh7hf"><strike id="fh7hf"><ol id="fh7hf"></ol></strike></pre>

      <address id="fh7hf"></address>

      <noframes id="fh7hf"><pre id="fh7hf"><strike id="fh7hf"></strike></pre>