正规代孕服务机构费用_供卵代生双胞胎包男孩_〔最新价格表〕_圣玛丽国际医疗机构

生物信息“数据孤岛”是如何打破的丨如何用好科学数据

分类:趣味知识   浏览:36℃   发布于:3年前 (2023-08-12)
简介: 本年1月,依托我国科学院北京基因组研讨所

本年1月,依托我国科学院北京基因组研讨所(国家生物信息中心)(以下简称基因组所)的国家基因组科学数据中心(NGDC)一批效果会集露脸:10篇论文相继刊发于世界生物数据库期刊《核酸研讨》。关于一本尖端期刊来说,这种状况并不多见。

一个刚建立6年的数据中心何故获得这样的效果?近来,《我国科学报》走进基因组所,了解NGDC生长背面的隐秘。

面向国家须要,追逐世界脚步

NGDC可追溯至2016年2月基因组所建立的生命与健康大数据中心。它的建立既是对接国家需求,也是研讨所本身展开的须要。

长期以来,全世界科学家发生的组学数据都要提交给三大数据库——美国国立生物技能信息中心(NCBI)、欧洲生物信息学研讨所(EBI)、日本核酸数据库(DDBJ)。这3家于上世纪八九十年代建立的安排在2005年建立了世界核酸序列同享联盟(INSDC),构成领域内数据存储和同享运用的规范。

我国科学家须要在宣布论文时经过互联网将数据提交到这些数据库,而做科研时则须要将数据从这些数据库下载下来,科研功率常常遭受世界带宽瓶颈的束缚。一起,我国科学基金项目和要点研制打算发生的很多基因组科学数据,涣散在不同研讨单位和实验室,成为无法同享和进一步发掘运用的“数据孤岛”。

“对标世界三大数据库,建成一个永续性的生物信息存储安排,曾是咱们几代生命科学研讨者30年的期盼。”在1月中旬基因组所举办的NGDC年会上,我国科学院院士陈润生说。

处理这些问题既是我国几代生命科学家的呼喊,也是年青的基因组所内涵展开的需求。

“人类基因组打算之后,研讨所作为战略科技力气,想要进一步担任国家使命,须要转型展开。”基因组所所长薛勇彪向《我国科学报》表明,其时的应战是“没人没钱缺机制”,优势是“船小好调头”。

为调整航向,基因组所进行了一系列学科布局与运行机制优化调整。

例如,在学科展开上,该所将表观基因组和生物信息研讨“干湿结合”,进一步布局了大数据中心;运行机制上,打破传统PI(课题组组长)形式,将分属科研和工程系列的3个团队整合到一个大数据中心,完成从“单兵作战”到“集团军作战”的改变;资源配置以使命导向为主,研讨所“自带干粮”投入经费支撑;考评机制上,对数据中心的作业人员打破“唯论文”考评,让更多人看到作业展开的期望。

在此根底上,2016年2月,该所生命与健康大数据中心应运而生,并构建了组学原始数据存储归档系统(GSA)。其方针是安身我国,服务全球。

“大数据中心从一开端就对标INSDC,并约请该联盟专家担任世界参谋,以添加他们对大数据中心的了解和支撑。”NGDC副主任、基因组所研讨员章张说,在同年10月举行的全国生物信息学与系统生物学大会上,由该大数据中心建议的我国基因组学数据同享联盟得到了国内与会科学家的一起支撑。

2017年,鲍一明的参加让大数据中心团队有了学术带头人。

“一个人孤军独战的尽力起不到多大效果,团队十分重要。”NGDC主任、基因组所研讨员鲍一明对《我国科学报》说。他曾在NCBI作业16年,其间屡次协助紧迫递送论文的我国科学家处理技能问题,挑选回国是期望发挥更大的效果。

“这支团队年青、有生机,踏踏实实做工作,并且十分联合。”他说,最要害的是,咱们有着一起的方针——完成我国生物信息数据存管用的自立自强。

环绕一起的愿景,他们凝心聚力,“撸起袖子加油干”。

在团队成员的尽力下,GSA先后被爱思唯尔、威利、细胞、施普林格·天然等全球首要出书集团认可。2017年起,他们还遭到INSDC约请,作为该联盟之外的仅有一家安排参加INSDC年会并在会上作陈述。

2019年6月,我国生物学家总算迎来了期盼已久的时刻:NGDC作为第一批20个国家科学数据中心之一获批建立。该中心由基因组所作为依托单位,联合我国科学院生物物理研讨所和上海养分与健康研讨所一起建造,旨在成为支撑我国生命科学展开、世界闻名的基因组科学数据中心。

同年11月,中心编办批复基因组所加挂“国家生物信息中心”牌子,担负国家生物信息大数据一致汇交、会集存储、安全办理与敞开同享,以及前沿穿插研讨和转化运用等作业。

“能够为立异驱动和国家战略展开服务,这是一件十分值得庆祝的工作。”NGDC参谋、北京大学教授罗静初说。但他一起表明,“这并不是‘肥肉’,而是‘苦差事’”。

自动攻关,获国内外认可

“打着两块‘国字头’的招牌,一定要做出一点事!”鲍一明等人心里憋着一股劲儿,跃跃欲试预备开发并发动多个前沿数据库。

但是,新冠疫情突发而至。在研讨所的布置下,该团队紧迫开发新冠病毒信息库。2020年1月22日,间隔春节前3天,2019新冠病毒信息库正式发布。

该信息库整合了全球相关安排和数据库揭露发布的冠状病毒基因组序列数据、元信息、学术文献等,并对不同冠状病毒株的基因组序列做了变异剖析与展现。这为尔后展开病毒分子溯源、追寻病毒株变异途径、拟定疫情防控战略等供给了数据根底与决议计划支撑。

例如,2020年1月,初次录入发布由我国医学科学院病原生物学研讨所提交的国内5条新冠病毒基因组序列,并与NCBI完成数据同步同享;6月,北京新发地疫情,经过基因组比对剖析确认问题出现在冷链三文鱼,初次发现冷链货品污染可能是构成部分疫情爆发的病毒源头,为优化疫情常态化防控战略、实施“人物偏重”的新式防控办法供给了科学依据;7月和次年1月,该中心专家全程参加世界卫生安排来华展开的新冠病毒溯源联合研讨,供给了有力的数据支撑,遭到国内外专家组成员的好评……

“那段时刻的确比较辛苦,常常连夜加班剖析数据、收拾资料、编撰陈述。不过,作为‘国家队’一员,咱们有职责和责任出一份力。”NGDC副主任、基因组所正高级工程师赵文明说。

据介绍,现在新冠病毒信息库仍在坚持全球最新、最完好的相关基因组数据动态更新,为国内外科学研讨和协作供给有力支撑。

汗水浇灌出荣誉。上一年,研讨团队的效果当选国家“十三五”科技立异成就展,并被科技部颁发“全国科技系统抗击新冠肺炎疫情先进集体”称谓。

不只是在新冠病毒信息库建造方面,NGDC的科学家还“双线作战”,不断提高在世界上的可见度。

“作为数据产出和运用大国,我国生物信息数量和用户占INSDC相关比重的20%左右,是占比最多的国家之一。这意味着我国有才能成为该联盟的一员。”鲍一明说。

但作为后来者,参加INSDC并不简单。在鲍一明和搭档的尽力下,现在新冠数据资源方面,两边已在标示NGDC编号的条件下完成同享。上一年,INSDC自动提出假如成为协作伙伴,期望我国科学家在数据同享和存储方面作出贡献。

NGDC还在“一带一路”世界科学安排联盟(ANSO)的支撑下,建立了以我国为主的世界生物多样性和健康大数据同享联盟(BHDB),当时已与12个国家的28个安排建立了数据同享和科研协作关系。

务实展开,把好数据质量关

6年来,NGDC不断夯实本身建造,现已建立了包括九大数据类型的63个数据库,构成“数据—信息—常识”一体化数据资源系统。

鲍一明介绍,该资源系统可完成我国生物数据的安全汇交办理,一起开发了由数据可视化、序列比对、基因表达、表观遗传、基因组构成和新冠序列剖析6个专题构成的生物信息在线剖析渠道(BIT),为我国生物数据的发掘运用供给了重要支撑。

例如,GSA已汇交科技项目4700个,来自近500家单位2300个用户递送的数据量超12PB,为290种国内外期刊的940篇文章供给了相关数据支撑;新冠病毒信息库现在已录入新冠病毒序列900余万条,为全球179个国家和地区150多万名访客供给数据服务,被下载数据超26亿条。

在回忆效果的时期,鲍一明和搭档清醒地认识到,当时NGDC尚处于初级阶段,归纳才能与世界一流安排仍有比较显着的距离。

“比方数据整合和具有世界影响力的特征数据库资源有待进一步展开,大数据发掘剖析技能和才能也待加强。”鲍一明说,科技部、财政部现已给予NGDC大力赞助,但与世界同类安排比较,NGDC还面对存储估算设备、人才队伍以及经费支撑等方面的问题。

虽然还存在许多约束与应战,作为一名“后起之秀”,NGDC已接连5年被《核酸研讨》点评为与NCBI、EBI并排的全球首要生物数据中心。

“下一步,咱们要坚持务实展开,在保证数据安全的前提下,补偿在数据处理、存储和检索等中心技能方面的短板,研制生物信息大数据要害中心算法和软件,增强服务才能和世界影响力。”鲍一明说。

本文暂无评论 - 欢迎您