基因组科学数据的安全管理与应用

李茹姣1, 张欣1, 宋述慧1, 王彦青1, 邹东1, 肖景发1,2, 赵文明1,2, 章张1,2, 鲍一明1,2

1 中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心,北京 100101

2 中国科学院大学,北京 100049

摘要基因组科学数据是人口健康和国家安全的重要战略资源,存好、管好和用好基因组科学数据具有重要意义。面对我国生物数据大量产出但因存储零散、缺乏系统监管而丢失和流失,以及严重依赖国际生物组学数据库的局面,亟须从国家层面建设我国自己的生物大数据管理体系。以国家基因组科学数据中心为例,阐述了基因组科学数据汇交共享体系和标准规范、数据安全管理机制,给出了数据挖掘与应用的典型案例,并从政策机制、基础设施、软件研发、学科建设、人才培养和国际合作等方面提出对策建议。

关键词科学数据 ; 基因组学 ; 汇交共享 ; 数据安全管理 ; 数据应用

论文引用格式:

李茹姣, 张欣, 宋述慧, 等. 基因组科学数据的安全管理与应用[J]. 大数据, 2022, 8(1): 37-45.

LI R J, ZHANG X, SONG S H, et al. Safety management and application of genomics data[J]. Big Data Research, 2022, 8(1): 37-45.

0 引言

科学数据是国家科技创新和经济社会发展的重要基础性战略资源,做好科学数据资源的汇交共享、安全管理与挖掘利用具有重要的科学意义和价值。2019年6月10日,科学技术部和财政部联合发布了《关于国家科技资源共享服务平台优化调整名单的通知》,公布了多个学科领域的20个国家科学数据中心。其中,国家基因组科学数据中心(National Genomics Data Center,NGDC)(以下简称中心)依托中国科学院北京基因组研究所(国家生物信息中心)建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立基因组科学数据汇交存储、安全管理、开放共享与整合挖掘的研究体系,研发基因组科学大数据前沿交叉与转化应用的新方法和新技术,其目标是成为国际领先的基因组科学数据中心,支撑我国生命与健康科学创新发展。

中心自成立以来,面向人口健康和重要战略生物资源,以“存好”“管好”和“用好”基因组科学数据的实际需求为前提,已初步建成具有自主知识产权、安全可控、涵盖国家人类遗传资源和重要战略生物资源的基因组科学数据资源体系。中心汇聚全球数据,提供公共服务,形成了组学“数据—信息—知识”一体化资源系统,主要分为:①原始数据仓储,包括生物项目数据库(BioProject)、生物样本数据库(BioSample)、组学原始数据归档库(genome sequence archive,GSA)、人类遗传资源组学原始数据归档库(genome sequence archive for human, GSA-Human)等;②组学信息库,包括基因组数据库(genome warehouse,GWH)、基因组序列变异库(genome variation map,GVM)、基因表达数据库(gene expression nebulas,GEN)、甲基化数据库(methylation bank, MethBank)等;③组学知识库,包括水稻多组学数据资源(IC4R)、犬类组学资源库(iDog)、绵羊组学资源库(iSheep)、2019新型冠状病毒信息库(RCoV19)、动植物基因组变异-表型关联知识库(GWAS Atlas)、表观组关联分析知识库(EWAS Atlas)等;④在线工具和文献情报信息平台,包括生物大数据跨库搜索引擎BIG Search、基因组科学数据在线分析平台等。中心已获得国际同行的高度认可,被国际生物数据领域权威期刊Nucleic Acids Research(《核酸研究》)称为与美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)、欧洲生物信息学研究所(European Bioinformatics Institute,EBI)并列的“全球主要数据中心”。中心解决了长期以来我国基因组科学数据汇交共享严重依赖国际数据库的问题,为国家基因组科学数据的汇交共享、安全管理和挖掘利用提供了重要支撑。

1 基因组科学数据安全管理

数据的安全管理指在数据的收集、存储、使用、加工、传输、提供、公开等过程中采取必要的措施,确保数据处于有效保护和合法利用的状态。中心严格遵循《科学数据管理办法》和《中华人民共和国数据安全法》等相关法规,目前已建立较完整的基因组科学数据汇交共享机制和安全管理规范,研发形成具有自主知识产权的数据库管理系统和共享平台,为我国基因组科学数据安全可控的汇交存储、共享管理与有效利用提供重要保障。

对于所有用户递交的数据,如生物研究项目和生物样本元数据、组学原始数据、基因组序列数据、基因组变异数据等,中心借鉴国际核酸序列数据库联盟(International Nucleotide Sequence Database Collaboration,INSDC)的数据汇交标准规范,分别建立相应数据管理系统对其进行收集和管理。在数据管理系统中,内置多套受控词表,提供在线向导化信息提交功能,规范化、结构化管理各类信息,并通过在线校验和人工审编实现信息的质控和审核,以此确保用户递交数据的完整性和可靠性。审核通过后,系统分别为每个递交到中心的项目、样本、数据分配唯一可识别的编号,作为检索和访问的标识。数据管理系统根据递交用户设定的数据公开时间进行可控管理,并依托中心高性能存储和异地容灾的备份机制,定期进行数据更新与异地备份,以全面保证数据的完整性与安全性。对于大型项目及数据,中心则提供高效、安全、专业化的项目分级管理。

特别强调的是,中心遵循《中华人民共和国人类遗传资源管理条例》的指导原则,对人类遗传组学数据资源采取如下六方面的安全管理机制和策略。①在数据访问方式方面,面向人类遗传资源,提供公开访问和受控访问两种方式。受控访问的数据采用“申请—审核”的共享方式,即数据使用者需要先向数据管理委员会(data access committee,DAC)提交申请,审核通过后才有权限访问、下载并使用数据。②在身份安全认证方面,采取双重认证方式,用户除了需要通过单点登录(single sign-on,SSO)系统的密码认证,还需要在数据提交和申请下载的人工审核阶段进行项目负责人(principal investigator,PI)身份信息核实,以确保数据的可溯源性。③在数据上传权限方面,系统规定数据上传必须使用PI账号,且需对元数据信息进行脱敏,即不能包含受试者的隐私信息。④在数据存储空间方面,系统为每个用户提供独立的数据存储空间,有效避免不同用户之间相互干扰,降低信息泄露的可能性,充分确保数据的安全性和私密性。⑤在数据申请访问方面,为了保证数据访问安全,系统规定只有注册为PI的用户才能申请下载数据。⑥在存储策略和备份机制方面,针对不同访问级别的数据采用分级存储策略,并建立完善的多点备份和异地灾备机制,以确保数据的安全存储。

2 基因组科学数据挖掘应用

中心在做好数据资源存储和管理的同时,十分注重数据的整合及应用系统的建设,研发了一站式跨库检索系统和在线分析平台,并支撑国内外用户开展组学大数据挖掘应用研究,为科学技术部、国家自然科学基金委员会、中国科学院等资助的4 000多个项目提供数据汇交存储和共享管理服务。

2.1 生物大数据跨库搜索引擎

生物大数据跨库搜索引擎BIG Search是目前整合全球生物数据库数量最多的生物大数据跨库检索平台,为全球科研人员提供秒级响应、一站式的跨库检索服务,支撑生物大数据的快速发现与利用。BIG Search整合了中心28个重要的生物数据库资源以及国内众多合作伙伴的39个生物数据库资源,包括北京市神经外科研究所江涛教授团队的中国脑胶质瘤基因组图谱数据库(CGGA)、北京大学崔庆华教授团队的长非编码RNA疾病数据库(LncRNADisease)、北京大学高歌研究员团队的植物转录因子数据库(PlantTFDB)、华中科技大学郭安源教授团队的动物转录因子数据库(AnimalTFDB),以及哈尔滨医科大学肖云教授团队的细胞标记物知识库(CellMarker)]等。此外,还整合了国际知名生物信息数据中心的数据资源,包括NCBI的35个数据资源库和EBI的115个数据集,累计数据索引量达到1 TB,记录数超过11.5亿条。

2.2 基因组科学数据在线分析平台

为了促进基因组科学数据的有效挖掘利用,中心已初步建立了基因组科学数据在线分析平台,目前主要包括:①序列比对在线分析工具,集成了生命科学领域最常用的序列比对软件BLAST(basic local alignment search tool),不仅整合了nt、nr、Swiss-Prot等常用的核酸和蛋白数据库,还发挥了中心的特色数据资源优势,提供多种特有的核酸、蛋白序列比对数据库,包括GWH转录本和蛋白序列库、GEN转录本和蛋白质序列库、新型冠状病毒基因组代表序列库、人类长非编码RNA数据库LncBook、万种原生生物核酸和蛋白质序列库、水稻/高粱/胡蜂等特色物种基因库;②冠状病毒在线分析平台,由基因组拼接、序列比对、基因组注释、变异鉴定和注释、谱系和进化分析等11个模块组成,满足快速增长的新型冠状病毒基因组数据的分析需求,已为国际生物多样性与健康大数据联盟(Global Biodiversity and Health Big Data Alliance,BHBD)成员以及来自全国10多个重要口岸的海关检疫人员提供了线上或现场的使用培训,为国内外用户完成了11 628个病毒数据的分析任务。

2.3 基于多维组学数据的典型应用

中心建立的基因组科学数据多维资源体系为新型冠状病毒的分子溯源与传播演化、动植物分子育种与遗传改良、精准医学与人口健康等多个研究领域提供了强有力的数据和信息支撑。新型冠状病毒信息库RCoV19有效支撑了世界卫生组织的SARS-CoV-2全球溯源研究—中国部分、北京新发地疫情分子溯源和巴基斯坦境内早期新型冠状病毒传播演化规律等研究工作,在全球抗疫过程中发挥了科技支撑作用。武汉大学研究团队对从新型冠状病毒肺炎(COVID-19)患者的支气管肺泡灌洗液(bronchoalveolar lavage fluid, BALF)和外周血单个核细胞(peripheral blood mononuclear cell,PBMC)样本中提取的RNA进行了转录组测序,揭示了新型冠状病毒肺炎患者支气管肺泡灌洗液与外周血单个核细胞的转录组学特征,并将数据递交至GSA(CRA002390),该成果发表后得到了广泛的关注。华中农业大学的研究人员利用GVM中猪、马、牛、山羊、水牛、鸡、野马和熊猫等物种的高密度基因型数据,经过数据再分析与处理,构建了经基因型填补后的13个动物的高质量参考变异组,同时开发了专业数据库Animal-ImputeDB,用于在线基因型估算、基因变异搜索和免费下载,为动物遗传育种和遗传改良提供了丰富的数据资源,促进了基因型填补在动物遗传研究中的应用。

3 结束语

在科学技术部及有关部门的大力支持和资助下,中心在数据汇交共享、安全管理和挖掘应用等方面都取得了突破性进展,已建成涵盖国家人类遗传资源和重要战略生物资源的多组学数据资源体系,研发一站式跨库检索系统和在线分析平台,数据资源总量已超过10 PB,为公益性科学研究和产业创新发展,尤其是全球抗疫,提供了重要数据资源和科技支撑。然而,在生物数据统一汇交政策机制、基础设施和数据智能管理能力、生物信息专业人才队伍以及生物数据的国际互通共享等方面仍需极大的提升。为此,笔者提出如下建议。

● 加快完善生物信息资源共享的政策保障措施:加快推动建立科技信息公开制度,确保各类科技项目产生的科学数据能够全面、及时开放共享,健全科学数据共享管理过程中的保障机制。

● 加强生物信息基础设施建设和核心软件系统研发:以生命科学研究的实际需求为导向,建立面向生物信息大数据的基础设施环境,研发多维数据资源的生物数据库、信息库和知识库系统及其关键核心软件和工具,加大对生物信息算法、模型、软件、工具、数据库等方面的资助支持力度,切实形成综合性、权威性的生物信息数据库以及具有自主知识产权的核心软件。

● 加大我国生物信息学学科建设及人才队伍的培养:建议尽快推进生物信息学的学科布局和整体规划,提升生物信息学的学科级别,成立生物信息学一级学会,并在有较好基础的大学设立生物信息学院,以此加强基础人才培养,为未来我国生命科学领域的可持续发展提供充足的人才储备。

● 加强生物信息数据与资源的国际合作:一方面,根据国家“一带一路”倡议,加强与相关国家的科技合作和技术探讨,在生命科学领域开展联合研究,扩大我国生物信息数据体系的影响力;另一方面,加强国内外科学共同体的交流合作,探索与国际社会的数据交换和合作交流,保障资源的全球化利用,最大限度发挥数据的价值。

作者简介

李茹姣(1976-),女,博士,中国科学院北京基因组研究所(国家生物信息中心)高级工程师,主要研究方向为组学大数据整合和挖掘。

张欣(1981-),男,中国科学院北京基因组研究所(国家生物信息中心)工程师,主要研究方向为组学大数据合作共享。

宋述慧(1981-),女,博士,中国科学院北京基因组研究所(国家生物信息中心)副研究员,主要研究方向为基因组变异大数据整合分析与挖掘应用。

王彦青(1982-),女,中国科学院北京基因组研究所(国家生物信息中心)高级工程师,主要研究方向为基因组学原始数据汇聚、管理与共享体系构建。

邹东(1986-),男,中国科学院北京基因组研究所(国家生物信息中心)高级工程师,主要研究方向为生物数据库系统研发、多维组学大数据跨库检索平台建设。

肖景发(1973-),男,博士,中国科学院北京基因组研究所(国家生物信息中心)研究员,主要研究方向为多维组学数据整合挖掘和微生物泛基因组学算法软件开发等。

赵文明(1977-),男,中国科学院北京基因组研究所(国家生物信息中心)高级工程师,国家基因组科学数据中心副主任,主要研究方向为生物信息大数据整合挖掘、生物信息工具与平台研发。

章张(1980-),男,博士,中国科学院北京基因组研究所(国家生物信息中心)研究员,国家基因组科学数据中心副主任,主要研究方向为生物大数据整合与信息挖掘。

鲍一明(1965-),男,博士,中国科学院北京基因组研究所(国家生物信息中心)研究员,国家基因组科学数据中心主任,主要研究方向为生物数据库、病毒基因组注释、病毒进化与分类等。

联系我们:

Tel:010-81055448

010-81055490

010-81055534

E-mail:bdr@bjxintong.com.cn

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作:010-81055307

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

关注《大数据》期刊微信公众号,获取更多内容

基因组科学数据的安全管理与应用相关推荐

  1. 国家基因组科学数据中心(NGDC)---组学原始数据如何上传GSA

    文章目录 前言 一.什么是NGDC? 二.NGDC的发展历程 三.什么是GSA? 四.为什么选择上传数据到GSA? 五.如何上传测序原始数据至GSA?(重点!!附详细步骤!!) 1. 准备要上传的数据 ...

  2. 科学数据中心资源和用户访问控制体系

    科学数据中心资源和用户访问控制体系 曹乔卓然1, 陈祖刚2, 李国庆2, 李静2 1 郑州大学地球科学与技术学院,河南 郑州 450052 2 中国科学院空天信息创新研究院,北京 100094 摘要: ...

  3. 专题导读:科学数据治理

    点击上方蓝字关注我们 作为"国家科学数据中心"联合专刊的一部分,<大数据>以"科学数据治理"为主题,收集了10篇论文,就管理政策和标准规范.开放共享 ...

  4. “国家科学数据中心”联合专刊征稿

    转自微信公众号:中国科技资源导刊 "国家科学数据中心"联合专刊征稿 <大数据> <数据与计算发展前沿> <中国科学数据(中英文网络版)> < ...

  5. CheckM——国家微生物科学数据中心云工具

     国家微生物数据中心推出免费的全套在线视频教程--微课堂,对近百个微生物组学数据分析工具进行详细介绍和手把手教学.让你迅速上手使用国家微生物科学数据中心推出的一站式在线分析平台. 国家微生物科学数据中 ...

  6. 国家微生物科学数据中心推出免费一站式生物信息分析云平台

    产生了大量的微生物组学数据,想进行数据分析不知道使用什么工具?不会使用Linux系统?不会写代码?没有合适的参考数据库?计算资源不足?现在这些问题都可以通过国家微生物数据中心推出的一站式生物信息分析云 ...

  7. 国家微生物科学数据中心微生物组学数据汇交指南

    科学家们往NCBI/EMBL/DDBJ等数据库提交的组学数据,也可以提交到国家微生物科学数据中心(NMDC,http://nmdc.cn/)了! 感受数据提交服务亮点: 线上全流程数据汇交,为您带来便 ...

  8. 随机宏基因组测序数据质量控制和去宿主的分析流程和常见问题

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议点击文末阅读原文 ...

  9. 基因组大数据变异检测算法的并行优化

    基因组大数据变异检测算法的并行优化 基因组大数据变异检测算法的并行优化 崔英博1, 黄春1, 唐滔1, 杨灿群1, 廖湘科1, 彭绍亮2,3 1 国防科技大学计算机学院,湖南 长沙 410073 2 ...

  10. 2016第三届科学数据大会——科学数据与创新发展会议日程

    大会简介 数据作为一种资源,就像传统的水.煤炭.石油一样,对自然科学和社会科学有着极大的价值,并且正在改变人们的科研.生产.生活方式.整个世界都在快速地数据化,我们已大步迈向大数据时代,科学数据的开放 ...

最新文章

  1. java在线阅读word_java在线预览txt、word、ppt、execel,pdf代码
  2. (视频+图文)机器学习入门系列-第15章
  3. shell 脚本编写 if else then
  4. pcl中set程序_PCL中分割方法的介绍(3)
  5. 利用masm32输出PE文件头的基本属性
  6. 【Linux】NUC977移植使用libmodbus
  7. 分布式数据同步工具之DataX Web的基本使用
  8. 利用vtk实现管状模型沿中心线切割平面
  9. A4纸在屏幕上的像素尺寸
  10. html手机支付案例,实例讲述Ecshop实现的支付宝手机网页支付功能
  11. 网站打开速度慢是什么原因导致
  12. c语言写的exe文件怎么改图标,c/c++修改exe文件图标
  13. C# signtool error:no certificates were found that met all the given criteria 错误解决方案
  14. 智能汽车进入HPC时代,这家本土芯片厂商如何领跑市场
  15. Django静态文件的管理
  16. wfGo 围棋 AI对弈模式
  17. Windows更新一直卡在“正在检查更新”如何解决
  18. 深度学习中端到端(end-to-end)简要理解
  19. 金融计算与编程 基于matlab,金融计算与编程.pdf
  20. 暗影精灵8安装ubuntu18.04双系统后wifi适配器(没有wifi图标)缺少

热门文章

  1. 计算机网络 谢希仁版 部分知识点(未写完,更新中)
  2. 简化sqp唯一数据的逻辑
  3. C语言 推箱子游戏 地图编辑器(简单)
  4. 计算机白板培训心得,电子白板培训心得体会
  5. 木门锁孔合页综合加工机器
  6. python随机漫步_Python实现随机漫步功能
  7. 计数排序CountingSort
  8. FTP Server端的使用
  9. DDR中的一些知识点说明(ODT,ZQ校准,OCT,TDQS)【转载】
  10. Java对接网易云信IM 即时通讯