近年来,生物医学领域正在快速产生海量数据,特别是随着基因测序技术的快速发展,人类基因序列数据遗传信息正在成为各国争夺的战略高点。科学研究表明,不同个体携带的DNA信息差异可能成为打开生命奥秘的关键密码,因此基于基因组的研究在医药学、农业、环境等领域具有不可估量的商业价值,世界上众多科研机构和商业公司展开了激烈的竞争。

自从人类基因组计划启动以来,以第二代高通量测序技术等为代表的各类组学技术飞速发展,推动了基因组、转录组、表观遗传组、蛋白质组等生命科学组学数据的指数级增长,把生物医学数据推进到了PB时代。而当前正在发展的第三代单分子测序技术,速度更快、成本更低,进一步推动生物医学数据进入EB时代、基因测试有望进入100美元时代。

基因组大数据分析正在成为生物医学领域的下一个前沿,集数据存储、数据共享、数据分析和数据质量控制等融合数据基础设施,将是生物医学大数据的最强“挖掘机”。华为全联接大会2019给大家带来了基于OceanStor分布式存储底座的生物医学大数据基础设施,为基因组学大数据应用产业打开了全新机遇之门。

人体成为大数据重要产出源

欧美发达国家已经纷纷启动了基于测序技术的生命科学大数据研究计划。人体成为大数据重要产出源,目前多种组学数据、医学影像和临床资料在内统计的生物信息数据产出达到了10TB/人的水平,全球每年产生的生物数据总量已达EB级,生命科学已经从实验数据积累阶段进入大数据科学时代。这是中科院专家在2018年发表的一篇《国家级生物大数据中心展望》指出的当前严峻形势。

欧、美、日等几大国际生物信息中心建设起步早,多年来一直引领着全球生物大数据及生物信息领域的发展。在1980年到1988年间,美国、欧洲和日本分别建立了世界三大生物数据中心,即美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)和日本DNA 数据库(DDBJ),三大生物数据中心掌握并管理着全世界主要生物数据和信息资源。

三大国际生物数据中心的规模庞大,例如截止到2014年DDBJ中心的CPU性能理论峰值达208TFlops、存储容量达12.6PB。而美国NCBI中心凭借雄厚的科研技术力量以及在生命技术方面的巨大影响,建立了一系列生物信息数据库和各种数据服务,例如带注释的所有公开已知DNA序列数据库GenBank,该数据库每天都与DDBJ和EBI的欧洲核甘酸档案库同步交换数据,以保持数据的实时更新。

由国际生物数据中心的运营可以看出,生物医学数据呈现种类繁多、内部结构高维复杂、内涵丰富、数据相对分散、难以高维度多层次交汇共享等特点,例如NCBI的Gene服务是一个可搜索的基因数据库,专注于已经完全测序的基因组,基因信息是包括命名法、染色体定位、基因产物及其属性、相关标记、表型、相互作用、引文链接、序列、突变详情、图谱、表达报告、同源物、蛋白结构域内容和外部数据库链接等在内的高维数据。

中科院专家在2018年发表的《生物医学大数据发展的新挑战与趋势》一文中指出,随着数据规模的增加,如何更加有效地利用生物医学数据成为了挑战。传统的数据模型和数据组织方式,无法满足海量数据的结构、数量快速增长以及数据结构不断变化的管理需求,难以按照实际情况动态调整。因此,必须要突破传统的一类数据建设一个数据库的模式,而采用新类数据基础设施,在底层数据结构上以整合为导向,支持数据结构动态调整,为后期数据集成与整合工作奠定基础。

生物医学进入新时代,大数据带来新改变

要把基于海量的基因数据和难以复制的“人工经验”,变成可积累、易复制的“数据智能”,就必须要解决数据的存、算、用的问题,华为与中科院一起探索建设符合生物医学研究特点的大数据基础设施。

首先要解决海量数据汇集的问题。生物医学数据本身具备多样性,数据来自不同区域、机构、个体,有结构化数据也有图像、视频、文本等非结构化数据,新的生物大数据基础设施要支持EB级多样性数据的高效存储,并且可以通过文件、大数据等多协议共享访问,减少不必要的数据迁移,实现存储即分析。

其次是海量数据的高效处理。基于CPU和GPU的高性能协同计算,得益于其强大的并行处理能力,成为海量生物医学数据处理的研究热点。而生物医学的实时分析和临床处理,还需要用到大数据和AI技术快速准确进行影像处理、数据降维、数据取样和知识发现,因此新的生物大数据基础设施也在积极引入NPU/ARM/FPGA等硬件技术,打造多样性的数据分析平台,让数据分析更高效。

最后,数据只有共享了,才能发挥出它的最大价值,通过建设数据使能平台,可以实现数据的共享、标准化、可视化、服务化,让数据更好地服务于不同的对象,造福全人类。

为了推动基因数据的开放共享,2016年华为与中科院合作建立了新一代组学数据汇交管理平台NODE(又称为国家组学数据百科全书),目前已开放共享的各类数据达到数百TB,提供数据的发布、审阅、分享、管理、质量评估、下载与申请,让数据更广泛服务于科学研究。用户还可以在线分析NODE上的数据,在线提交数据。NODE分析功能强大,基于国产测序平台MGISEQ-2000测试的RNA-seq数据,测序质量好,性能优异。截止目前,NODE数据已服务于超过23个国家、83万的访客,帮助全球的科学家开展133个项目,其中25个项目的科研成果在Cell、Nature等权威杂志发表。

此外,2019年8月1日,中科院生物化学与细胞生物学研究所惠利健、中科院上海营养与健康研究所李亦学、第二军医大学张海斌及南京大学施晓雷等共同通讯在Cancer Cell在线发表题为“A Pharmacogenomic Landscape in Human Liver Cancers”的研究论文,基于海量的数据分析,以大约50%的成功率建立人肝癌细胞模型并生成模型库,相关研究结果发布于Cancer Cell上。

目前生命科学和临床医学研究每天产生研究和检测数据庞大,有些测试数据会被不断覆盖,有些则会被永久保存下来以便后续分析,主要数据类型为文本文件、图像文件、二进制文件等非结构化数据,对存储的要求主要是存储容量的大小和大文件读写通量的高低,而少量的关键数据库、索引等结构化数据则对存储的要求是较高IOPS和稳定的读写能力。基于华为OceanStor分布式存储解决方案,不仅为科研人员提供了日常科研所需的数据存储,其横向扩展能力更能够满足机构未来5年数据发展需求,并且保障业务7×24小时持续平稳运行。

华为OceanStor分布式存储,生物医学大数据之道

我国生物医学数据总体表现为数据零散分布、难以有效整合分析,生物医学大数据价值挖掘困难,因此对于生物医学大数据技术和基础设施有着迫切需求,特别是需要依靠先进的数据技术以结束我国长期以来的基因组数据输出国地位,通过数据存储的全联接来结束生物数据碎片化和流失严重的现象,通过共享平台实现标准化治理以更好的对接国际生物医学数据平台、参与国际生态。在这方面,华为今年重点发布的智能数据与存储技术,就是最强“挖掘机”的有力竞争者。

我国生物医学大数据和生物医学信息数据中心所面临的挑战,并非特有现象。实际上,在当前广泛进行的数字化转型中,各行各业都面临同样的问题,这也是今年华为推出智能数据湖解决方案的重要背景。华为智能数据湖解决方案通过多类型数据融合存储、融合分析引擎等技术实现从单一处理到智能融合处理,OceanStor分布式存储则是作为智能数据湖的底座,利用多协议融合技术实现一份数据同时支持数据库、大数据、AI等多种业务的分析需求,让数据分析更高效。

华为从2002年开始存储技术的研究,在全球布局研发能力,例如在俄罗斯建立存储算法研究中心,在中国成都、深圳、北京等地构筑交付能力中心,截至目前华为存储产品服务全球超过1万家客户。根据Gartner报告,2019Q1华为存储发货套数位居全球第四,中国区分布式存储市场中国区份额保持第一。截止2019年7月,华为OceanStor分布式存储已进入全球超过50个国家,服务金融、运营商、大企业等多个行业超过1500家客户,成为了企业数字化转型过程中,海量、多样性数据承载的首选存储。

生物医学数据大爆炸,大数据“挖掘机”哪家强?相关推荐

  1. 4家赞助商来自中国,中国企业“霸屏”欧洲杯!看看各大品牌借势营销哪家强?

    2021 年 6 月,因为疫情而延期一年的 2020 欧洲杯终于迎来开赛,本次欧洲杯是新冠疫情以来的第一场大型体育赛事.小编通过西瓜微数观察发现这次比赛多次登上微博热搜,热搜话题从#欧洲版开幕式#到# ...

  2. 挖掘机哪家强?不找蓝翔找AI!

    挖掘机一直都是个谜一样的存在,上至老人下至小孩,都为之着迷,只要在路上看到挖掘机作业,总会有一大批停下匆匆脚步行注目礼的人,挖掘机是除游戏外,男人的另一个天堂,属于男人的快乐玩具. 挖掘机的神奇在于它 ...

  3. 知识数据大爆炸,爱数如何抢滩?

    老师傅的经验传承,工厂设备的风险预测,各种APP的个性化推荐,三个看似不相关的事情,其背后有一个共同的指向--知识数据. 在讲究价值,追求效率的今天,知识数据的使用能力决定着企业在竞争中的排位.将散落 ...

  4. 盘古开源丨数据大爆炸时代,云存储成为企业存储必然发展方向

    自从步入到信息大爆炸时代,数据量的指数型增长也助推了全球云存储市场规模的急剧增加,而在当下,数据正在成为企业的核心资产.面对这一市场需求,不少厂商纷纷推出了云存储相关产品线. 从企业角度来看,信息化系 ...

  5. 上海数据分析师培训哪家好,大数据分析与数据分析师有什么区别?

    数据分析可谓是最近的"香饽饽",不少企业在尝过了甜头后,纷纷开始找寻相关的人才,也有许多年轻人看重了数据分析的潜力,想要转行. 但零基础无从下手,这时培训班就成为了一个很好的选择, ...

  6. 数据大爆炸将即!用户数据安全如何保障?

    Raconteur Media最近一项报告指出,全球互联网用户每天总计发送电子邮件2940亿封.发送推文5亿条.在Facebook创建数据多达4PB:同时,每天发送WhatsApp消息达650亿条.该 ...

  7. 蛛网时代:数据大爆炸下的数据可视化

    数据时代的大爆炸 业内人士表示,目前市场对存储的要求和对数据处理的要求都变得更高,如果企业再无法找到更加有效存储和管理数据的方法,那么全球企业很快会陷入存储费用飙升到数十亿美元的困境. 大数据时代下的 ...

  8. 数据大爆炸时代,数据的自由流动是企业实现数字化转型重要基石

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 随着信息技术呈现井喷式发展,尤其以数字经济为代表的IT新基建将成为新经济的发展动能.同时以云计算.大数据.人工智能.区块链等为代表的数字技术不断涌 ...

  9. hbase 数据插入指定rowkey_「HBase大爆炸」HBase之常用Shell命令

    HBase之常用Shell命令 1.进入 HBase客户端命令操作界面 2.查看帮助命令 3.查看当前数据库中有哪些表 4.创建一张表 创建user表,包含info.data两个列族 或者 5.添加数 ...

  10. 卡迪夫大数据专业排名_数据科学与大数据技术专业哪家强?考取难度排名前100院校出炉!...

    1.排名情况 1.1院校层次分布 2015年9月国务院推出<促进大数据发展行动纲要>,同年数据科学与大数据技术成为新增备案专业.数据科学与大数据技术距今仅发展了5年,现发展基本稳定且还处于 ...

最新文章

  1. 使用PyQT编写界面程序
  2. SAP UI5 sap.m.ListMode - ModesingleSelectMaster
  3. iOS开发UI篇—模仿ipad版QQ空间登录界面
  4. 用 python 实现各种排序算法(转)
  5. python第一个公开发行版_python之基础篇(一)
  6. maven不引入parent_Maven 如何将本地的项目发布到 Archiva 中
  7. Ubuntu下安装微信
  8. VS985破解电信4G或联通4G
  9. Verilog 38译码器
  10. 如何提高计算机软件的性能,如何提高计算机性能?
  11. go语言-LiteIDE 安装及使用教程
  12. html MP4视频浏览器播放黑屏
  13. 安装office后安装visiso后提示缺失文件的解决办法
  14. 学习Windows Phone 8开发资料汇总
  15. SQL Server2008下载链接以及安装教程
  16. 历史上的经济危机各国最后都是怎么度过或解决的?
  17. 超大Excel读取和写出(支持50万+)(一)
  18. php base64encode 长度,base64_encode
  19. 算法代码备忘录(2)
  20. mysql常用操作 mysql备份与恢复

热门文章

  1. CSU 1725 加尔鲁什·地狱咆哮对阵虚灵大盗拉法姆
  2. html如何设置hr 标签的线条粗细,设置hr标签的粗细
  3. 游戏热更新:游戏客户端热更新那点事
  4. 引用论坛、社区、问答系统的区别
  5. 如何实现一个游戏地图编辑器
  6. android 实现果冻动画效果,手把手教你绘制Android粘性果冻动画组件
  7. sessionid java_java如何获取sessionid
  8. 【OpenGrok代码搜索引擎】四、OpenGrok使用指南
  9. CTSC/APIO2018咕咕记THUPC2018打铁记
  10. 第21批符合道路运输车辆卫星定位系统标准 及规范的车载终端