2015年3月22日,新智能时代论坛在北京举行,华大基因董事长汪建作开场演讲。

近几十年来基因生命科学飞速发展,汪建董事长在演讲中对未来生命大数据治疗、防控疾病的前景作了展望,并强调了生命大数据的重要性。他指出,近几年,我国的肿瘤发病率和心脑血管疾病的死亡率直线上升;环境和其他原因带来的健康问题日益增多;出生缺陷、恶性肿瘤、心脑血管病等重大疾病都与基因有关,没有大数据和人工智能,这些问题都无法得到解决。
汪建董事长认为,健康和疾病防控是每个人的需求,也是人类最重大的目标,科学技术是实现这一目标的最主要手段,从基因到疾病的全部数据分析,全部人工智能化,这是未来我们面临的最大挑战。

附:汪建董事长演讲全文

今天11点钟的时候跟我说要来讲点东西,策划一个想法,本来名字叫做智慧人生,“惠”我改成了实惠的惠,最近在商量智惠城市,我说城市这个东西是干巴巴的,围绕着社会发展,工业革命对财富的追求变成了主流了,那玩意儿生不带来,死不带去,大家把生命的重要性往往都遗忘了,特别是最近几年来,我们国家的肿瘤发病率直线上升,心脑血管的死亡率直线上升,加上环境等各种各样的问题。

人生一个很重要的问题就是对生命负责,对自己负责,在工业的大潮中,人工智能的开放发展中,把一些人生根本的东西都忘记了。我就跟杨静说能否来参与一下,听一听,结果主持人让我先讲几分钟,这是我两个月前在科技部科技大会上给科技部的领导同志的汇报内容,我就简单的讲一下。

大数据有助于解决健康问题

首先讲一下生命大数据的重要性。现在人类已知的疾病,大概有1万种,各国批准的临床诊断标准,有标准的诊断方法,全球批准了大概3000种。美国人批准的药物是4600种,粗粗的算了一下中国是3000种,中国有3万-4万家医院,近1千万的医务人员,这几个数字列在一起,3000种,3-4万,1千万,最后的结论就是三个字,就是不靠谱,到医院去不靠谱。

我们为了工业发展,人为财死天经地义,我们的生老病死就是听天由命了,特别是中关村这一带,没有人把生命科学研究,把生命放在最重要的位置。这几个数字一说,如果不把自己当回事,到医院去,就这一组大数据就蒙了,不可能解决问题。现在我们所有的疾病都是倒着走的,生病了到医院去,给你谈谈,估计一下,你是感冒了,咳嗽了,拉肚子,分科,分系统,做个X光,抽血检测就给药了,对不对你自己看着办吧。

其实现在重大的疾病,所有的出生缺陷是不是就是一个基因病呢?所有的肿瘤是不是就是一个基因病呢?今天我们的医院没有手段对这方面进行检测,也没有手段闹明白。为什么弄不明白,我讲了很多次了,一个人全身有10的14次方的细胞,每个细胞携带的基因数,ATCG四种碱基的数目是6乘10的9次方,15年前为了破译这个6乘10的9次方,美国政府牵头30亿美元,6个国家参与,我们有幸代表中国,那个时候我还在中国科学院,也参与这个计划。人类花30亿美元做一个人的基因组,而且花了13年的时间。所以我们的医学科技,中关村没有一个人敢碰这个领域。当时我们比较猛,就干了这事,参与了人类基因组计划的1%。到了10年以后,我们再做一个人类基因组,就花了几百万,到今年这个时候,对外的市场价格,用一个大家好记的数字就是3800美金。我在科技部表态,争取在明年做到几千人民币。

大数据需要有存储平台的支持

从30亿美元做到今天,看得见,摸得着的几千块钱的话,这种变化速度是三到五倍的摩尔定律的发展速度,我们叫超摩尔定律,是一个摩尔定律的“变种”,华大基因有幸最早,一做这个项目就和曙光超算合作,后来和总参的神州超算,后来又跟天河超算,我们现在使用了天河一号一半的运算量,天河二号的30%-40%。我个人的健康数据是4个Tb,我们过去每年是10-30Pb的速度产出,或许明年会10倍的速度增长。可能要不了一两年,按照国家的要求,2017年我们自己产出的原始数据是1个EB,就是10的18次方,今天的天河二号承载不了,今天的存储也承载不了,财政的压力非常大。这样的数据靠医学界和生物界是没有办法承载的。

现在大家都往三甲医院跑,都去协和,它也没有办法回答。心脑血管病很多是最后发病的时候才发现,肿瘤也是这样的,没有大数据,没有人工智能,是不可能解决这些问题的。所以说今天有机会到这里来跟大家交流一下,第一点是10的9次方个基因,10的14次方个细胞,我们人身上是20种氨基酸,排列组合是10的19次方,小分子,各种元素周期表100多元素,在我们身上有85种,跟蛋白质,其他分子的排列组合和作用是多少,不知道。

我们的细胞是10的14次方,绿色的线是摩尔定律,华大存储和计算能力的实际增长,这不是模拟的,是把过去的10年实际的增长画了一条线。几倍的摩尔定律,但是很遗憾的是除了刚才碰到的杨强在跟我合作,在座的诸位都没有跟我们合作,当年我们在北京的时候还和计算所李老师有一些合作,我们离开了以后和计算所的合作也基本上断了。今天来这里就是请大家注意这块(基因、蛋白质、小分子),这些数字,是生命真正的大数据,过去医学只有集中在这块(人体、系统、组织、器官、细胞),所以说中华人民共和国医学大数据做得最好的就是北大的一家医院,是惟一的一个中国人拿到美国临床医学数字化认证的,积累了25年的数据是60Tb,如果乘上刚才讲的这些东西——我一个人就是4个Tb的话,会是什么样子,这是不可思议的事情。

基因组科学研究有利于生命进化及育种研究

华大基因经常做一些稀奇古怪的事情,去年12月份做了鸟类的研究,《Science》专刊发了28篇论文。华大是民营机构,基础科研是我们“吃饱了撑的”,显示我们的“虚荣心”,显示我们比别人厉害,是自达尔文以来第一次用数字化的方式把鸟类的迁徙、进化和变迁研究出来。这是典型的生命进化的大数据。

这个是育种的,我们是把所有的相关物种全部测序了,和杨强他们合作的项目,他说又有很多的进展,上次的预测准确率是92.8%,是不是又有进步了。换句话说,可能用不了两三年,我的实验室里面就能预测出我们培育出什么样的种子,很高兴的报告杨强。大家都以为我们是做一个人工智能的育种的模拟试验而已,但是今年我们种地已经种了35万亩了,这个产业他们现在估计五到十年之内就可以做到万亿,就这一个项目。这是河南大旱,玉米地颗粒无收,小米平均产量1100斤,平均收入6800块钱。

小米加步枪,江山社稷,粮草先行,因为中国的品种没有人育种,中国就被打败了,我们要让小米重返主战场。今年是35万亩,明年就是350万亩,后年就是3000万亩,一亩地6000块钱,除以2是3000,再除2是1500,就是几百亿的产值了。比尔盖茨一次一次又一次的往我们这里跑,一待就是五六个小时,希望我们跟他全面的合作。

大数据有利于防控出生缺陷

我们的目标非常简单,中国出生缺陷,能不能拿下去。弃婴岛这样的情况是不能再发生了,这个数据我们是能够做到的。这些孩子,一针致聋都可以解决的,100万人,大数据分析,国际上全球形成一个联盟,我们来牵头,提供最便宜的,相当于创客的模式,核心技术,把数据拿出来,估计几年内就是几百个P的数据,怎么分析,希望大家帮忙,我到处呼吁。肿瘤也是一样的,我们先把基因拿出来看一下肺癌,早期的时候这是癌症病人的肿瘤标志物,正常人的有一点点信号,我们现在比早期X光诊断提早好几个月。肿瘤是可以早期预防的。

肠道微生物的大数据研究与应用

讲人类基因的时候遇到一个很重要的问题,肠道微生物对我们起到很强大的作用,一对同卵双生的双胞胎,基因是一样的,为什么差这么多(一个胖一个瘦),这是王俊的重要贡献,今天上午他在峰会上讲BT和IT的融合,整个深圳非常的轰动,从来没有见过这样大规模的谈这个。这一篇文章当时评为影响世界的二十一世纪前十个科学热点,当年他是36岁,因此被评为影响世界的十大科技人物。因为粪便里面有几千种细菌,几百万个基因,分不开的,是一个数据模型,我们用几万个CPU算了好几个月,基本上分辨出来了,组装起来了,那是一个划时代的影响,是一个典型的大数据。

我个人,我过去的血是这样的,红细胞离心后血浆是乳白色的,血压是这样的,我十几年前在北京诊断为冠心病,现在怎么样了,就把肠道微生物一调,高血压就没有了,血糖降下去了,冠心病没有了,冠心病好了,我自己把我早年的科学论文找出来了,我说动脉硬化是可以消退的。但是怎么样形成更加智能化的系统,我告诉大家不知道,我们得做100万人,一个人1个T的数据就是一个Eb的数据。出生缺陷,深圳市政府研究讨论100万支持我们这个项目,肿瘤,今天下午接着讨论100万肿瘤的项目怎么做,100万心脑血管病的项目怎么做,我60多岁的,更关心活得更长,老年的每一百万就是一个Eb的数据量。我们在生命医学科技界没有能力处理这个,而且这些数据的采集和搜集过程还需要机器人,需要降低成本,批量化的前提下,因为这个数据是人生的最宝贵的东西。

基因组学研究,我们与国际同步

在过去的原子弹爆炸和登月我们都比人家落后,人类基因组计划方面我们和人家是齐步的。华大作为民间机构有点“虚荣心”——中国的科研机构排名第五,生命科学领域排名第二,为深圳基础科研做出的贡献率是49%——我们没有义务做基础科研,虚荣心作祟跟人家比划比划。另外很重要的是技术平台,华大基因分析的技术平台全部国产化了,我们自己国产化了,现在已经花了24亿了,加上原来的十几个亿,就这个平台的建设,加上国家基因库,加上计算系统,100亿的平台建设,我们绝对在世界上处于一个强势领先的地位。在部分上跟美国有一拼,其他的国家没有对手,科学论文去年是49篇国际顶尖论文发表,国产化的机器使得我们真正的提出为人民服务的大口号,可以在大数据,大平台实现大科学和大产业的全贯穿,但是从科学到产业,现在是政策法规的问题,是智能化的问题,我们遇到了这些问题。

大数据未来应用的挑战

过去我们非常害怕的是各种遗传病,传染性疾病,德国的大肠杆菌我们花了两天的时间做出来了,前几天的埃博拉,在非洲的基础平台建设是我们做的。最后还想回到生的优,病得少,活得长,死得快,这是每个人的需求,我指活得长是120岁以上,120岁以上还要慢慢死是自己折磨自己了。我想这是人类最重大的目标,在实现这个目标的过程中,科学技术是最主要的,这中间的科学技术我们遇到最大的挑战就是整个试验的过程全部自动化,全部数据分析,从基因到疾病的分析,人工智能化,这是未来最大的挑战。我现在没有看见哪一个数据,所谓的所有的大数据,哪一个靠近我们,连边都没有。我去核高院跟他们谈核能的力量,他们的数据量,十分之一都到不了,航天也不如我们大,这种大数据,而且这组数据的保障,宝贵性,也是不可以相比的。为了我们自己的健康,我们一起来做生命科学的大数据!谢谢大家。

作者:汪建

转载自36大数据(36dsj.com):36大数据 » 生命大数据(22页PPT图文详解版 华大基因董事长汪建)

生命大数据(22页PPT图文详解版 华大基因董事长汪建)相关推荐

  1. 【大数据OLAP引擎】图文详解 Apache Doris 架构

    深入了解Apache Doris 一.Apache Doris介绍 Apache Doris 是一个基于 MPP 架构的高性能.实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可 ...

  2. 阿里架构总监一次讲透中台架构,13页PPT精华详解,建议收藏

    阿里架构总监一次讲透中台架构,13页PPT精华详解,建议收藏 https://www.toutiao.com/i6733390971112784391/?tt_from=weixin&utm_ ...

  3. tracepro应用实例详解_建筑安装工程造价,高清PPT图文详解,小白也能学会的简单步骤...

    建筑安装工程造价,高清PPT图文详解,小白也能学会的简单流程 工程造价的直意就是工程的建造价格,是指进行某项工程建设所花费的全部费用.工程造价在工程中是很关键的存在,是工程能够取得的关键:对工程建设的 ...

  4. hadoop大数据平台架构之DKhadoop详解

    hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...

  5. 大数据技术Hbase 和 Hive 详解

    目录 两者的特点 各自的限制 应用场景 大数据技术Hbase 和 Hive 详解, 今天给大家介绍一下关于零基础学习大数据视频教程之HBASE 和 HIVE 是多么重要的技术,那么两者有什么区别呢 ? ...

  6. 蚂蚁金服:金融智能中台建设实践,25页PPT干货详解!

    来源:蚂蚁金服    整理:Daniel 转载自:BAT架构(ID:kbcs2019) 蚂蚁金服的同学,虽然暂时听不到财富自由的声音,但是技术底座夯实,还是非常牛逼的.钱财嘛都是浮云,留着青山在,早晚 ...

  7. 阿里架构总监一次讲透中台架构,13页PPT精华详解,建议收藏!

    文/技术领导力社区 编辑/Emma 本文整理了阿里几位技术专家,如架构总监 谢纯良,中间件技术专家 玄难等几位大牛,关于中台架构的几次分享内容,将业务中台形态.中台全局架构.业务中台化.中台架构图.中 ...

  8. 【业界实战】小米大数据总监司马云瑞详解小米用户画像的演进及应用解读

    原文链接:https://mp.weixin.qq.com/s/95Zklj8ovheQV3Gnc-2h-Q 亮点: "这里以性别预测为例,一方面,小米有大量的帐号/手环/支付/VIP数据, ...

  9. Gartner重磅发布近40页PPT,详解2017年十大战略技术趋势

    来源:中国大数据 概要:Gartner将战略科技发展趋势定义为具有颠覆性潜力.脱离初级阶段且影响范围和用途不断扩大的战略科技发展趋势,这些趋势在未来五年内迅速增长.高度波动.预计达到临界点. 近日Ga ...

最新文章

  1. 费用保险单,如何失焦时自动补零
  2. 融资2.75亿美元的老牌AR公司,倒了
  3. UIView CALayer
  4. Device eth0 does not seem to be present,delaying initialization.
  5. 计算机一级怎么描述,计算机一级「关于RGB正确的描述的是」相关单选题
  6. C语言 printf函数实现
  7. ubuntun 16.04环境安装Caffe过程
  8. 是可改写的随机存储器_PPT下载:磁阻随机存取存储器
  9. ASP .NET 如何在 SQL 查询层面实现分页 1
  10. 为什么有些小老板,做了一辈子,还是没办法发展大?
  11. #includeiostream与#includeiostream.h的区别
  12. 笑看 等什么君 简谱
  13. 【干货】Excel中的换行符,这几种用法你会哪些?
  14. 基于Python爬虫的电影数据可视化分析
  15. 001_扎马步_初识hadoop
  16. python3,烤地瓜案例
  17. 基于python的个人博客系统的设计开题报告_基于SSM的个人博客系统设计开题报告...
  18. ★Kali信息收集★8.Nmap :端口扫描
  19. 原码,反码,补码,加法减法在计算机内存中的运算方法
  20. getchar消除回车符号

热门文章

  1. 能源系统建模:python读取GCAM的xml数据文件
  2. 获得html页面的iframe,iframe属性值获取
  3. Ubuntu16.04 手动更新Chrome 浏览器
  4. AcWing 1613. 数独简单版
  5. 2018-8-10-使用-ahk-让普通键盘变为Dvorak键盘
  6. POE技术原理及硬件实现
  7. 山科大OJ-Promble 1178(分数统计)
  8. win10安装miniconda3+pytorch1.2.0+cuda9.2+cudnn7.6.5.32
  9. 谷歌浏览器设置代理服务器
  10. 面向对象测试题(含答案和解析)