2016年12月8日-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办的2016中国大数据技术大会(Big Data Technology Conference 2016,BDTC 2016)在北京新云南皇冠假日酒店成功举办。

中科曙光是国内高性能计算领域的领军企业,以全面、专业、增值的服务为广大中国用户提供良好的应用体验,曙光的硬件产品、解决方案、云计算服务已被广泛应用于政府、能源、互联网、教育、气象、医疗及公共事业等社会各个领域。在本次BDTC采访间,CSDN记者对中科曙光大数据总工程师、存储产品事业部副总经理宋怀明进行了专访,探讨大数据落地与融合的实践思考。


中科曙光大数据总工程师,存储产品事业部副总经理 宋怀明

宋怀明博士,高级工程师,现任中科曙光大数据总工程师,存储产品事业部副总经理。2003年本科毕业于西安交通大学计算机系,2009年博士毕业于中国科学院计算技术研究所,主要研究方向为海量数据存储和处理技术。2009~2011年间,在美国伊利诺伊理工大学从事博士后研究,在著名国际会议SC、HPDC、CCGRID、CLUSTER、ISPA、PDSW等发表多篇论文。2011年8月回国后即加入曙光公司,担任大数据研发经理和技术方向负责人,从事大数据产品的研发工作。主持研发了曙光海量结构化数据处理系统DRAC产品,曙光XData大数据一体机,曙光XData-MPP集群数据库系统,曙光XData-SDH软件(曙光Hadoop发行版软件),负责曙光大数据产品的技术规划和总体设计。所研制的大数据产品广泛应用在了新媒体、安全、政务、金融、电信等多个行业,取得了良好的社会效益和经济效益。

以下为采访实录

CSDN:能否为我们介绍下您带领的技术团队以及中科曙光在大数据方面的整体布局和战略规划?

宋怀明:在大数据概念出现之前,曙光就已经成立了大数据研发团队。之前一直在做海量数据的存储和处理工作,在2012年初左右随着大数据概念的兴起,团队整体就改造成了大数据研发团队。现在的研发团队主要分成几部分,从数据采集,到数据存储,再到数据处理和分析挖掘、到上层的数据展示,基本在数据处理流程的每一步中都有相应的小组在做研发工作和系列产品。

从公司层面看大数据布局,2015年时曙光依托于以往大数据采集、存储、分析、挖掘方面的技术积累,推出了“数据中国”战略,结合我们在全国云计算和大数据中心的建设,计划在3年内建设百余个城市云计算和大数据中心、布局百余个细分行业,以加速云数据网络布局。曙光为政府、行业、企业用户提供从顶层设计到技术支撑的整体解决方案,也吸引了众多软件厂商、应用厂商与我们合作来加速大数据应用开发,进一步推动数据价值挖掘。

CSDN:请问您怎么看待目前的大数据环境?

宋怀明:大数据时代的概念已经提出很多年了。业界的关注点从技术上逐步转移到应用上,我们把大数据的发展分成三个阶段。第一个阶段是数据的采集和汇聚,属于初级阶段,主要特征是推动数据落地。其中的关键技术是数据采集、数据汇聚和数据存储,解决了数据采集、梳理、存储、组织等问题。第二个阶段是计算发展,我们叫做计算落地。其中的主要工作是研究计算平台,来解决怎么算的问题。业界谈到较多的Hadoop、Spark、Storm等,都为数据处理提供了平台,包括批量处理、内存计算、流处理等。有了数据落地和计算落地,但这些还不是大数据的最终目的,大数据的最终目的是要实现数据价值并深化应用。这就是大数据发展的第三阶段,我们称之为应用落地或者数据价值的实现。在这个阶段,大量对行业应用有深刻理解的应用厂商会参与进来,借助数据和计算平台,将精细化的业务流程进行整合,或者把优化后的业务模型与数据计算结合在一起,真正实现数据价值,推动大数据的应用落地。

大数据经过前几年的发展,目前已进入到应用大规模落地的阶段。我觉得在大数据应用方面有四个主要的发展方向。第一,数据融合的应用。主要特征是打破数据孤岛并实现数据互联互通,包括对多源数据的汇聚和融合,数据交易和共享也属于这个范畴。第二,计算优化。有很多传统信息系统的计算精度和性能并不理想,利用大数据技术则可以提高计算速度、性能和精度。从计算精度来看,比如说天气预报,现在地图上是3公里的网格,将来天气预报的精度变成1公里,网格密度更细,刷新频率也更高。第三,化繁为简。其中主要的工作是业务流程方面,原先的数据是孤立的,因此存在操作步骤分散、流程繁琐等问题。大数据可以对这方面进行大量优化,整合数据并简化业务流程。比如政府为老百姓提供的服务,在数据整合之后,流程上可以简化办公,办一个业务不用跑多个不同的部门了,并且可以保证信息一致性。第四,模式创新。大数据技术催生了很多新的应用模式和商业模式,比如精准营销,在利用大数据技术之后每个人都有不同的个性、标签和分类,针对这些可以采用不同的营销策略。通过应用模式的创新,可以形成新的知识库和新的见解。

CSDN:您认为在大数据落地方面会面临哪些挑战?

宋怀明:这需要区分不同类别的企业。曙光作为技术型企业,优势在于前面提到的数据落地和计算落地工作。我们最大的挑战在于推动应用落地时,对业务流程、行业数据特点、计算特点等缺乏了解。另一类是对应用非常了解的应用企业和厂商,这类企业对大数据存储和计算等技术方面的积累相对少一些。在大数据应用落地的时候,希望这两类企业能够一起分析应用,将业务经验和计算技术紧密结合,共同推动大数据落地。当然其中也需要增加用户的参与度,并在参与过程中逐步提出新的需求。我认为大数据除了技术本身之外,更多的趋势是带来应用和技术的融合,以及学科之间或者行业、部门之间人员的融合。

CSDN:曙光提供的数据落地和计算落地服务,在广电传媒、公安、军工、安全、科研、教育等各行各业都得到了广泛认可。可以分享一些大数据方面的的应用案例吗?

宋怀明:曙光在“数据中国”战略布局了四个大方向:政府大数据、科学大数据、安全大数据、工业大数据。在这四个方向上持续推动大数据系统建设。

比如说早期我们做过新华社的应用,包括全球云的大数据子项,主要包括这几类业务:

  • 新闻内容特征。通过与其他厂商合作,专门针对新闻内容进行分析,形成的新闻特征库;
  • 根据用户的点击行为、浏览行为和查看行为,对用户做特征分析,设计用户行为分析和用户画像等业务;
  • 融合新闻特征分析和用户特征分析,做针对内容的个性化推荐。

另外在广电这一块做了珠江数码收视行为分析系统。珠江数码是广电运营商,用户收视行为、机顶盒的日志数据有很多。借由这些海量数据做的工作有这几类:

  • 收视分析。比如开机率、收视率、观看人数、时长等统计分析,来分析哪些节目更受哪些用户欢迎。
  • 精准营销。除了直播用户外,还重点关注点播用户,分析他们的点播需求。点播能更好发现点播人群的行为特点和关注热点,基于此在里面推荐节目和安插广告,不仅不会让用户反感,还能提高广告转化率。
  • 应用模式创新探索。通过开展新的业务模式提升特定用户的粘性,目前虽然还不完善,但已经在逐步尝试。比如说面向于少儿家庭教育的互动教育节目,可以提供交互式功能,增强互动和体验。

CSDN:刚刚的案例中涉及到日志、个性化推荐等海量数据。请问贵公司是如何提升处理性能,实现数据价值的?

宋怀明:曙光的优势在于对大规模、超大规模数据量的处理,这也是多年积累的成果。在实时数据处理方面,除了在开源技术、流处理、内存计算上有大量的积累和产品,我们也在这一块开展了前沿技术研究,比如说基于内存计算的实时处理方面,公司牵头承担863课题的研发等。在十月底的中国超算大会上我们发布了科学大数据引擎,致力于科学研究里的科学计算、数据密集型计算加速和优化。另外在数据挖掘或深度学习这一块,我们有专门的软硬件处理引擎,提供多种处理硬件和软件库来加速机器学习或深度学习的算法,满足行业对产品的需求。

CSDN:曙光在科学大数据方面的核心竞争优势在于哪里?

宋怀明:曙光连续8年在HPC TOP100排名第一,除了硬件之外,最核心的优势是我们对HPC(高性能计算)应用的理解。现在高性能计算逐渐凸显出数据密集型的趋势,曙光在这方面有专攻各个方向的博士,比如高能物理、生物计算、化学等,他们对应用的理解特别深刻,能够根据应用中的数据特点和计算特点做专门的优化。我觉得这是我们多年积累的核心竞争力,其他厂商相对来说不具备这一优势。最近推出的面向科学计算的科学大数据引擎,就将我们在HPC领域的优势与大数据存储和处理技术相结合,推动科学研究新发展。

CSDN:请问曙光在构建大数据生态系统和生态环境方面做了哪些努力?

宋怀明:曙光一直是大数据生态构建的践行者。作为技术提供者,曙光在数据采集、数据存储、数据处理、数据分析方面都有深厚的研究,但这毕竟不是最终用户的应用,所以更多地还是要和应用软件厂商合作,包括上面提到的“数据中国”战略里也涉及到要整合上下游厂商资源以形成多个产业联盟。早在2014年底时,曙光就作为牵头单位成立了中国科学院先进计算产业联盟并担当理事单位,致力于整合科学院的先进计算技术,带动产业发展。同时,曙光还是数据中心联盟、智慧城市联盟、中关村大数据联盟、上海大数据联盟等多个产业联盟的理事长或副理事长单位,目的是为了更好地整合产业链和行业资源,推动大数据生态发展及应用落地。

CSDN:您认为未来大数据会走向何处?

宋怀明:大数据最开始源起于技术,在业界多数人都认为大数据兴起和Hadoop技术的发展是同时并行的。随着这几年的发展,技术概念相对被淡化,应用逐渐被重视。我们看Gartner技术成熟度曲线,前几年大数据在成熟度曲线中非常火热,呈现快速上升、越来越火的态势。但是最近它却在曲线里消失了,当然这并不意味着大数据不存在了,而是在细分领域中逐步应用落地,比如深度学习、增强现实、虚拟现实、自然语言处理等等。再过几年,大数据的流行程度可能还会有变化,但是它带来的变化会实实在在地细分成多个领域并在我们的生活中逐步实现。

专访宋怀明:雄厚的技术依托下,曙光致力成为行业大数据生态领航者相关推荐

  1. 二、大数据技术之Hadoop --从Hadoop框架讨论大数据生态

    目录 1.从Hadoop框架讨论大数据生态 1.1 Hadoop是什么 1.2 Hadoop发展历史 1.3 Hadoop三大发行版本 1.3.1 Apache Hadoop 1.3.2 Cloude ...

  2. 专访宜信AI中台团队负责人王东:智慧金融时代,大数据和AI如何为业务赋能

    前言:宜信技术人物专访是宜信技术学院推出的系列性专题,我们邀请软件研发行业的优秀技术人,分享自己在软件研发领域的实践经验和前瞻性观点. 第一期专访我们邀请到宜信科技中心AI中台负责人王东老师,从大数据 ...

  3. 大数据生态及其技术栈

    大数据生态及其技术栈 原文:大数据生态及其技术栈 如何用形象的比喻描述大数据的技术生态?Hadoop.Hive.Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚. 今年来大数据.人工智能获 ...

  4. 华为网络技术学习打卡8(云计算大数据,openstack,docker)

    云计算 产生背景(云计算的驱动力) 技术驱动( 需求驱动(海量的数据信息给现阶段设备带来巨大的压力,云计算技术可以降低成本 商业模式转变( 其他方面,海量的数据及信息.各种各样的终端设备也促使着现阶段 ...

  5. 【转载】不是技术也能看懂云计算,大数据,人工智能

    (点击上方公众号,可快速关注) 作者: 刘超 www.cnblogs.com/popsuper1982/p/8505203.html 原标题:不是技术也能看懂云计算,大数据,人工智能 我今天要讲这三个 ...

  6. 技术分享:如何用Solr搭建大数据查询平台

    技术分享:如何用Solr搭建大数据查询平台 0×00 开头照例扯淡 自从各种脱裤门事件开始层出不穷,在下就学乖了,各个地方的密码全都改成不一样的,重要帐号的密码定期更换,生怕被人社出祖宗十八代的我,甚 ...

  7. java客服系统_阿里Java内部资料:2020最全Java技术栈(架构篇+算法篇+大数据)

    我只截图不说话,PPT大全,氛围研发篇.算法篇.大数据.Java后端架构!除了大家熟悉的交易.支付场景外,支撑起阿里双十一交易1682亿元的"超级工程"其实包括以下但不限于客服.搜 ...

  8. 直播技术:从性能参数到业务大数据,浅谈直播CDN服务监控

    线上服务的有效监控和数据收集,一直是后端服务离不开的话题.直播作为一种经典的分布式系统,监控以及数据收集更是必不可少的工作.如何对海量的服务集群有效的监控和保活,又如何抓取集群中的碎片数据中来优化服务 ...

  9. 不是技术也能看懂云计算,大数据,人工智能

    我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提 ...

最新文章

  1. swift -charts框架雷达图
  2. codis3数据迁移探索
  3. 中台不是万能药,关于中台的思考和尝试
  4. 【每日SQL打卡】​​​​​​​​​​​​​​​DAY 20丨查询球队积分【难度中等】​
  5. web.py 十分钟创建简易博客
  6. jar包在windows后台运行,通过.bat文件
  7. 【计算机网络】信息与信号
  8. 微信分享JS-SDK示例页面
  9. Laravel 使用 scout 集成 elasticsearch 做全文搜索
  10. 用JS创建一个XML文件
  11. sql用户名数据迁移到mysql_如何将SQL Server数据迁移到MySQL
  12. 在私企里,男工人能工作到退休年龄60岁吗?
  13. 细说.NET中的多线程 (四 使用锁进行同步)
  14. L1-025 正整数A+B (15 分)—团体程序设计天梯赛
  15. 使用PHP和JS对小米主题商店下载地址解析
  16. 使用spreadjs vue版本
  17. xci转化nsp_4nxci软件下载[xci游戏转nsp格式工具]v2.10-k73游戏之家
  18. 360极速浏览器的兼容模式
  19. 用python做一个木马_Python编程简单的木马程序(转载于乌云中)
  20. Latex罗马数字(一)

热门文章

  1. c# 未能找到类型或命名空间名称“ManagementClass”(是否缺少 using 指令或程序集引用?)
  2. 花式破解斐波那契数列
  3. Win10家庭版安装docker教程(含踩坑解决方案)
  4. java导出复杂excel表格_java使用freemarker导出复杂的excel表格
  5. 什么是4D(DRG、DLG、DOM、DEM)数据?
  6. Python -eventlet
  7. css3动画之太极图
  8. 计算机入门游戏,计算机DIY从入门到精通:不同用户怎么选择合适自己的CPU
  9. 电脑版微信如何多开?5个方法轻松实现
  10. Day88 Java框架 SSM分布式案例--商城(一)介绍