几个盲人分别摸到了大象的鼻子、耳朵、腿、尾巴和躯体,这张“瞎子摸象”的照片,在“2013中国计算机大会”上出现多次,好几位报告人和讲者,都不约而同地选了这张照片来表达对大数据目前研究进展的态度。

作为国内计算领域规格最高、规模最大的学术会议,“2012中国计算机大会”上,“大数据”是出现频率最高的主题词,几乎每个主讲者,每场论坛,都涉及这几个字。同时,中国计算机学会也在大会举行期间,正式成立了专家委员会,中国工程院院士李国杰担任主任。一年来,“大数据”3个字持续升温,社会对于大数据的关注也从最初的必要性、重要性转向如何获得数据,如何进行处理,如何进行利用。

    “大数据”面临大挑战


计算机大会专门组织的“大数据主题论坛”可谓高规格阵容,主讲者有中国工程院院士、中科院计算机所研究员李国杰,中国工程院院士东北大学教授柴天佑,中国科学院院士、北京大学教授鄂维南;中国科学院院士、上海交通大学副校长梅宏等。

“IT技术广泛的应用使我们获得了巨大数据,从这些数据当中我们可以得到很多东西,也使计算机系统、软件技术、生产生活,包括数学基础研究面临新的挑战和机遇。”论坛主持人、国防科技大学王怀民教授说。

梅宏院士认为信息界当前的几个最热点的问题,大数据、云计算、移动互联网本质上都是互联网计算及其延伸产生的效果,包括更快的网络带宽,更广大的网络接入,更强的计算能力,更小的计算设备和更低的存储成本。

不过,他同时也指出,大数据不仅带来对软件技术、编程语言的挑战,同时也让人类社会面临着能耗挑战,因为目前全球范围内的数据中心服务器和散热系统每年大概需要消耗30亿瓦的电能,而这相当于20座核电站的发电量。一个大型数据中心的能耗非常巨大,甚至比一座中型美国城市的耗电量还要高。

“历史上设计计算机系统的主要目标是充分发挥CPU的计算性能,较少关心如何满足持续的数据存取要求。现在存储问题尚未解决,又遇上大数据应用,计算机系统的负载发生了本质性变化,虽然CPU进展很快,每年50%~60%的增长,但负载增加更大,以前数据是围着CPU转的,现在变过来了,是围绕数据转。”李国杰院士认为,计算机系统结构需要革命性的重构,重点是数据如何“搬运”,要由过去的“大象搬木头”转变为“蚂蚁搬大米”。

李国杰院士透露,中科院网络数据科学与技术重点实验室的“网络大数据平台”,已经完成了面向网络大数据、金融大数据处理的一体机原型系统,并已经在淘宝、腾讯等相关企业和大数据情报处理领域进行了试用。

中国工程院院士柴天佑则描述了工业大数据的特殊:数据量大、类型多、变化速度快,复杂工业系统中许多机理不清,难以用数学模型来描述其特征,大数据的应用技术为研究复杂工业系统开辟了新途径。

   大数据研究和应用不能“忽悠”

“大数据是什么呢?每个人都有每个人的理解,我自己也是带着问题来的。”2013年中国计算机学会海外杰出贡献奖获得者、美国特拉华大学电子与计算机工程终身教授高光荣在做大会报告时,展示了“瞎子摸象”的照片。这位从事计算机系统结构研究的国际知名学者介绍了自己近些年从事数据研究的成果。不过,他认为“大数据”的提法过热,明显有炒作的味道,急于求成,“做研究不要贪快,有些研究不会立竿见影,一项研究工作需要很多年。无论是美国还是中国,我们在大数据研究上,都才刚刚开始。”他用了一个新学会的词:不能“忽悠”。

不过,在大数据主题论坛上,高光荣教授仍未得到答案。

当李国杰院士从系统结构的角度,柴天佑院士从工业应用,鄂维南院士是从数学的角度,梅宏院士从软件的角度进行一一阐述之后,一名学生提出了一个问题:“能不能请各位老师用一句话说说大数据的本质是什么?大数据带来什么样的变化?”

一句话说清一个问题似乎让主讲者都有些为难。

柴天佑院士认为,从用大数据进行研究的角度来谈,超出现有的理论方法技术、工具,能处理一个数据群就叫大数据。

而李国杰院士认为,大数据被“大”字给忽悠了,它更多的是多样化、变化快,不仅有快数据,还有真伪两方面的数据。大数据是一个处理数据的方法,不是数据本身的规模。

梅宏直接表示很难回答:“大数据这个词不是技术生产科学意义比较明确的定义,它给人的联想太多的空间了。用一句话我说不出来。”

之前,他提到大数据将不会是一个可完全“解决”的问题,只能是逐步“逼近”、缓解的技术,目前尚不存在有效的大数据技术。

针对研究人员如何获数据的问题,李国杰院士回答,政府应该是首要的公众数据来源者,政府掌握大量的各类数据,但是现在数据公开还没有做好。此外,研究人员还可以向企业要数据,通过协议相互交换,搞技术的、做科学研究的共同交流才能出成果。

 大数据研究人员短缺

计算机大会的特邀讲者,来自美国北卡来罗纳州立大学分校史德利·阿霍尔特(Stahley.Ahalt)教授是创新计算研究所的负责人,他认为,大数据已经存在,需要新的工具来使数据消费者进行大规模应用。

在他看来,数据的产生者包括大学、政府、医疗保健机构、工业界等,而数据使用者是科学家、公民、政府、医务人员、商业界。“从2010年开始,每两天产生的数据就相当于历史上到2003年产生的数据总和。所以需要数据科学,对这些数据进行分析、挖掘,利用。互联网使得数据的移动、共享和发现更容易;更快的处理器,更多和更廉价的存储容量”

他介绍了大数据在美国社会管理、风暴潮预测以及生物基因诊断方面的成功应用。一家名为美国快捷药方的公司宣称已有10亿个药方数据用于分析,使病人的邮购处方更为合理经济。他们通过预测模型,找到了400个影响因素,来发现因病人不遵循用药规定带来的风险,而这一项每年带来的损失高达3170亿美元。UPS公司通过分析从成千上万台送货车上传感器传回的数据,减少530万英里行程,减少发动机的闲置达1000万分钟,节省65万加伦的燃料,减少二氧化碳排放量达6500公吨。

阿霍尔特教授提供了一系列数字,大数据的应用可以使美国每年节省医疗节省费用达到3000亿美元,这相当于西班牙全年的医疗保健花费;欧洲公共管理部门每年可节省2500亿欧元;节省1%的汽油油耗,15年可以节省680亿美元;采用数据信息决策的公司,可使生产率提升5%~6%。

而因为大数据开发及使用,也可以创造无数新的工作机会。全球范围内,到2015年,大数据和分析工作机会有望超过400万个。

每个大数据的工作能够产生3个相关的工作。对于美国而言,到2015年,将有190万新的大数据工作机会,但将由于人才短缺,仅有1/3的岗位能招到人。2020年,美国针对数据相关的管理员和软件开发者的需求预计增长约32%。

在2012年的一项调查中,78%的被调查者认为确实存在大数据方面的人才短缺。那么大数据科学家要具备什么样的IT技能呢?阿霍尔特表示,数据科学家要对计算机科学背景有全面了解,包括对应用软件、建模、数据、分析等,要有商业头脑,以及对数据提炼融合的能力。数据科学家还“必须能够获取数据集,对它们进行数学建模,以及懂得建立模型的所需要的数学理论。他们必须能发现并阐明数据揭示的问题,即从数据中发现合适的问题。”

大数据培训进修班第二期来临,更强的师资阵容,全新的课程安排,多面的大数据讲解与现场实训,还在等什么,马上报名吧。

参加相关培训并通过考试的学员,可以获得: 1.由人力资源和社会保障部中国高级公务员培训中心、全国信息化计算机应用技术水平教育培训管理中心颁发《大数据技术工程师技术水平教育培训》证书。该证书可在人社部中国国家人事人才培训网查询(http://www.chinanet.gov.cn),可作为能力评价、考核和任职的重要依据。 2.中国科学院计算技术研究所教育中心颁发的《大数据技术工程师》培训证书。

大数据技术已经成为互联网后的又一个里程碑意义的科技革命与生产力革命,也是产业结构战略调整的战略机遇。如何管理自身的业务大数据,从中获取智慧,对传统业务再造并实巨大价值的产品和服务?如何将大数据困境转换为大数据宝藏?如何从大数据概念炒作到实践落地?

由北京理工大学大数据搜索挖掘实验室、中国科学院计算技术研究所教育中心联合主办,大数据论坛联合承办,开设大数据技术进修班。聘请北京理工大学赵燕平教授、张华平博士、北京市外办信息中心姜伟主任、英特尔中国研究院首席工程师吴甘沙、清华大学马宝君博士等知名专家全面讲授大数据架构、大数据搜索、大数据挖掘以及大数据应用四大板块,分享亲身经历的大数据应用,并为学员提供大数据搜索挖掘工具的实训。

本次培训讲师:

张华平:北京理工大学大数据搜索挖掘实验室主任,博士,副教授

李德伟:国家工商总局行政学院副院长

赵燕平:北京理工大学教授,教育部电子商务专家

姜伟:北京市外事办信息中心主任

吴甘沙:英特尔中国研究院首席工程师

马宝君:清华大学搜索评价与推荐系统专家

杨泽明:中科院高能物理研究所副研究员

价格:4980元 (包含发票,讲义,教材,工作餐,与讲师互动自助晚餐会); 老学员或同单位三人以上报名九折优惠;全日制学生凭学生证优惠价格2980元,不含发票。差旅及食宿费用自理。

地址:北京理工大学理工国际交流中心

课程介绍:

13日

张华平    《科学的大数据观》

李德伟    《大数据的哲学思考》

吴甘沙    《大数据架构、计算范式与应用实践》

杨泽明    《云计算关键技术与应用实训》

14日

张华平    《大数据精准搜索关键技术》

李望      《实训演练》(JZSearch大数据精准搜索引擎实训演练)

张华平    《大数据挖掘关键技术》

学员互动  《NLPIR大数据挖掘平台学员实训》

15日

姜伟      《大数据背景下的电子政务实践》

马宝君    《大数据背景下的电子商务实践》

张华平    《大数据答疑解惑》(针对每个学员事先准备的问题,每个人3分钟机会;然后根据投票结果选取3个经典问题进行综述。)

【报名通道】:  http://www.lingjoin.com/bigdatatrain/

报名电话:13681251543   010-62648067

转载于:https://my.oschina.net/u/1160813/blog/175034

大数据研究,不能“忽悠”相关推荐

  1. 深证信息等三方拟联合开展大数据研究

    昨日,深圳证券信息有限公司(下称"深证信息").泛欧交易所.北京新浪互联信息服务有限公司(下称"新浪网")联合签署了合作备忘录,三方将基于各自优势在互联网大数据 ...

  2. 清华中德大数据研究学生交换项目成果报告会成功举办

    由数据科学研究院资助,启动于2017年3月的"清华大学与德国哥廷根大学交换留学生"项目阶段成果报告会2019年4月6日于清华大学熊知行楼举办. 数据科学研究院执行副院长韩亦舜以&q ...

  3. 徐宗本院士讲座《关于大数据研究下的若干问题》摘记

    今天早上屁颠屁颠地跑去听了徐宗本院士的:关于大数据研究的若个问题 觉得还不错,由于徐教授横跨数学与管理两方面,所以讲的角度还有深度刚刚好 在我的接受范围内.讲座主要从下面三个方面来讲的: 1 关于大数 ...

  4. 万物互联大数据研究正式展开人才紧缺

    当人们打电话.聊QQ.发微信.刷微博,以及阅读.游戏.购物.看病.旅游时,也在不断产生新数据,堆砌着庞大的"数据库":而通过大数据分析,可以预测交通路况实况,比如百度地图的实时公交 ...

  5. 上海推进大数据研究与发展三年行动计划(2013-2015年)

    发布时间:2013-07-12 前言 在国家和上海市"十二五"科技发展规划及<上海市中长期科学与技术发展规划纲要>指导下,上海市科学技术委员会通过近一年时间的充分调研和 ...

  6. 浙江省电子商务大数据研究所在温州成立

    今天上午,浙江省电子商务大数据研究所在鹿城区府举行了揭牌仪式,浙江省商务厅为温州中津先进科技研究院授牌为"浙江省电子商务大数据研究基地". 仪式上,浙江省电子商务促进中心主任阮刚辉 ...

  7. 大数据研究的若干科学问题——徐宗本

    什么是大数据? 维基百科:大数据是指无法在容许的时间内用常规的软件工具对其内容进行抓取.管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在十几TB和PB之间. 大数据:不能 ...

  8. 大数据研究的历史先驱:麦肯锡(McKinsey)

    众所周知,美国咨询公司麦肯锡(McKinsey)成立于1924年,现有职工17,000余人,年收入达78亿美元,不是"小门帘"个体户. 2011年5月,麦肯锡发表著名的研究报告,题 ...

  9. 近期活动盘点:心电数据标注系统和深度学习诊断算法研究、2019年第六届清华大学大数据社会科学讲习班...

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 第四期医工结合研讨会:心电数据标注系统和深度学习诊断算法研究 2019年7月11日 7月11日,"医工结合系列研讨会第四期会议: ...

最新文章

  1. 浅谈Android保护技术__代码混淆
  2. AIX系统文件安全性方面的几点考虑
  3. 使用 Electron 从协议处理器启动应用程序
  4. PL/SQL 数据库连接工具的下载、安装与使用实例演示
  5. 【SKILLS】About the phonetics
  6. 贪心法——LeetCode 55 跳跃游戏
  7. Linux下G++编译
  8. 谷歌恐龙游戏HTML,谷歌浏览器小恐龙游戏
  9. 线性表表长是否要算入头结点
  10. e-Learning e-learning 创造竞争优势
  11. 斗鱼封禁主播陈一发,新媒体有出路吗?
  12. java isbn_Java ISBN formating
  13. 记一次烧毁AO3400的过程
  14. 一张图看晕人民的名义
  15. PLC常用标志位信号时序编程注意事项
  16. 【HTML5】基础教程
  17. linux下进入隐藏文件夹命令,Linux命令-----grep不查找隐藏文件夹的方法
  18. 大数据处理与分析方向主要干什么_大数据分析_方向_方法与工具
  19. 微信小程序-网络请求
  20. 【2021 CSDN年度报告】看看你今年有收获没?

热门文章

  1. 【云原生-K8s】k8s常用命令大全-持续更新【kubectl】
  2. 计算机的硬盘有几个分区,电脑硬盘分几个区合适,电脑硬盘怎么分区最合理?
  3. 利用 Xposed 快速实现一个简易微信机器人
  4. java虚拟函数_java实现多态中的虚函数相关概念
  5. 干货 | 携程Dynamo风格存储的落地实践
  6. STAR-CCM+ 计算RAE-2822翼型在FATP巡航状态下不同攻角下的升力系数。
  7. python机器学习实现oneR算法 以鸢尾data为例
  8. OL3中结合Jquery UI实现图层拖动并改变图层顺序
  9. SpringCloud五大神兽之Eureka服务注册(三)——Eureka的自我保护
  10. MHDD修复UNC和TIMEOUT