魔法师与麻瓜,只隔一个大数据的距离

“大数据”,一个风靡全球的热词。

在中国,“大数据”的背后,除了技术手段和行业的崛起,与其他诸多被热炒的概念一样,泡沫感十足。对此,电子科技大学大数据研究中心主任周涛在接受时代周报记者采访时形象地举例说:“现在,任何一个能够打开excel表格的公司,都号称自己是一家大数据企业。”

到底什么是大数据企业?一千个读者有一千个哈姆雷特。

在周涛的新书《为数据而生:大数据创新实践》中,也没有给出具体的定义。他只列举了或正或反的例子。“中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中”—这是反例;相比之下,Google和阿里巴巴更像大数据企业,除了具有处理大量数据的能力外,“他们有深入的数据分析工具,并会利用数据分析的结果直接指导决策,而且经常推出基于数据分析的创新型应用”。

很多人知道周涛,是从《大数据时代》开始的。这本数年前风靡全球的大数据系统研究先河之作,其中文版的译者就是周涛。2016年1月,周涛和彼时刚刚获得诺贝尔奖的屠呦呦一起,入选“2015年度十大科技创新人物”。颁奖词提到,周涛在大数据挖掘与分析特别是网络数据的挖掘与分析方面,作出了系统性的贡献。

翻译完《大数据时代》之后,2013年起,周涛开始为《为数据而生》的撰写作准备。此间历经三年,大数据在全球范围内的应用出现了新的形式。与《大数据时代》相比,《为数据而生》更着力于介绍大数据领域的创新方法,包含了大量鲜活的大数据企业相应的商业模式和具体创新案例。

在大数据探索方面,中国的优势很明显,即数据的体量庞大。根据中国互联网信息中心发布的《中国互联网络发展状况统计报告》,截至2015年12月,中国网民规模达6.88亿,互联网普及率为50.3%,手机网民规模达6.2亿—美国的网民数量只有约2.8亿。“大数据之父”、《大数据时代》作者维克托·迈尔-舍恩伯格在上月接受《环球时报》采访时指出,“中国和部分西方国家,比如欧洲国家或者加拿大、澳大利亚相比,已经做得很好了。现在世界各国在探索大数据方面都还处于比较早期的阶段,这对于中国而言,也是一个非常好的机会。”事实上,随着百度、阿里巴巴、腾讯等国内互联网巨头公司在数据搜集方面的优势放大,这些公司正逐步开启国内的大数据应用,并各自在相应的“大数据”战略上下足了功夫。

但周涛认为,中国距离“大数据时代”还有很远的路要走。“我们目前并未形成有重大社会经济价值的大数据应用产品,并未实质性推动大数据相关传统产业的转型升级,并未为国家重大战略提供有重要价值的决策建议。”

在国内,目前,80%的数据由政府掌握,而私人公司之间的数据分享也非常有限。此外,在数据搜集方面,中国仍面临技术难题。“在中国,一些公司成长的速度非常快,但它们过于关注自身成长,并没有投入到搜集数据的基础设施建设当中。”舍恩伯格如此表述。

忽视大数据发展的国家将很难面对下一个时代的生存和发展。据国际数据公司预测,未来三年内,全球范围内“大数据”和商业分析等相关行业收入将增长到1870亿美元以上。IBM指出,全球每天有2.5万兆字节的数据添加到其日常的数据池里。这些数据来源各不相同,从天气监测传感器、社交媒体网站到数字图像和视频、在线交易以及移动电话……

“在下一个时代,自动化、定量化和个性化会成为主要的特征……拥有大数据的理念,能够掌握数据和运用数据的人,就是下一个时代的魔法师,反之,你就成了麻瓜!”在《为数据而生》的序言中,周涛写道,“即便你不能掌握一项特定的数据技术,了解大数据的理念、培养大数据的思维模式,也是非常重要的—不管你从事什么工作。”

阿里,真正的大数据企业

时代周报:你翻译过《大数据时代》,现在自己又写了一本关于大数据的书。《为数据而生》在观点上与《大数据时代》有什么区别或特点吗?

周涛:《大数据时代》一书,主要是介绍“大数据”本身与曾经的数据分析、数据统计有什么理念上的区别。在书里,舍恩伯格提出了“更多关注关联而非因果”“全体数据分析取代抽样分析”“使用模糊数据而非精准数据”等观点。而我的这本《为数据而生》一书,没有着力讲大数据概念,在介绍了大数据发展的主要驱动力之后,把叙述的重点放在了大数据领域中层次递进的创新方法上,并将其分为分析、外化和集成的三个阶段,并对各阶段相应的商业模式以及具体的创新案例进行了阐述和分析。

时代周报:什么才是真正的大数据企业?你列举了阿里和谷歌作为正面榜样。阿里在大数据方面的优势在什么地方?

周涛:阿里在大数据方面的优势有三点:它的业务产生了大量的数据;它自身具有非常强的数据存储、分析和应用的能力;它的数据分析结果可以直接应用于自身业务,所以有很畅通的数据变现的渠道。

对于很多希望成为大数据的企业而言,这三个优势应该是具有普适的启发意义的。

时代周报:建设大数据创新工厂是你的一个设想。这一设想在目前实现的可能性有多大?主要障碍在什么地方?

周涛:具体的可能性有多少,很难量化,但是我感觉非常困难。事实上,如《为数据而生》一书中所述,我们已经开发了icloudunion这个以“开放数据挖掘能力,降低将数据转化为价值的技术门槛”为使命的平台,但是这离我所希望的大数据创新工厂还很远。我觉得目前最大的障碍是,一般的企业,缺乏将业务上遇到的大问题剖析分割成几个主要数据挖掘问题的能力,这使得针对不同企业的数据挖掘服务,定制化程度非常高。反过来来说,企业也没有办法通过创新工厂提供的一些标准化服务来解决自己的问题。

大数据将颠覆哪些行业?

时代周报:在书中,你认为大数据对科技尤其是半定量的科学改变巨大。为什么这么说?

周涛:社会学、管理学、心理学等,是我所认为的半定量的学科。这些学科的一些理论是基于定性的分析,没有数量化的支持,因此严格来说不算科学的范畴。另外,一些定量化的结果,往往也是通过对少量的案例分析或针对一小部分人(往往是几十人到几百人)进行问卷调查、量表填写或行为实验得来的,这些其实都是“小数据”。

现在,我们利用大数据的方法,可以在不干预个人生活工作的前提下,获得数千万甚至数亿人的真实行为数据,这些数据的分析,可以验证或者证伪很多已知的经验理论,并且从根本上改变原来这些半定量学科方向的研究思路和研究方法。事实上,最近国际上已经有一些学者(中国也是其中一支不可小觑的力量)开始提出计算社会科学的理念和方法论。

时代周报:未来,哪些传统行业被大数据改变的机会较大?

周涛:我认为是工业—主要是指制造业,还有农业、医疗健康及生物行业。

时代周报:你在书中详解列举了成为大数据企业的措施,在这八个步骤中,哪一步是目前中国企业最缺失或薄弱的?

周涛:大部分企业,八个步骤都缺失。其中,第二步“整理数据资源,建立数据标准,形成管理规范”和第七步“推动自身数据的开放与共享”最为关键。因为只有数据流通起来,才能产生价值,第二步和第七步就是制约因素。这两步解决了,解决其他问题的动力就会自动出现了。

时代周报:有观点认为,我们身边每天都会产生大量数据,但是目前缺乏强大的IT技术基础作为支撑,将这些数据有效收集起来,并加以“净化”和有效利用。你同意这个观点吗?

周涛:我同意这个说法。我认为中国现在还没有进入到所谓的“大数据时代”。事实上,迄今为止,总体上来说,中国并未形成有重大社会经济价值的大数据应用产品,并未实质性推动大数据相关传统产业的转型升级,并未为国家重大战略提供有重要价值的决策建议。这里主要的障碍,是大数据创新的四个关键要素即“核心需求”“原始数据”“关键技术”“顶尖人才”互相分离。
本文转自d1net(转载)

魔法师与麻瓜,只隔一个大数据的距离相关推荐

  1. 成为数据专家,你只差一个Quick Insights的距离

    成为数据专家,你只差一个Quick Insights的距离 微软亚洲研究院 2015年12月22日   身处如今的大数据时代,你真的知道如何处理数据和分析数据吗?或许那些被你忽视的数据背后就暗藏着重要 ...

  2. 一个大数据应用是如何炼成的?

    经历了多年的BI专题应用建设,有幸能在一个传统企业里探索大数据应用的建设过程,发现了很多不一样的地方,获得了不同的感受,在此以一个真实的案例的建设过程来品味其中的不同,也许能获得一些启示. 课题是怎么 ...

  3. 【经典】一个大数据学习的解决方案

    从0基础小白到架构师,对于一个没入行的小白来说,想都不敢想,它不仅需要时间的磨炼,开发经验的积累,更需要有合适的机遇与平台.对于大数据技术应用方面,无论是传统行业还是互联网行业,经过这几年的发展已经相 ...

  4. 个是云计算,一个大数据,一个人工智能,

    我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提 ...

  5. 成为一个大数据开发工程师的学习步骤--文字版

    本博客搬运自我知乎所出视频成为一个大数据开发工程师的学习步骤? - 知乎大数据的学习是有条件限制的,首先你需要是一名普通的工程师,如果你是Java工程师的话更好,但如果你是小-https://www. ...

  6. 硬盘只剩下一个大分区数据恢复图文教程

    赛门铁克的Ghost是一个伟大的软件,给我们系统安装备份带来极大便利.由Ghost派生出来的克隆版操作系统安装方式被大多数朋友采用.便利工具也是双刃剑,由于一些朋友对磁盘.分区的概念不是太了解熟悉,经 ...

  7. 和实物只隔一个屏幕!华硕灵焕3Pro VR体验

    VR游戏凭借其强烈沉浸感和深度交互性受到了许多用户的追捧,游戏主机和VR头盔也成为VR游戏必备的两件"法宝".让人意想不到的是,一些二合一笔记本竟也能玩转VR.华硕新品灵焕3Pro ...

  8. 如何用开源组件“攒”出一个大数据建模平台?

    写在前面:博主是一只经过实战开发历练后投身培训事业的"小山猪",昵称取自动画片<狮子王>中的"彭彭",总是以乐观.积极的心态对待周边的事物.本人的技 ...

  9. 电视台成阿里云下一个大数据重塑目标

    本文讲的是电视台成阿里云下一个大数据重塑目标,[IT168专稿]继空调之后,电视台成为阿里云计算的下一个大数据重塑目标.3月20日下午,阿里云宣布联手新奥特.华通云数据,打造中国最大的全媒体云计算平台 ...

最新文章

  1. 在JavaScript中生成随机字符串/字符
  2. 【sparse coding】【转】sparse coding稀疏表达论文列表
  3. java编写日期_Java常用日期操作
  4. Ubuntu 14.04 文件服务器--samba的安装和配置
  5. 爬虫 页面元素变化_爬虫 基本知识 萌新
  6. c语言二叉树反序列化,序列化和反序列化二叉树
  7. 面试官:Object o = new Object() 占用了多少字节?
  8. c语言推箱子代码_C语言烂大街的东西都学不会!C语言多关卡推箱子制作教程
  9. 莫比乌斯反演(bzoj 2301: [HAOI2011]Problem b)
  10. 存图方式---邻接表邻接矩阵前向星
  11. EXCEL 中数据分析常用统计方法介绍(二)
  12. Excel操作:使用Excel制作甘特图
  13. 基于支持向量机的新闻分类
  14. xshell突然连接不上
  15. vs2017无法解析外部符号__imp__fprintf和__imp____iob_func
  16. scatter python cmap_Matplotlib.pyplot.scatter()中颜色映射cmap的可能取值
  17. STL 大锅炖(一):什么是 STL
  18. 体验Vue3.0, 仿一个网易云音乐客户端
  19. php 关键词生成,全自动无限生成关键词页面(黑帽SEO优化终极方法)
  20. hdu 1232 并查集

热门文章

  1. Unity3D——鼠标双击
  2. 软件开发中 前台、中台、后台英文_一个微服务业务系统的中台构建之路
  3. Java多线程B站爬虫与45万条视频数据,mysql批量写入性能对比,附代码
  4. 凝思linux操作系统4.2内核版本_凝思linx6.0.76操作系统安装教程
  5. 解决科研小问题 | Error: Unable to find solver DLL path from sim file
  6. 《Unity虚拟现实开发实战》——第3章,第3.6节虚拟现实设备的运行原理
  7. 【Python】ValueError: The number of classes has to be greater than one; got 1 class
  8. android 时间计划软件,时间规划管理局
  9. 基于matlab的磁悬浮控制系统,基于MATLAB的磁悬浮控制系统的研究
  10. 微信小程序上划加载下划刷新