转载自:http://blog.sciencenet.cn/blog-4099-781642.html


一页纸说清楚“什么是大数据

“大数据”(Big Data)是“数据化”趋势下的必然产物。数据化带来了两个重大的变化。一是数据量的爆炸性剧增,最近几年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和。以前网上的3D模型非常少,而目前仅Shapeways这一个网站上的3D模型,就已突破了100万个。二是数据来源的多样化以及异构性,比如介绍某款手机产品的网页,既有文本、语音,还有视频、图像、3D模型等,从各个方面展示了该产品的特征,这种多源性也有助于滤除数据噪声、交叉验证。数据间是否具有结构性和关联性,是“大数据”与“大规模数据”的重要差别;“大数据”这一概念中包含着对数据对象的处理行为,即快速挖掘和展现其中蕴含着的有价值信息。

大数据的特点可总结为4个“V”——Volume(体量巨大)、Variety(类型多样)、Value(价值密度低,商业价值高)、Velocity(处理速度快)。牛津大学互联网研究所维克托·迈尔·舍恩伯格教授指出,“大数据”所代表的是当今网络社会所独有的一种新型能力──通过对海量数据进行分析,来获得有巨大价值的产品和服务或深刻的洞见。例如,你在网上买书时,网站根据你之前的购买记录快速推测你的阅读类型(比如你喜欢魔幻武侠小说),然后把当前最热门的3部魔幻武侠小说显示在网页最醒目的位置,以便激发你的购买欲。因此,可利用大数据对客户群进行细分,通过分析其既往行为,推测他们潜在的意图、习惯和计划,以实现精准营销。

大数据时代会颠覆许多传统思维,在哲学层面体现为“经验主义”比“理性主义”更多地被人们所采用。以前人们总在探寻问题的因果:事物为什么会这样?但现在,人们更关心结论。比如,从大量数据分析得出冬天第一场雪过后大白菜价格会涨大概两倍,那么商家会更乐意利用这个结论来关注天气预报并伺机囤积大白菜,而不会像专家那样坐在一起讨论为什么第一场冬雪后大白菜会涨价、为什么是涨两倍而不是涨3.2倍。大数据也意味着对效率的追求,而不是去过分追求数值上的精确。

专家的价值在于因果分析,而大数据却放弃对因果关系(Causality)的追求,仅关注相关关系(Correlation)。也就是说,只需要知道“是什么”,而不需要知道“为什么”。这种变化已经远远突破了技术层面,将对人类认识世界的哲学观产生重大影响。因果关系只是相关关系中特殊的一种,大数据告诉我们很多情况下只要关注相关关系以做出预测就够了。另一种可能的解释是,数据是不会骗人的,而人(即使是专家)的见解往往是主观和偏见的。当然,我们并不是说逻辑性的因果关系不重要,而是我们一开始往往会迷失在纷乱繁杂的数据海洋中、毫无头绪,所以这时就可首先想办法获得统计意义上的相关关系,然后再考虑从中提取出逻辑性的因果关系。这其实很好理解:当我们对数据无法直接获得可解释性时,那就试着先观察出这些数据的统计规律性(“是什么”),然后再针对这些规律进行解释(“为什么”)。

大数据还有一个巨大的优势是,可利用通用的的统计学模型代替各种各样的专家系统,“以不变应万变”。例如,基于大数据(包罗万象的语料数据),Google的翻译算法可统一实现几十种语言(英语、汉语、法语、韩语、拉丁语等等)的互译,而无须针对每种语言定制专门的语法专家系统。IBM 公司的 Fred Jelinek院士是利用大数据进行统计语音识别与合成的著名学者,他曾说过一句著名的论点:“每当我解雇一个语言学家,语音识别系统的性能就会改善一些”。

大数据是网络社会在掌握海量数据收集、存储和处理技术基础上所产生的一种进行判断和预测的能力。专家往往希望归纳出一个模型,而在大数据时代,数据直接自己“说话”,变得比模型更重要,因为再复杂的模型也无法包罗万象。而当数据“大”(多)到能对几乎整个样本空间进行充分覆盖时,就可以减弱对理论和模型的依赖,不再需要通过模型去经历“从特殊归纳(Induce)到一般,再从一般演绎(Deduce)到特殊”的传统流程,而是利用大数据去直接实现“从特殊到特殊”的判断和预测(这种直接的方式也被称为转导,Transduce),因为大数据中已经包含了足够多的“特殊”样本以供参考。换言之,此时数据本身便是模型,也即大数据可实现全样而非抽样(现实中要获得代表真实情况的抽样非常难,比如可能会因为抽样不够全面而遭遇“黑天鹅事件”)。

大数据将给整个社会带来从生活到思维上革命性的变化:人们所接受的服务,将以数字化和个性化的方式呈现,借助3D打印技术和智能数字化,零售业和医疗业也将实现数字化和个性化的服务。

扩展:除了大数据,还有所谓的小数据(iData)。小数据跟大数据的根本区别在于:小数据以单个人(个体)为唯一对象,重点在于深度,即像一位忠诚细致的“个人管家”那样对个人数据进行全方位、全天候地深入精确分析,同时还可主动灵活地设置各种外界访问权限以保护个人隐私;而大数据则侧重在某个领域(群体),大范围、大规模地进行数据的全面收集处理分析,侧重点在于广度。

目前,Hadoop是最为流行的大数据处理平台,是一个开源的、可运行于大规模集群上的分布式并行编程框架,由分布式文件系统(如HDFS)、数据库(如HBase,属于NoSQL类型的数据库)、数据处理模块(如分布式编程模型MapReduce)等组成。借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于大规模集群上,从而完成大数据的计算。除了Hadoop,此外还有另一个高效的分布式并行计算系统Spark,通用性更好、迭代运算效率更高、容错能力更强,目前其发展势头正逐渐盖过Hadoop。

扩展:数据挖掘不仅与统计学习有关,而且与信息论紧密相关。所谓信息,根据信息论创始人香农(Claude Elwood Shannon)的说法:“凡是在一种情况下能减少不确定性的任何事物都叫做信息”。在信息论中,使用信息熵(Entropy、Shannon Entropy,简称:熵)来评估信息量的大小,即不确定性的度量:

通过上式可以看出信息熵被定义为信息()的期望值,单位为比特(bit)。事件的不确定性越大,则信息熵就越大(也即把它搞清楚所需的信息量就越大)。比如,“人咬狗”相比于“狗咬人”是小概率事件,可能性小,不确定性大,因此熵更大。

条件熵(Conditional Entropy)的定义:

可证明,也即如果增加了(与相关的)的信息,的不确定性下降了。类似地,还有
那么,到底有多相关呢?我们可通过互信息(Mutual Information)来量化地度量“相关性”:
        

比如,“计算机”和“鼠标”这两个词的互信息就比“计算机”和“牙刷”的互信息更大,因为前者更相关。
相对熵(Relative Entropy),又叫KL距离(Kullback-Leibler Divergence,KL散度)、信息增益(Information Gain)、信息散度(Information Divergence):
               

不同于前面的熵和互信息(它们衡量的是随机变量的关系),相对熵衡量的是两个概率分布函数的差异程度。

一页纸说清楚“什么是大数据”相关推荐

  1. 【数字智能三篇】之一: 一页纸说清楚“什么是大数据”

    按:[数字智能三篇] 目前"大数据"."推荐系统"."深度学习"是数字智能领域的热点研究方向,相关的书籍也很火热,比如"大数据&q ...

  2. 65页PPT|数字化转型中的大数据治理如何落地

    推荐阅读: 世界的真实格局分析,地球人类社会底层运行原理 不是你需要中台,而是一名合格的架构师(附各大厂中台建设PPT)企业IT技术架构规划方案论数字化转型--转什么,如何转?华为干部与人才发展手册( ...

  3. 118页4万字智慧检务大数据平台解决方案

    [版权声明]本资料来源网络,知识分享,仅供个人学习,请勿商用. [侵删致歉]如有侵权请联系小编,将在收到信息后第一时间删除! 完整资料领取见文末,部分资料内容: 目录 第1章 前言 1.1. 政策背景 ...

  4. 672页21万字智慧高速数据中心大数据平台建设方案

    目 录 第1章 设计总述 6 1.1 项目概述 6 1.1.1 项目名称 6 1.1.2 建设单位概况 6 1.1.3 公司具备的优势 6 1.2 对项目的理解分析 7 1.2.1 项目现状分析 7 ...

  5. 889页38万字数字政府智慧政务大数据云平台建设方案(WORD)2022

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 1.1 总体架构 按照<XXX"数字政府"改革建设方案>要求,以管运分离为原则,通过企业的运营主体作用 ...

  6. 193页8万字智慧管廊大数据信息化技术解决方案

    [版权声明]本资料来源网络,仅用于行业知识分享,供个人学习参考,请勿商用. [侵删致歉]如有侵权请联系小编,将在收到信息后第一时间进行删除! 完整资料领取见文末,部分资料内容: 1. 数字管廊的总体框 ...

  7. 40页PPT详解:京东大数据基础构架与创新应用

  8. 417页16万字智慧医院信息化大数据建设 设计方案

    目   录 1 概述 7 1.1 现状分析 7 1.2 建设目标 7 1.3 建设任务 8 1.4 规范性依据 8 2 主要建设内容 10 2.1 总体框架 10 2.2 医院信息系统 11 2.3  ...

  9. 【数字智能三篇】之三: 一页纸说清楚“什么是深度学习?”

    按:[数字智能三篇] 目前"大数据"."推荐系统"."深度学习"是数字智能领域的热点研究方向,相关的书籍也很火热,比如"大数据&q ...

最新文章

  1. WISEGATE:SIEM的最佳实践讨论
  2. 【学习笔记】树形结构基础
  3. 石墨烯将是下一个万亿级别的产业,投资者该如何提前布局?
  4. 设置 Xcode 自动生成代码片段
  5. Databricks 企业版 SparkDelta Lake 引擎助力 Lakehouse 高效访问
  6. android7.0uri,整理: 解决Android7.0以上文件报FileUriExposedException问题
  7. 正常web页面登录时效是多少_Web 系统的安全性测试之权限管理测试
  8. mysql InnoDB 行锁分析
  9. std::map的KEY如果是char*,必须是malloc的
  10. 版本号后面有SNAPSHOT是什么意思
  11. PF_PACKET说开去
  12. 洛谷T46780 ZJL 的妹子序列(生成函数)
  13. php查找判断二维数组中是否含有某个值
  14. LSR and DLSR
  15. Axapta program, involve MenuItem:程序定义MenuItem
  16. 【越好奇,越强大】伯克利研究人员使用内在激励,教AI学会好奇
  17. 第46届ICPC东亚洲区域赛(昆明)B Blocks题解
  18. Ztree树的复选框和获取选择的节点实例和代码
  19. 《DDOS防御》比较实用
  20. shineblink VL53L0X激光测距传感器

热门文章

  1. 数据安全治理体系建设(内有干货)
  2. 解决安装32位AutoCAD2011提示InstallMicrosoft Visual C++ 2008 Redistributable (x64)FailedInstallation aborted
  3. 黄聪mysql_黄聪:mysql查询今天,昨天,近7天,近30天,本月,上一月数据的方法
  4. 性能测试怎么做?性能测试重点和各项性能测试流程(超级详细)
  5. php机器人聊天对话框,仿机器人聊天窗口
  6. 【MybatisMGBMavenGradle】MGB集成Maven,Gradle以及Java启动项目配置
  7. html+js实现日期倒计时
  8. Swift JSON 教程:使用 JSON
  9. 浅谈如何进行技术选型 (以工作流引擎技术选型为例说明)
  10. idea2工具栏添加上一步和下一步操作步骤