在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

在过去被认为非常难以解决的问题,会因为大数据和机器智能的使用而迎刃而解。同时,大数据和机器智能还会彻底改变未来时代的商业模式,很多传统的行业都将采用智能技术实现升级换代,同时改变原有的商业模式。另一方面,智能化也会对整个社会带来巨大的冲击,尤其是在智能革命的初期。

有了信息论这样一个工具和方法论,我们便很容易认清大数据的本质了。首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。对于前面提到的大数据的三个特征,即数据量大、多维度和完备性,我们可以从信息论出发,对它们的重要性和必要性一一做出解释。在这个基础之上,我们就能够讲清楚大数据的本质。

数据量的问题

在过去,由于数据量不够,即使使用了数据,依然不足以消除不确定性,因此数据的作用其实很有限,很多人忽视它的重要性是必然的。在那种情况下,哪个领域先积攒下足够多的数据,它的研究进展就显得快一些。具体到机器智能方面,语音识别是最早获得比较多数据的领域,因此数据驱动的方法从这个领域产生也就不足为奇了。

大数据多维度的重要性

可以从两个角度来看待它。第一个视角是前面提及的“互信息”,为了获得相关性通常需要多个维度的信息。比如我们要统计“央行调整利息”和“股市波动”的相关性,只有历史上央行调整利息一个维度的信息显然是不够的,需要上述两个维度的信息同时出现。第二个视角是所谓的“交叉验证”,我们不妨看这样一个例子:夏天的时候,如果我们感觉很闷热,就知道可能要下雨了。也就是说,“空气湿度较高”和“24小时内要下雨”之间的互信息较大。但是,这件事并非很确定,因为有些时候湿度大却没有下雨。不过,如果结合气压信息、云图信息等其他维度的信息,也能验证“24小时内要下雨”这件事,那么预测的准确性就要大很多。因此,大数据多维度的重要性,也是有信息论做理论基础的。

最后,我们从信息论的角度来看看数据完备性的重要性。在说明这件事情之前,我们还需要介绍信息论里一个重要的概念――交叉熵,这个概念并非由香农提出的,而是由库尔贝克等人提出的,因此在英文里更多地被称为库尔贝克莱伯勒距离(Kullback-LeiblerDivergence),它可以反映两个信息源之间的一致性,或者两种概率模型之间的一致性。当两个数据源完全一致时,它们的交叉熵等于零,当它们相差很大时,交叉熵也很大。所有采用数据驱动的方法,建立模型所使用的数据和使用模型的数据之间需要有一致性,也就是盖洛普所讲的代表性,否则这种方法就会失效,而交叉熵就是对这种代表性或者一致性的一种精确的量化度量。

回过头来讲大数据的完备性。在过去,使用任何基于概率统计的模型都会有很多小概率事件覆盖不到,这在过去被认为是数据驱动方法的死穴。很多学科把这种现象称为“黑天鹅效应”。在大数据出来之前,这件事是无法避免的,就连提出数据驱动方法的鼻祖贾里尼克也认为,不论统计数据量多大,都会有漏网的情况。这些漏网的情况反映到交叉熵时,它的值会达到无穷大,也就是说数据驱动方法在这个时候就失效了。

怎样防止出现漏网?

这就要求大数据的完备性了。在大数据时代,在某个领域里获得数据的完备性还是可能的。比如在过去把全国所有人的面孔收集全是一件不可想象的事情,但是今天这件事情完全能做到。当数据的完备性具备了之后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的,这样,它们的交叉熵近乎零。在这种情况下,就不会出现覆盖不了很多小概率事件的灾难。这样数据驱动才具有普遍性,而不再是时灵时不灵的方法论。

由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
大数据思维的十大核心原理
http://www.duozhishidai.com/article-5373-1.html
短时间掌握大数据思维,需要知道哪些秘诀
http://www.duozhishidai.com/article-3863-1.html
企业应该具备怎么样的互联网大数据思维,让企业落地!
http://www.duozhishidai.com/article-957-1.html


多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

大数据思维的核心是什么?相关推荐

  1. 关于大数据思维的一些思考

    数据现在是个热点词汇,关于有了大数据,如何发挥大数据的价值,议论纷纷,而笔者以为,似乎这有点搞错了原因与结果,就象关联关系,有A的时候,B与之关联,而有B的时候,A却未必关联,笔者还是从通常的4个V来 ...

  2. 【大数据】大数据思维的十大核心原理

    感谢博主,转自:https://blog.csdn.net/supermapsupport/article/details/78741774 一.数据核心原理 从"流程"核心转变为 ...

  3. 互联网人必读 | 大数据思维的十大核心原理

    2019独角兽企业重金招聘Python工程师标准>>> 大数据思维是客观存在,大数据思维是新的思维观.用大数据思维方式思考问题,解决问题是当下企业潮流.大数据思维开启了一次重大的时代 ...

  4. 数据挖掘:大数据发展的核心驱动力

    近年来,随着"大数据成为热门词汇,金融业在这一领域不断进行研究和探索.就金融业和大数据相关问题,本报记者近日专访中国民生银行发展规划资深 专家王彦博.王彦博认为,数据挖掘是大数据发展的核心驱 ...

  5. 大数据思维是企业互联网化的思维内核

    文章讲的是大数据思维是企业互联网化的思维内核,"互联网+"给传统产业带来的变革将是一个持续升且不可逆的过程.随着"互联网+"的深入,诸多的新技术.新业态将会显现 ...

  6. 解析大数据思维的五大商业本质以及思维变革

    问题:为什么要进行大数据分析? 第一章  解析大数据思维的五大商业本质 1.  大数据的5V特点 2.  大数据应用下需要正视的误区 3.  大数据的分类 4.  应用 5.  大数据的核心竞争力 市 ...

  7. 大数据技术的核心原理

    科学进步越来越多地由数据来推动,海量数据给数据分析既带来了机遇,也构成了新的挑战.大数据往往是利用众多技术和方法,综合源自多个渠道.不同时间的信息而获得的.究竟大数据技术的核心原理是哪几方面呢? 数据 ...

  8. 大数据行业人士必知10大数据思维原理,可以让机器人读懂你!

    大数据思维原理是什么?简单概括为10项原理,当样本数量足够大时,你会发现其实每个人都是一模一样的. 1数据核心原理 从"流程"核心转变为"数据"核心 大数据时代 ...

  9. 孙琦:大数据思维助力我探究能源颗粒机理 | 提升之路系列(四)

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

  10. 苏子怡:大数据思维融入建筑节能 | 提升之路系列

    导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院.清华大学大数据研究中心及相关院系共 ...

最新文章

  1. pandas数据索引之loc、iloc、ix详解及实例
  2. Struts2 ognl表达式
  3. 《誓鸟》是什么小说?
  4. TS 188字节流结构图
  5. CentOS6.9安装Kafka
  6. 程序员的基本功:为什么非要用 Python 做数据分析?Excel 不好吗?
  7. php和python-现在自学php和python那个合适?
  8. idea启动崩溃问题
  9. Java绿盾解密- Ldterm(绿盾加密文件解密)
  10. Win10访问不了Samba网络共享的原因以及解决办法
  11. 智和网管:深入国产化需求,扎根网络运维安全
  12. 22. CTF综合靶机渗透(十五)
  13. matlab srgb,matlab – 将Photoshop sRGB复制到LAB转换
  14. 5个免费好用的在线工具推荐,让你的工作效率提升百倍!
  15. 《苏格拉底回忆录》节选——论友谊的价值
  16. 对未来的工作态度期许
  17. 零基础如何入门学习电脑编程?
  18. mybatis分页配置
  19. SpringBoot项目实战:员工管理系统
  20. ASEMI充电器整流桥ABS10

热门文章

  1. acer switch 10 linux,acer switch 10好不好
  2. 企业微信没有50名员工可以扩容吗?客户数达到上限会怎样?
  3. 微信红包最多能发多少钱?微信红包200元上限解除
  4. 相遇在这茫茫的网海里。你在天涯,我在海角
  5. Go开源说第十七期 分布式事务DTM
  6. 2021年杭州行政区划调整方案与远景轨道线网概念图
  7. ​PHP现在不好找工作是真的吗?
  8. 配置ACL隔离交换机的VLAN
  9. idea切换工作空间_IntelliJIDEA使用技巧
  10. 2020期中考试总结