注:本书属作者免费翻译,如有版权问题,请联系我删除。如有转载,请注明出处。

六、所有这些数据:数据地震

所有电脑化机器和服务所产生的数据曾经都是数字化技术的副产品,计算机科学家已经对数据库进行了大量研究以有效的存储和处理海量数据。因为我们不得不存储数据。过去二十年的某个时候,这些数据变成了一种资源,现在,更多的数据是一件幸事。

例如,想想一家连锁超市,每天通过全国各地的实体店或是网上虚拟商店,向数以百万计的顾客销售成千上万的商品。数字化的销售终端记录了每笔交易的细节:数据,客户ID(通过一些忠诚度计划),购买的商品和价格,花费的总金额等等。商店联网之后,所有商店的终端数据都可以即时收集到中央数据库中。这样每天可以积累大量(并且非常新的)数据。

特别是过去二十年左右,人们开始越来越多的思考如何使用这些数据。关注如何使用数据的话,计算机应用的整个方向就颠倒过来了。以前是程序处理数据、产生数据—数据是被动的。而考虑如何使用数据时,数据就开始驱动操作,下一步该做什么,已经不是由程序员而是由数据本身来定义了。

连锁超市最想了解哪个顾客有可能购买哪种商品。这样,超市就可以更高效的存货,增加销售额并提高利润水平。这也将提升客户满意度,因为客户可以更快地找到最符合他们要求的更便宜的商品。

不过这项任务并不是显而易见的。我们并不十分确切的了解,哪些人可能会购买这种口味的冰淇淋或是这个作者的下一本书,会看这部新电影,会来这座城市旅游。顾客的行为会随时间发生变化,也会取决于其所处的地理位置。

但是也并不是没有希望,因为我们发现顾客的行为并不是完全随机的。人们并不是随机去超市购物。他们购买啤酒时也会买薯条;夏天他们购买冰淇淋,冬天购买添加到Gluhwein(德国圣诞节传统的饮料,是一种混合红酒,即在红酒中加入丁香、肉桂等香料和糖)中的香料。客户行为存在一定的模式,这就是数据发挥作用的地方。

虽然我们不了解客户行为模式,但我们希望可以从收集来的数据中发现它。如果我们可以从过去的数据中发现这些行为模式,那么在未来,至少不远的将来,客户的行为模式不会有太大的变化。我们可以预期这些行为模式将继续保持下去,并且可以基于这些模式进行一些预测。

我们可能无法完全识别这个过程,但是我们可以构建一个良好、有用的近似值。这种近似值也许无法解释所有的数据,但仍可能解释部分数据。我们认为尽管不太可能识别完整的过程,但仍然可以检测到一些模式。我们可以使用这些模式进行预测,这些模式也可能帮助我们理解这个过程。

这种建立近似值的过程被称作数据挖掘。打个比方,大量的泥土和原材料从矿山中挖掘出来,经过处理后,会产生少量非常珍贵的材料。同样在数据挖掘中,通过处理大量数据,构建一个有使用价值的简单模型,例如具有高度的预测准确性。

数据挖掘也是机器学习的一种。我们不知道(客户行为的)规则,所以无法编写程序,但是机器-也就是计算机-通过从(客户交易)数据中提取客户的行为规则来进行学习。

拥有大量数据而不知数据中的规则,这样的情况随处可见。企业中使用计算机和数字技术就意味着各个领域都有大量的数据生成。在日常社交生活中,我们也使用电脑或智能机器,所以也会生成大量数据。

学习模型用于模式识别,例如用于识别摄像机捕获的图像或识别麦克风捕获的语音。如今,从识别人的行为(使用智能手机)到汽车驾驶辅助系统,不同类型的应用场景使用不同的感应器。

科学是数据的另一个来源。随着我们研发更好的传感器,我们会检测更多-就是在天文学、生物学、物理学和其他方面获得更多的数据,我们使用学习算法来理解越发庞大的数据。互联网本身就是一个巨大的数据存储库,我们需要智能算法帮助我们寻找想要的东西。

今天我们所拥有的数据的一个重要特征就是其形态不同 – 来自多媒体。我们有文本、图像或视频、声音片段等,它们都与我们感兴趣的同一对象或事件有关。今天机器学习一个主要挑战就是合并这些不同来源的信息。例如,分析消费者数据时,除了过去交易外,我们还有Web日志-即一个用户最近访问的网页-这些日志可能会提供很多信息。

智能机器的数量增多,对我们的日常生活帮助很大。

转载于:https://www.cnblogs.com/superjulia/p/9680689.html

第一章 为什么我们对机器学习感兴趣?(六)相关推荐

  1. 第一章 为什么我们对机器学习感兴趣?(八)

    注:本书属作者免费翻译,如有版权问题,请联系我删除.如有转载,请注明出处. 机器学习不只是一个数据库或编程问题,它也需要人工智能.处在变化环境中的系统应该具备学习能力,否则,我们很难称之为智能.如果该 ...

  2. 吴恩达机器学习学习笔记第一章:绪论初识机器学习

    一.   什么是机器学习(Machine Learning)?   首先学习的对象是电脑 学习指的其实就是算法 机器学习就是基于数据基于算法从数据中去提炼对事物的认知和规律 掌握了这些特征和规律后就可 ...

  3. 机器学习原来这么有趣!第一章:全世界最简单的机器学习入门指南

    第一章:全世界最简单的机器学习入门指南 https://blog.csdn.net/wskzgz/article/details/89917343 第二章:用机器学习制作超级马里奥的关卡 https: ...

  4. 《机器学习》周志华课后习题答案——第一章(1-3题完结)

    <机器学习>周志华课后习题答案--第一章 文章目录 <机器学习>周志华课后习题答案--第一章 一.表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间 二.与使用单个 ...

  5. 翻译:《JavaScript 权威指南(第5版)》第一章(一)

    声明:翻译只有一个目的:学习用途.若有版权问题请及时联系本人. 本贴文根据篇幅将第一章的翻译分为两个部分,这是第一部分的内容. Chapter 1. Introduction to JavaScrip ...

  6. 西瓜书第一章阅读笔记

    西瓜书第一章阅读笔记 第一章 绪论 1.机器学习基本术语 2.归纳偏好 3.所有学习算法一样优秀? 4.补充资料 第一章 绪论 1.机器学习基本术语 记录:对一个事件或对象的描述,也称为"示 ...

  7. 周志华《机器学习》课后习题解析(第一章)绪论

    周志华老师的<机器学习>(西瓜书)一书,没有公布答案,于是我们从网上搜集了各题目的答案,供大家参考. 参考答案 第一章 绪论 1.1.表1.1中若只包含编号为1,4的两个样例,试给出相应的 ...

  8. 机器学习 周志华 第一章课后习题

    机器学习 周志华 第一章课后习题 1.1 1.2 1.3 1.4 1.5 1.1 在下面这张图片中若只包含编号为1和4的两个样例,试给出相应的版本空间. 书上实例: 1.表 1.1 对应的假设空间如下 ...

  9. python 机器学习第一章

    机器学习是一门能够发掘数据价值的算法和应用,是计算机科学中最激动人心的一个领域之一. 接下来的时间,开始学习吧! python机器学习第一章 1.机器学习方法分为三类:监督学习,无监督学习,强化学习. ...

最新文章

  1. 【c语言】蓝桥杯算法提高 约数个数
  2. ASM-Net:可解释的美学评分及图像剪裁
  3. html贪吃蛇自动走,分享一个用html5实现的贪吃蛇特效代码
  4. 千山独行-一个人的创业路(连载五)
  5. permutations python_为什么Python的itertools.permutations包含重复项? (当原始列表重复时)...
  6. LeetCode 1498. 满足条件的子序列数目(排序+二分查找+快速幂)
  7. 2022,你的团队距离持续部署还有多远?
  8. html如何把上边角做成椭圆,使用css3的border-radius和border制作半圆、三角、椭圆等各种图形...
  9. 更改yum源配置后执行报错[Errno 14] PYCURL ERROR 22 - “The requested URL returned error: 404 Not Found”
  10. python对list处理
  11. 如何在Ubuntu上安装MariaDB
  12. Airmail 5 for Mac(轻量级邮件客户端)
  13. html数学公式标记,在网页中显示数学公式
  14. 为了背单词,我花了两天写了一款背单词小程序
  15. 基于opencv 的OCR小票识别(1)
  16. 处理Maven本地仓库.lastUpdated文件
  17. 华硕ASUS B250M PLUS+i5 7500+核显+macos12.0+opencore0.7.2
  18. 什么是AudioEffect
  19. 万豪国际集团于上海开设第五家福朋喜来登酒店
  20. 抗渗等级p6是什么意思_关于混凝土抗渗等级p6 p8采用混凝土抗渗剂的用法

热门文章

  1. hadoop中的helloword
  2. oracle对象之触发器
  3. hdu3359 Kind of a Blur
  4. vs2013 中HTML页 无法在设计窗口中查看的解决
  5. Velocity中避免null引起的数据问题
  6. 字符串里面的单词反转
  7. Java实现数组逆置
  8. 安全测试需要考虑的测试点
  9. MySQL基础2——表的约束
  10. python可以调试吗_python调试的几种方法