转自慧安金科:https://blog.csdn.net/hajk2017/article/details/81142345
感谢博主

什么是机器学习?在搜索框内输入“机器学习”,检索出了这样的解释:“机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科。机器学习专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能”。

机器真的可以像人一样学习吗?1959年,美国的Samuel设计了一款下棋程序,这个程序具有学习能力,可以在对弈中不断改善自己的棋艺。四年后,这个程序战胜了设计者本人。又过了三年,这个程序战胜了美国的保持了8年不败纪录的棋手。这个程序第一次向世人展示了机器强大的学习能力,也开启了机器学习的新纪元。

机器究竟是怎么学习的呢?

其实,机器学习是一种概念,你不需要写任何与问题有关的特定代码,一种叫作“泛型算法”(Genetic Algorithm)的工具就可以告诉你一些关于数据的结论。你只需要输入数据,就能建立数据的逻辑。(注:遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。)

其中一种算法叫作“分类”算法,顾名思义,它的功能就是给数据分组。分类算法可以用来区分垃圾邮件和非垃圾邮件,也能区分手写数字。只要给同样的算法输入不同的训练数据,就赋予了它不同的分类逻辑。

机器学习就是大量泛型算法的集合。

机器学习算法可以分为两类,一种是有监督机器学习(Supervised Machine Learning),一种是无监督机器学习(Unsupervised Machine Learning)。

你可以通过它们的名字了解到,它们最大的区别在于是否具有监督,那么“监督”究竟是什么呢。

让我们通过一个例子介绍一下它们各自代表什么。

如果你是一名房地产经纪人,你雇佣了一批新员工。但是,虽然你可以凭经验一眼估算出房子的价格,这批新员工面对房子却毫无头绪。于是,你不得不给新员工进行一次培训。

比如,写一个小程序,让它可以根据房子的大小、地段以及同类房子的成交价格等因素来评估价格。具体怎么做呢?首先,你需要收集过去三个月内售出的房子信息,包括地段、面积、卧室数量,最重要的是成交价。

当你获得了这些数据之后,你就有了训练数据,这些训练数据是编写估价小程序的基础,你希望根据这些历史数据预测其他房子的成交价格。

这种利用已知数据推测未知样本的方法,就是有监督机器学习。它的核心思想是你已经知道了结果(房子成交价格),通过总结结果与特征(房子各项指标)之间的规律,找出其中的关联,从而实现可以预测未知样本(新入市房子)的成交价格。

你已经了解了这种机器学习技术的逻辑,那么具体如何操作呢?

最常用的方法是,你把已经成交的房子的各项数据输入机器学习的算法,算法会尝试找出能够计算出该结果的运算方法。就像小学时做过的数学题,已知计算结果,但是运算符号都被抹掉了,你需要不断尝试填出适当的符号。

有监督机器学习所做的,就是帮你找到这些数值之间的关系,一旦确定了运算符号,只要输入新的数据,就输出了结果。

然而,如果你没有历史成交价格这列数据怎么办?

你只知道房子的位置、面积、卧室数量等特征数据,却唯独缺失了成交价格这一列,历史数据都没有,估算新入市房子的价格成了天方夜谭,你只能另谋他路。那么,这些数据可以用来做什么?

首先,你可以先利用算法从数据中划分出不同的细分市场。你会发现,当地大学附近的购房者喜欢小户型、卧室多的房子,而郊区的购房者往往偏好大户型。了解这些购房偏好能够帮助你更好地营销。

这种将无标签(成交价)数据进行聚类的方法,就是无监督机器学习。由此,你可以得出结论,有监督机器学习和无监督机器学习所说的“监督”就是指导或者干预,比如房子估价这个例子中的成交价,就是一种具有明确指向性的参数。没有这项指标时,机器学习能做的就是根据房子的特征对其进行分类,但是机器并不知道这些类别的成交价有何差别,因为没有结果可以参考。我们把这些带有明确指向性的参考叫作“标签”。

不过,房子估价真的能看成是“学习”吗?

让我们来回想一下人们是怎么学习的吧。学习,是指通过阅读、听讲、思考、研究、实践等途径获得知识或技能的过程。狭义的学习是一种可以得到持续变化(知识和技能、方法与过程、情感与价值的改善和升华)的行为方式。广义的学习是通过获得经验产生的行为或行为潜能的相对持久的行为方式。

从这个意义上讲,机器通过大量数据的训练获得预测、推荐能力的过程,很显然可以被归入“学习”的范畴。

回到上文房子估价的例子,如果你做房地产经纪人的时间足够长,你对于房子的合适定价、房屋的最佳营销方式以及客户感兴趣的户型都会形成一种直觉,机器学习的目的,就是让机器也能习得这样的能力。

不过,目前的机器学习还只能在有限的特定问题上有效。在这种情况下,“学习”的定义也许更贴近“基于少量样本找到一个公式解决特定问题”。于是,我们给这种技术起了一个形象的名字:机器学习。

【机器学习】什么是机器学习?(上)相关推荐

  1. 收集了7000个地震回波后,机器学习发现了地下上千公里处的热岩床

    来源:大数据文摘 本文约1000字,建议阅读5分钟. 利用机器学习发现了地下上千公里处的热岩床! 借助无人监督的学习算法,地球物理学家发现了大片热的致密岩石,这些岩石位于地球表面以下将近3,000公里 ...

  2. 机器学习发现了地下上千公里处的热岩床

    来源:大数据文摘 本文约1000字,建议阅读5分钟. 利用机器学习发现了地下上千公里处的热岩床! 借助无人监督的学习算法,地球物理学家发现了大片热的致密岩石,这些岩石位于地球表面以下将近3,000公里 ...

  3. 图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用

    转载公众号 | DataFunSummit 分享嘉宾:黄柯鑫 斯坦福大学 博士生 编辑整理:元玉蒲 西北大学 出品平台:DataFunTalk 导读:大家好,我叫黄柯鑫.我现在是斯坦福大学的计算机科学 ...

  4. 2015年《大数据》高被引论文Top10文章No.7——大数据机器学习系统研究进展(上)...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.7, ...

  5. 《大数据》第1期“专题”——大数据机器学习系统研究进展(上)

    大数据机器学习系统研究进展 黄宜华1,2 1.南京大学计算机软件新技术国家重点实验室 南京 210023: 2.南京大学PASA大数据技术实验室 南京 210023 摘要:要实现高效的大数据机器学习, ...

  6. 28款GitHub最流行的开源机器学习项目,推荐GitHub上10 个开源深度学习框架

    20 个顶尖的 Python 机器学习开源项目 机器学习 2015-06-08 22:44:30 发布 您的评价: 0.0 收藏 1收藏 我们在Github上的贡献者和提交者之中检查了用Python语 ...

  7. Python 机器学习实战 —— 监督学习(上)

    前言 近年来AI人工智能成为社会发展趋势,在IT行业引起一波热潮,有关机器学习.深度学习.神经网络等文章多不胜数.从智能家居.自动驾驶.无人机.智能机器人到人造卫星.安防军备,无论是国家级军事设备还是 ...

  8. 机器学习 社交网络_机器学习从业人员在社交媒体上的自我推广会是什么样子?...

    机器学习 社交网络 意见 (Opinion) "When you're good at something, you'll tell everyone. When you're great ...

  9. Arduino 机器学习实战入门(上)

    Arduino 机器学习实战入门(上) 这是来自Arduino团队的Sandeep Mistry和Dominic Pajak的一篇客座文章. Arduino的任务是让机器学习变得简单,任何人都可以使用 ...

  10. 分类学计算机面试什么,史上最全的机器学习面试题-机器学习爱好者必看

    1.什么是机器学习 机器学习是为了应对系统程序设计,属于计算机科学类的学科,它能根据经验进行自动学习和提高.例如:一个由程序操纵的机器人,它能根据从传感器搜集到的数据,完成一系列的任务和工作.它能根据 ...

最新文章

  1. UIButton的重复点击
  2. @老板:别开视频会议了,效率低没人care,斯坦福、微软都可以作证
  3. 这家公司不要求996,但照样市值万亿!
  4. 目前中关村在线上面的CPU排行情况
  5. 几个复制表结构和表数据的方法
  6. 【资讯干货】2015两会报告中,与互联网有关的41条必收“干货”
  7. 18行代码AC_排序 HDU - 1106(sstream简单解法)
  8. 在 net send 命令中实现换行(信使服务)
  9. ANSYS CFX 脚本详细设置,实现循环计算
  10. 程序员谈谈我的职场观(一)
  11. sentinel卫星_IKONOS卫星 遥感影像解译数据 波段
  12. systemd.generator — systemd unit generators
  13. 吴恩达机器学习 8.应用机器学习的建议
  14. R语言读取Excel的神器——openxlsx
  15. 华为数通ensp命令(一)
  16. 数据结构实验病毒感染检测问题
  17. MX6Q WM8978 KSZ8863调试笔记
  18. 【Java】使用JavaMail发送qq邮件
  19. VC++ sourceforge.net中一些好的开源项目
  20. 新评论接口——京东评论接口

热门文章

  1. linux 系统网络服务器组建,配置和管理实训教程 pdf,Linux网络服务器配置管理项目实训教程2...
  2. Qt模型视图中的委托
  3. Java高阶代码_Java高阶语法---Volatile
  4. This tutorial code needs the xfeatures2d contrib module to be run.
  5. CMAKE_CURRENT_BINARY_DIR
  6. ubuntu 安装 opengl
  7. 清华大学计算机毕业论文,清华大学毕业论文撰写要求
  8. 数据更改后推送_合格的数据科学家,这些Github知识必须了解
  9. 81. Leetcode 21. 合并两个有序链表 (排序)
  10. 根据后续数组重建搜索二叉树