机器学习(Machine Learning,简称 ML)是人工智能领域的一个分支,也是人工智能的核心,其涉及知识非常广泛,比如概率论、统计学、近似理论、高等数学等多门学科。

目录

1.1 何为机器学习

1.1.1 机器学习非常重要

1.1.2 关键术语

1.1.3  机器学习的主要任务

1.2 监督学习

1.3 无监督学习


1.1 何为机器学习

一般情况下,人们很难直接从原始数据本身获取所需要的信息。例如,对于垃圾邮件的检测,侦测一个词语是否存在并没有太大的作用,然而当某几个特定的词语或语句同时出现时,人们就可以利用自己的“经验”更准确地判定该邮件是否为垃圾邮件。上面对经验的利用是靠我们人类自身完成的,计算机能帮忙吗?

        机器学习正是这样的一门学科,在计算机中,“经验”通常以数据的形式存在。它最主要的一项工作就是基于数据产生“训练模型”(在面对新的情况时,模型会给我们提供相应的结果判断),产生训练模型的过程就是机器学习算法实现的过程,这里的算法和我们经常提及的算法有些区别,比如插入排序、归并排序等,它们的结果都是“计算出来的”,只要确定输入,就可以给定一个值,而机器学习的算法是“猜”出来的,既然是猜,那么就会有对有错,机器学习会根据猜的“结果”,不断的优化模型,从而得出正确率最高的“结果”。

1.1.1  机器学习非常重要

大量的经济活动都依赖于信息,我们不能在海量的数据中迷失,机器学习将有助于我们穿越数据雾霾,从中抽取出有用的信息。

正如谷歌公司的首席经济学家Hal Varian所说的那样:

如何解释数据,处理数据,从中抽取价值,展示和交流数据结果,在未来十年将是最重要的职业技能,甚至是大学,中学,小学的学生也必须具备的技能,因为我们每时每刻都在接触大量的免费信息,如何理解数据,从中抽取有价值的信息才是其中的关键。

——McKinsey Quarterly

1.1.2  关键术语

下面通过以构建“西瓜数据集”为例,我们将接触机器学习涉及的常用术语。

表1.1 西瓜数据集
编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 浊响
3 青绿 硬挺 清脆
4 乌黑 稍蜷 沉闷

如上表所示,这组记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为“样本”。比如我们可以这么说:上表的“数据集”是由4个样本(每一行是一个样本)组成的;反映对象在某方面的性质的事项,例如“色泽”“根蒂”“敲声”,称为“属性”或“特征”;属性上的取值,例如“青绿”“乌黑”,称为“属性值”;由属性张成的空间称为“属性空间”或“样本空间”或“输入空间”,例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴,每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点都对应一个坐标向量,因此我们也把一个样本称为一个“特征向量”。

1) 模型
        模型这一词语将会贯穿整个教程的始末,它是机器学习中的核心概念。你可以把它看做一个“魔法盒”,你向它许愿(输入数据),它就会帮你实现愿望(输出预测结果)。整个机器学习的过程都将围绕模型展开,训练出一个最优质的“魔法盒”,它可以尽量精准的实现你许的“愿望”,这就是机器学习的目标。

2) 数据集

数据集,从字面意思很容易理解,它表示一个承载数据的集合,如果说“模型”是“魔法盒”的话,那么数据集就是负责给它充能的“能量电池”,简单地说,如果缺少了数据集,那么模型就没有存在的意义了。数据集可划分为“训练集”和“测试集”,它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要的作用。

3)训练集&假设

        从数据中学得的模型,称为“学习”或“训练”。这个过程通过执行某个学习算法完成,训练过程中使用的数据称为“训练数据”,其中每一个样本称为“训练样本”,由“训练样本”组成的集合称为“训练集”。学得模型对应了关于数据的某种潜在的规律,因此亦称“假设”,假设可以理解成“模型”;这种潜在的规律自身,则称为“真相”。学习的过程就是为了找出或逼近真相。

4)测试集

在获得“训练模型”后,我们还需要知道用该模型来预测其他情况的结果的效果好不好,所以需要引入“测试集”,如果该模型也能够很好的预测出“测试集”的结果,那么我们可以认为“训练模型”非常接近“真相”。

5)标记信息

        如上表,例如,其中一个样本为“((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)”,这里关于样本结果的信息,例如“好瓜”,称为“标记”;拥有标记信息的示例,则称为“样例”。注意:分类和回归问题需要使用带“标记”的数据,聚类使用的数据集一般不拥有标记信息。

6)分类&回归

若我们欲预测的结果是离散值(即标记是离散的),例如“好瓜”“坏瓜”,此类学习任务称为“分类”;若欲预测的是连续值(即标记是连续的),例如西瓜的成熟度0.95,0.37.此类学习任务称为“回归”。

7)聚类

        我们还可以对西瓜做“聚类”,相关算法将自动将训练集中的西瓜分成若干组,每组称为一个“簇”。这些自动形成的簇可能对应一些潜在的划分,比如“本地瓜”“外地瓜”。需注意的是,在聚类学习中,像“本地瓜”“外地瓜”这些概念我们事先是不知道的,“簇”是计算机自动识别数据进行的划分,而且学习过程中使用的训练集样本不拥有标记信息

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”和“无监督学习”,分类和回归是前者的代表,而聚类是后者的代表。

以上主要介绍了机器学习领域涉及的关键术语,后序章节将会在必要时引入其他的术语,这里就不再进一步说明。

1.1.3   机器学习的主要任务

1.2  监督学习

我们用一个例子介绍什么是监督学习,把正式的定义放在后面介绍。假如说你想预测房价。

已知你收集了一些房价的数据。你把这些数据画 出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是 千美元。那基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把 房子卖掉,他想知道这房子能卖多少钱。

那么关于这个问题,机器学习算法将会怎么帮助你呢?

我们可以在这组数据中画一条直线,或者换句话说,拟合一条直线,根 据这条线我们可以推测出,这套房子可能卖$150,000,

当然这不是唯一的算法。可能还有更 好的,比如我们不用直线拟合这些数据,用二次方程去拟合可能效果会更好。

根据二次方程 的曲线,我们可以从这个点推测出,这套房子能卖接近$200,000。(之后我们将讨论如何选择 学习算法,如何决定用直线还是二次方程来拟合。两个方案中有一个能让你朋友的房子出售 得更合理。这些都是学习算法里面很好的例子。)以上就是监督学习的例子。

可以看出,监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组 成。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格, 即它们实际的售价然后运用学习算法,算出更多的正确答案。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。

回归这个词的意思是,我们在推测出的这一系列连续值属性。

我再举一个有关分类问题的监督学习的例子

让我们来看一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出 1 和 0 表 示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为 1,不是恶性,或者说良 性记为 0。 我有 5 个良性肿瘤样本,在 1 的位置有 5 个恶性肿瘤样本。现在我们有一个朋友很不幸 检查出乳腺肿瘤。假设说已知她的肿瘤的大小,那么机器学习的问题就在于,你能否估算出 肿瘤是恶性的或是良性的概率。用术语来讲,这是一个分类问题。

分类指的是,我们试着推测出离散的输出值:0 或 1 良性或恶性,而事实上在分类问题 中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出 0、1、2、 3。0 代表良性,1 表示第 1 类乳腺癌,2 表示第 2 类癌症,3 表示第 3 类,但这也是分类问 题。

1.3  无监督学习

在无监督学习中,我们已知的数据。看上去有点不一样,不同于监督学习的数据的样子, 即无监督学习中没有任何的标签或者是有相同的标签。所以我们已知数据 集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,就是一个数据集。你能 从数据中找到某种结构吗?

针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。

这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同 的簇。所以叫做聚类算法。事实证明,它能被用在很多地方。

聚类应用的一个例子就是在谷歌新闻中。如果你以前从来没见过它,你可以到这个 URL 网址 news.google.com 去看看。谷歌新闻每天都在收集非常多的新闻内容。 它再将这些新闻分组,将有关联的新闻组合到一起。所以,这些新闻事件全是同一主题的显示到一起。

最后,无监督学习也可用于天文数据分析,这些聚类算法给出了令人惊讶、有趣、有 用的理论,解释了星系是如何诞生的。这些都是聚类的例子,聚类只是无监督学习中的一种。


下一篇:单变量线性回归

【机器学习】机器学习是什么?相关推荐

  1. 统计机器学习(机器学习) 概念

    统计机器学习(机器学习) 概念 该文章是作者阅读相关书籍和资料后,总结和归纳的一些个人认为有必要整理和了解的知识点介绍.与大家一起分享,如有不妥之处,还望指正. 统计(机器)学习 1.统计学习概念 统 ...

  2. 我爱机器学习 机器学习干货站- 资源

    我爱机器学习 机器学习干货站 跳至正文 机器学习 Deep Learning 所有主题 关注我们 DeepMind团队的<Deep Reinforcement Learning in Large ...

  3. 多项式拟合缺点_机器学习——机器学习算法优缺点综述

    来源:数据派THU.七月在线 转自:Datawhale(Datawhale 目录 正则化算法(Regularization Algorithms) 集成算法(Ensemble Algorithms) ...

  4. 第十七章 大规模机器学习-机器学习老师板书-斯坦福吴恩达教授

    第十七章 大规模机器学习 17.1 大数据集学习 17.2 随机梯度下降 17.3 mini-batch 梯度下降 17.4 随机梯度下降收敛 17.5 在线学习 17.6 减少映射与数据并行 17. ...

  5. python人工智能——机器学习——机器学习基础

    1.机器学习开发流程 2.机器学习算法分类 3.机器学习模型是什么? 机器学习开发流程 机器学习算法分类 监督学习(特征值+目标值) 监督学习(英语:Supervised learning),可以由输 ...

  6. 机器学习-机器学习简介

    机器学习简介 即使是机器学习领域的专业人士,也很难给机器学习这一概念下一个准确的定义,比较常见的说法有两种.Arthur Samuel描述其为"使计算机无需明确编程就能自主学习的研究领域&q ...

  7. 机器学习-机器学习概论(入门机器学习基础知识)

    机器学习 简介 机器学习一词来源于Machine Learning的翻译,主要研究计算机模拟或者实现人类的行为,顾名思义,像学生一样,通过学习获取新的知识或者技能,完善自身的知识结构,并不断提升自己的 ...

  8. 机器学习--机器学习的分类

    监督学习(Supervised Learning) 在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系.通过已有的训练样本(即已知数据以及其对 ...

  9. 林轩田机器学习 | 机器学习技法课程笔记10 --- Random Forest

    上节课我们主要介绍了Decision Tree模型.Decision Tree算法的核心是通过递归的方式,将数据集不断进行切割,得到子分支,最终形成树的结构.C&RT算法是决策树比较简单和常用 ...

  10. 机器学习--机器学习基础

    机器学习(Machine Learning ) --机器学习基础 机器学习 概述 机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用 ...

最新文章

  1. 2021年 ,关于AI的哪些未来已来?
  2. 当Elasticsearch遇见Kafka
  3. asp正则替换链接实现伪静态效果
  4. pl/postgresql_PostgreSQL PL / java简介
  5. 阿里云CDN技术掌舵人文景:相爱相杀一路狂奔的这十年
  6. 矢量图形和位图的不同
  7. CAD图纸可以约束转换后图纸格式的大小吗?
  8. 3-11 三天打渔、两天晒网 - 实验7 简单的循环程序 - 《Python编程基础及应用实验教程》(高等教育出版社)
  9. V4L2文档翻译(十一)
  10. docker-compose 部署jmeter+grafana+prometheus/influxdb,构建性能测试可视化实时监控(二)...
  11. 【题解】1118 Birds in Forest (25分)⭐⭐ 【并查集】
  12. 量子计算与量子信息之量子信息概述
  13. 1553B不同版本驱动安装
  14. f5双机配置_F5负载均衡器双机切换机制及配置
  15. 百度离线地图示例之二:测距
  16. 表格的列标题具有排序功能可便于读者查阅
  17. VMware虚拟机的安装,并编写简单的C程序
  18. java三国群雄_傲世三国志-群雄争霸
  19. 湖北省计算机四级报名考试,2021上半年全国大学英语四级考试(湖北考区)报名须知...
  20. 百度地图大数据MapV的相关介绍

热门文章

  1. 万王之王3d服务器正在维护,万王之王3D服务器尚未对外开放怎么回事_万王之王3D服务器进不去解决方法_玩游戏网...
  2. 两台linux之间带宽,测试两台服务器之间的网络带宽
  3. 如何把jdk从32位改到64位
  4. php实现凯撒密码加密算法,Golang 实现凯撒密码
  5. html元素拖动翻转--Hammer.js
  6. 微信小程序遇到的问题
  7. 手机读取大容量存储卡导致手机反应速度变慢
  8. js完美地处理转换 Excel 的日期格式
  9. qqmusic record,布局完成
  10. 未来计算机取代教师,顾明远:未来教育,人工智能无法替代教师和学校