教材：《人工智能及其应用》，蔡自兴等，2016m清华大学出版社（第5版）

参考书：

《人工智能》之《机器学习》

1 机器学习的定义与发展历程
- 1.1 机器学习的定义
- 1.2 机器学习的发展历程
- 1.3 机器学习的主要策略
- 1.4 传统的机器学习
- 1.5 表示学习
- 1.6 深度学习
2 函数学习
- 2.1 机器学习的基本流程
- - 假设空间
  - 机器学习的三要素
  - 线性模型
  - 非线性模型
  - 损失函数
  - 学习准则
  - 优化：梯度下降法
  - 机器学习泛化能力
  - 性能度量
3 Logistic回归
4 前3节总结
5 决策树学习
- 5.1 ID3算法的数学基础
- - 信息论原理简介
  - 信息
  - 熵（entropy）
  - 自信息（self-information）
  - 香农熵
  - 熵编码
  - 联合熵和条件熵
  - 互信息
  - 交叉熵（cross entropy）
  - KL散度（Kullback-Leibler diverge）
  - 奥卡姆剃刀原理（Occam's Razor, Ockham's Razor)
  - 最小编码长度
- 5.2 ID3算法及举例
- - 归纳学习
  - 决策树
  - ID3算法
  - ID3算法实例
6 神经网络学习
- 6.1 感知机与多层网络
- 6.2 误差逆传播算法
7 深度学习
- 7.1 卷积神经网络（Convolutional Neural Networks，CNN）
- 7.2 卷积神经网络的经典例子：文字识别系统LeNet-5

如何开发一个人工智能系统？

1 机器学习的定义与发展历程

1.1 机器学习的定义

通俗地讲，机器学习(Machine Learning，ML)就是让计算机从数据中进行自动学习，得到某种知识(或规律)。

作为一门学科，机器学习通常指一类问题以及解决这类问题的方法，即如何从观测数据 (样本)中寻找规律，并利用学习到的规律(模型)对未知或无法观测的数据进行预测。

机器学习是对能通过经验自动改进的计算机算法的研究。
——汤姆·米切尔（Tom Mitchell）[Mitchell, 1997]

1.2 机器学习的发展历程

神经元模型研究
20世纪50年代中期到60年代初期，也被称为机器学习的热烈时期，最具有代表性的工作是罗森勃拉特1957年提出的感知器模型。
符号概念获取
20世纪60年代中期到70年代初期。其主要研究目标是模拟人类的概念学习过程。这一阶段神经学习落入低谷，称为机器学习的冷静时期。
知识强化学习
20世纪70年代中期到80年代初期。人们开始把机器学习与各种实际应用相结合，尤其是专家系统在知识获取方面的需求，也有人称这一阶段为机器学习的复兴时期。温斯顿的概念学习和昆兰的决策树ID3算法。
连接学习和混合型学习
20世纪80年代中期至今。把符号学习和连接学习结合起来的混合型学习系统研究已成为机器学习研究的一个新的热点。

1.3 机器学习的主要策略

按照学习中使用推理的多少，机器学习所采用的策略大体上可分为4种：

机械学习（记忆学习）
示教学习
类比学习
示例学习

机械学习

示教学习

学生从环境（教师或其它信息源如教科书等）获取信息，把知识转换成内部可用的表示形式，并将新的知识和原有知识有机地结合。

类比学习

类比学习就是通过类比推理，即通过对相似事物进行比较所进行的一种学习。

示例学习

基于学习方式，机器学习所采用的策略大体上可分为3种：

有导师学习（监督学习）：输入数据中有导师信号，以概率函数、代数函数或人工神经网络为基函数模型，采用迭代计算方法，学习结果为函数。
无导师学习（非监督学习）：输入数据中无导师信号，采用聚类方法，学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。
强化学习（增强学习）：以环境反馈（奖/惩信号）作为输入，以统计和动态规划技术为指导的一种学习方法。

监督学习

从标记的训练数据集学习一个模型，再用此模型对测试样本集进行预测。

典型应用：

无监督学习

直接对输入数据进行建模，提取数据有效的信息探索数据的整体结构。

典型应用：

强化学习

智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。

典型应用：

基于学习目标，机器学习所采用的策略大体上可分为5种：

概念学习：即学习的目标和结果为概念，或者说是为了获得概念的一种学习。典型的概念学习有示例学习。
规则学习：即学习的目标和结果为规则，或者说是为了获得规则的一种学习。典型的规则学习有决策树学习。
函数学习：即学习的目标和结果为规则，或者说是为了获得函数的一种学习。典型的函数学习有神经网络学习。
类别学习：即学习的目标和结果为对象类，或者说是为了获得类别的一种学习。典型的类别学习有聚类分析。
贝叶斯网络学习：即学习的目标和结果是贝叶斯网络，或者说是为了获得贝叶斯网络的一种学习。其又可分为结构学习和参数学习。

1.4 传统的机器学习

传统的机器学习主要关注如何学习一个预测模型。一般需要首先将数据表示为一组特征(Feature)，特征的表示形式可以是连续的数值、离散的符号或其他形式。然后将这些特征输入到预测模型，并输出预测结果。这类机器学习可以看作浅层学习(Shallow Learning)。

浅层学习的一个重要特点是不涉及特征学习，其特征主要靠人工经验或特征转换方法来抽取。

1.5 表示学习

为了提高机器学习系统的准确率，我们就需要将输入信息转换为有效的特征，或者更一般性地称为表示(Representation)。如果有一种算法可以自动地学习出有效的特征，并提高最终机器学习模型的性能，那么这种学习就可以叫作表示学习( Representation Learning)。

在机器学习中，经常使用两种方式来表示特征：

局部表示(Local Representation)
分布式表示(Distributed Representation)

局部表示

分布式表示

词嵌入

1.6 深度学习

为了学习一种好的表示，需要构建具有一定“深度”的模型，并通过学习算法来让模型自动学习出好的特征表示(从底层特征，到中层特征，再到高层特征)，从而最终提升预测模型的准确率。

我们就需要一种学习方法可以从数据中学习一个“深度模型”，这就是深度学习(Deep Learning，DL)。深度学习是机器学习的一个子问题，其主要目的是从数据中自动学习到有效的特征表示。

2 函数学习

机器学习约等于构建一个映射函数。

2.1 机器学习的基本流程

假设空间

机器学习的三要素

模型：线性方法，广义线性方法
学习准则：期望风险
优化：梯度下降

线性模型

非线性模型

损失函数

损失函数是一个非负实数函数，用来量化模型预测和真实标签之间的差异。

常用的损失函数有：0-1损失函数、平方损失函数、交叉熵损失函数。

0-1损失函数

最直观的损失函数是模型在训练集上的错误率，即0-1损失函数。

平方损失函数

平方损失函数经常用在预测标签y为实数值的任务中，定义为：

平方损失函数一般不适用与分类问题。

交叉熵损失函数

学习准则

优化：梯度下降法

模型在训练集上错误率很低，但是在未知数据上错误率很高。这就是所谓的过拟合(Overfitting)。这是由于训练数据少和噪声以及模型能力强等原因造成的。

模型不能很好地拟合训练数据，即在训练集上的错误率比较高。这就是所谓的欠拟合(Underfitting)。这是由于模型能力不足造成的。

机器学习泛化能力

机器学习的目标是使得学到的模型能很好的适用于“新样本”, 而不仅仅是训练集合，我们称模型适用于新样本的能力为泛化(generalization)能力。

通常假设样本空间中的样本服从一个未知分布 D，样本从这个分布中独立获得，即“独立同分布”(i.i.d)。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型。

性能度量

信息检索、Web搜索等场景中经常需要衡量正例被预测出来的比率或者预测出来的正例中正确的比率，此时查准率和查全率比错误率和精度更适合。

统计真实标记和预测结果的组合可以得到“混淆矩阵”。

错误率：分错样本占样本总数的比例

精度：分对样本占样本总数的比率

3 Logistic回归

一维数据的二分类问题：

其中

《人工智能》之《机器学习》相关推荐

语C、耽美、盲盒、Lolita……这些95后文化，你看懂了吗？
作者:闫丽娇,编辑:阿伦,本文经授权转载自公众号燃财经(rancaijing) 当炒鞋.炒盲盒等话题不断升温,当语C.耽美等词汇频频出现,当Soul.最右等App的用户越来越多,主导创新经济的创业者和 ...
耽美是女性调节大脑反应的潜在性吸引力
文章来源于微信公众号(茗创科技),欢迎有兴趣的朋友搜索关注. 耽美泛指漫画和文学作品里的美男以及发生在他们之间的爱情.这是一种以女性为主要创作和受众的潮流.虽然这种亚文化广泛流行,但目前尚缺乏可靠方法 ...
如何利用网络信息处理规范耽美文学并给读者带来更好的阅读体验
一.当今大学生对耽美文学态度的调查报告 1.调查时间:11月22号 2.地点:电子科技大学清水河校区品学楼和立人楼附近 3.调研人员:杨佳鑫,吴婧,杨金山,石汭其,朱心成 4.调研数据: (1)总参与 ...
太吾绘卷第一世攻略_耽美推文-BL-仿佛在攻略一只河豚
目录:<全能攻略游戏>by公子如兰 <无限升级游戏>by暗夜公主 <无限游戏>BY SISIMO <请听游戏的话>by木兮娘 <游戏,在线直播&g ...
一个做耽美漫画的内容网站源码解析过程，讲解他的框架和功能实现
这里讲的是43321漫画网源码,采用的是thinkphp6开发,Nginx构架 php7.0环境和mysql应用数据库漫画站重要的是前后端分离和内容管理系统而thinkphp拥有强大的控制器和模板 ...
“耽改”热中的“腐文化”！为我开启创意者和教育者的，Adobe国际认证旅程
原标题:"耽改"热中的"腐文化"!为我开启创意者和教育者的,Adobe国际认证旅程. "耽美"一词产生于20世纪二三十年代的日本,原指&qu ...
【美少女】四面温柔攻，一人血书跟腾讯傲娇受组成cp可以吗？
编辑于2020-3-20 笔试做完之后,温柔小哥部门的流程又衔接了起来,来自杭州的0571它又来了,接电话的这个小哥又是个温柔小哥,<论四轮面试的面试官都是温柔朝气小哥是一种什么体验>,面 ...
爱优腾火力聚焦耽改101，2021能否续写出圈神话？
文/ 螳螂财经(ID:TanglangFin) 作者/ 伊宁要想红,演耽改.这已成为男明星们心照不宣的一条青云路. 自14年第一部耽美小说被搬上银幕以来,据不完全统计共有24部耽改网络剧已在各大平台 ...
什么吃掉了你的执行力？在浮躁中求解
http://www.36kr.com/p/213023.html 编者按:"职责越多,执行力越弱?"本文作者为移动创作及阅读应用"汤圆"市场部钱婧(微信:gr ...
值得和孩子一起看的100部BBC经典纪录片
--------------------- 作者:King-Blog 来源:CSDN 原文:https://blog.csdn.net/qq1175421841/article/details/523 ...

《人工智能》之《机器学习》

《人工智能》之《机器学习》

1 机器学习的定义与发展历程

1.1 机器学习的定义

1.2 机器学习的发展历程

1.3 机器学习的主要策略

1.4 传统的机器学习

1.5 表示学习

1.6 深度学习

2 函数学习

2.1 机器学习的基本流程

假设空间

机器学习的三要素

线性模型

非线性模型

损失函数

学习准则

优化：梯度下降法

机器学习泛化能力

性能度量

3 Logistic回归

《人工智能》之《机器学习》相关推荐

最新文章

热门文章