增强学习和控制

在监督学习中，算法试图模仿训练机的labels y,训练集中的每一个输入x都有一个确定的对应的y，但是对于很多需要连续作决定的问题和控制问题，给算法提供一个明确的标签是很难的。例如我们有一个四足机器人，并且试图让他行走，开始的时候我们并不知道采取怎样的操作使他行走，也不知道怎么给算法提供一个标签来模仿。
在增强学习中，我们会给算法提供一个奖励函数来反应做的好还是不好。例如对于上述的4足机器人，当他向前行走是给出正面的奖励，当他向后退或者摔倒时给出负面的奖励。然后学习算法就会学习选择怎样的操作来获取更多的奖励。
增强学习在自治直升机、机器人、手机网络路由、销售策略选择、工业控制、网页索引等多领域取得了成功。对增强学习的研究从MDP（Markov desicion processes）开始。

1.MDP

MDP是一个元组（S，A，P_sa，γ\gamma，R），S是状态集，A是状态集，P_sa是处于状态s采用动作a的状态转移概率，γ\gamma是折现因子，R是SA的奖励函数。
MDP过程如下：初始状态s0s_0，采用动作a0a_0，按照P_s₀a₀转移到状态s1s_1，之后采取动作a1a_1，按照P_s₁a₁转移到状态s2s_2，如下图所示：

得到的奖励如下：

对于奖励函数只和状态有关的情况：

增强学习的目标是最大化奖励：

时间t时的奖励要乘上折现因子γt\gamma^t，因此最大化奖励，应尽早获取正奖励。
策略函数π\pi是从状态S映射到动作A的函数，a=π(s)a=\pi(s)，价值函数如下：

对于给定的策略π\pi，价值函数VπV^\pi满足Bellman等式：

价值函数Vπ(s)V^\pi(s)由两部分组成，当前奖励R(s)和后续奖励的折现。将第二部分可以看作对以s′s'为起点的价值函数(E_{s’~P_sπ\pi(s)}[Vπ(s′)V^\pi(s')])乘上折现因子，其中s′s'服从概率分布P_sa。
Bellman等式可用于MDP价值函数的求解。对于状态有限的MDP过程，对于每一个状态s，都可以写出一个Bellman等式，由此给出了价值函数的线性方程组，可以解出价值函数。
最佳价值函数定义如下：

最佳价值函数的Bellman等式如下：

最佳策略定义如下：

最佳策略 $\pi$ ^*对于任意的其实状态都是相同的，因此无论起始状态如何都是相同的最佳策略。

2.价值迭代和策略迭代

对于有限状态的MDP，我们讨论两种解法，价值迭代和策略迭代。
价值迭代方法如下：

循环内的更新有两种方法：1.同步更新，先每个状态新的V(s)值，之后同时更新旧值；2.异步更新，每次便利所有状态，然后更新一个状态的V(s)值。
策略迭代方法如下：

步骤(a)中价值函数的求解，如前文所属求解由每个状态的Bellman等式组成的线性方程组。
对于小型的MDP过程，策略迭代速度更快，但是对于大型MDP会引入较大的线性方程组求解，因而价值迭代更优。

3.MDP学习模型

前面讨论了状态转移概率和奖励函数已知情况下的MDP和求解，实际情况中，很多时候要从数据计算状态转移概率和奖励函数。
例如有一系列实验数据如下：

其中s_i^(j)为第j次实验第i时刻的状态，a_i^(j)为采取的行动。转移概率如下：

对于从未到过的状态s，可以简单的假定为P_sa(s’)为1|S|\frac{1}{|S|}.
相似的，如果R未知，状态s的奖励函数R(s)由平均数求得。
之后可以使用价值迭代或策略迭代方法求解MDP过程，整个过程如下：

4.连续状态的MDP

上述讨论限于状态有限的MDP，接下来讨论无限状态的MDP。例如车辆的行驶状态，直升机的状态等等。

4.1 离散化

最简单的方式是通过离散化使用前文所提到的方法进行计算。例如对于2d状态可以通过网格离散化：

4.2 价值函数近似

4.2.1 使用模型或仿真器

我们假定有一个MDP的模型或仿真器，进而开发价值函数近似算法。简单地说，仿真器是一个黑盒，可以输入任意状态s_t和a_t,根据状态转移概率P_{s_ta_t}输出s_t+1.

有多种方法获取上述模型。一种是物理仿真。另一种方法是从已获取的MDP数据中学习模型。

应用学习算法预测s_t+1为s_t和a_t的函数。

4.2.2 Fitted value iteration

这一部分还未完全搞清楚，后续整理。

欢迎关注微信公众号“翰墨知道”，获取及时更新

斯坦福吴恩达《机器学习》--增强学习相关推荐

吴恩达机器学习视频学习笔记
吴恩达机器学习视频笔记介绍 Introduction 线性回归 Linear Regression 单变量 One Variable 多变量 Multiple Variables 多项式回归 Pol ...
吴恩达机器学习/深度学习中文文字版
元学习论文总结||小样本学习论文总结 2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017 ...
吴恩达机器学习 -- 神经网络学习
9.1 非线性假设无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大. 吴恩达老师举了一个例子: 当我们使用的多次项式进行预测时,我们可以应用的很好. 之前课程学习过 ...
【吴恩达机器学习】学习笔记——2.1单变量线性回归算法
1 回顾 1.1 监督学习定义:给定正确答案的机器学习算法分类: (1)回归算法:预测连续值的输出,如房价的预测 (2)分类算法:离散值的输出,如判断患病是否为某种癌症 1.2 非监督学习定义: ...
【吴恩达机器学习】学习笔记——1.3机器学习的定义
1 Arthur Samuel(1959):在没有明确编程的情况下使计算机获得学习的能力,该领域的研究为机器学习. 2 Tom Mitchell(1998):如果一个计算机程序解决任务T的性能达到了P ...
【吴恩达机器学习】学习笔记——4多元线性回归
1 多元线性回归假设形式多元线性回归算法的假设函数: 矩阵表示形式: 其中, 2 多元梯度下降梯度下降算法: 将成本函数代入得: 3 特征缩放为了使梯度下降算法更快的收敛,我们可以使用特征缩放将 ...
【吴恩达机器学习】学习笔记——1.5无监督学习
1 无监督学习:在不知道数据点的含义的情况下,从一个数据集中找出数据点的结构关系. 2 聚类算法:相同属性的数据点会集中分布,聚集在一起,聚类算法将数据集分成不同的聚类.也就是说,机器不知道这些数据点 ...
吴恩达机器学习--单变量线性回归【学习笔记】
说明:本文是本人用于记录学习吴恩达机器学习的学习笔记,如有不对之处请多多包涵. 作者:爱做梦的90后一.模型的描述: 下面的这张图片是对于课程中一些符号的基本的定义: 吴老师列举的最简单的单变量线性 ...
0.0 Introduction-机器学习笔记-斯坦福吴恩达教授
斯坦福学习笔记本书为斯坦福吴恩达教授的在 coursera 上的机器学习公开课的知识笔记,涵盖了大部分课上涉及到的知识点和内容,因为篇幅有限,部分公式的推导没有记录在案,但推荐大家还是在草稿本上演算 ...
下载量过百万的吴恩达机器学习和深度学习笔记更新了！（附PDF下载）
今天,我把吴恩达机器学习和深度学习课程笔记都更新了,并提供下载,这两本笔记非常适合机器学习和深度学习入门.(作者:黄海广) 0.导语我和同学将吴恩达老师机器学习和深度学习课程笔记做成了打印版,放在g ...

斯坦福吴恩达《机器学习》--增强学习