增强学习和控制

  在监督学习中,算法试图模仿训练机的labels y,训练集中的每一个输入x都有一个确定的对应的y,但是对于很多需要连续作决定的问题和控制问题,给算法提供一个明确的标签是很难的。例如我们有一个四足机器人,并且试图让他行走,开始的时候我们并不知道采取怎样的操作使他行走,也不知道怎么给算法提供一个标签来模仿。
  在增强学习中,我们会给算法提供一个奖励函数来反应做的好还是不好。例如对于上述的4足机器人,当他向前行走是给出正面的奖励,当他向后退或者摔倒时给出负面的奖励。然后学习算法就会学习选择怎样的操作来获取更多的奖励。
  增强学习在自治直升机、机器人、手机网络路由、销售策略选择、工业控制、网页索引等多领域取得了成功。对增强学习的研究从MDP(Markov desicion processes)开始。

1.MDP

  MDP是一个元组(S,A,Psa,γ\gamma,R),S是状态集,A是状态集,Psa是处于状态s采用动作a的状态转移概率,γ\gamma是折现因子,R是SA的奖励函数。
  MDP过程如下:初始状态s0s_0,采用动作a0a_0,按照Ps0a0转移到状态s1s_1,之后采取动作a1a_1,按照Ps1a1转移到状态s2s_2,如下图所示:

  得到的奖励如下:

  对于奖励函数只和状态有关的情况:

  增强学习的目标是最大化奖励:

  时间t时的奖励要乘上折现因子γt\gamma^t,因此最大化奖励,应尽早获取正奖励。
  策略函数π\pi是从状态S映射到动作A的函数,a=π(s)a=\pi(s),价值函数如下:

  对于给定的策略π\pi,价值函数VπV^\pi满足Bellman等式:

  价值函数Vπ(s)V^\pi(s)由两部分组成,当前奖励R(s)和后续奖励的折现。将第二部分可以看作对以s′s'为起点的价值函数(Es’~Psπ\pi(s)[Vπ(s′)V^\pi(s')])乘上折现因子,其中s′s'服从概率分布Psa
  Bellman等式可用于MDP价值函数的求解。对于状态有限的MDP过程,对于每一个状态s,都可以写出一个Bellman等式,由此给出了价值函数的线性方程组,可以解出价值函数。
  最佳价值函数定义如下:

  最佳价值函数的Bellman等式如下:

  最佳策略定义如下:

  最佳策略$\pi$*对于任意的其实状态都是相同的,因此无论起始状态如何都是相同的最佳策略。

2.价值迭代和策略迭代

对于有限状态的MDP,我们讨论两种解法,价值迭代和策略迭代。
价值迭代方法如下:

循环内的更新有两种方法:1.同步更新,先每个状态新的V(s)值,之后同时更新旧值;2.异步更新,每次便利所有状态,然后更新一个状态的V(s)值。
策略迭代方法如下:

步骤(a)中价值函数的求解,如前文所属求解由每个状态的Bellman等式组成的线性方程组。
对于小型的MDP过程,策略迭代速度更快,但是对于大型MDP会引入较大的线性方程组求解,因而价值迭代更优。

3.MDP学习模型

前面讨论了状态转移概率和奖励函数已知情况下的MDP和求解,实际情况中,很多时候要从数据计算状态转移概率和奖励函数。
例如有一系列实验数据如下:

其中si(j)为第j次实验第i时刻的状态,ai(j)为采取的行动。转移概率如下:

对于从未到过的状态s,可以简单的假定为Psa(s’)为1|S|\frac{1}{|S|}.
相似的,如果R未知,状态s的奖励函数R(s)由平均数求得。
之后可以使用价值迭代或策略迭代方法求解MDP过程,整个过程如下:

4.连续状态的MDP

上述讨论限于状态有限的MDP,接下来讨论无限状态的MDP。例如车辆的行驶状态,直升机的状态等等。

4.1 离散化

最简单的方式是通过离散化使用前文所提到的方法进行计算。例如对于2d状态可以通过网格离散化:

4.2 价值函数近似

4.2.1 使用模型或仿真器

我们假定有一个MDP的模型或仿真器,进而开发价值函数近似算法。简单地说,仿真器是一个黑盒,可以输入任意状态st和at,根据状态转移概率Pstat输出st+1.

有多种方法获取上述模型。一种是物理仿真。另一种方法是从已获取的MDP数据中学习模型。


应用学习算法预测st+1为st和at的函数。

4.2.2 Fitted value iteration

这一部分还未完全搞清楚,后续整理。

欢迎关注微信公众号“翰墨知道”,获取及时更新

斯坦福吴恩达《机器学习》--增强学习相关推荐

  1. 吴恩达机器学习视频学习笔记

    吴恩达机器学习视频笔记 介绍 Introduction 线性回归 Linear Regression 单变量 One Variable 多变量 Multiple Variables 多项式回归 Pol ...

  2. 吴恩达机器学习/深度学习中文文字版

    元学习论文总结||小样本学习论文总结 2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017 ...

  3. 吴恩达机器学习 -- 神经网络学习

    9.1 非线性假设 无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大. 吴恩达老师举了一个例子: 当我们使用 的多次项式进行预测时,我们可以应用的很好. 之前课程学习过 ...

  4. 【吴恩达机器学习】学习笔记——2.1单变量线性回归算法

    1 回顾 1.1 监督学习 定义:给定正确答案的机器学习算法 分类: (1)回归算法:预测连续值的输出,如房价的预测 (2)分类算法:离散值的输出,如判断患病是否为某种癌症 1.2 非监督学习 定义: ...

  5. 【吴恩达机器学习】学习笔记——1.3机器学习的定义

    1 Arthur Samuel(1959):在没有明确编程的情况下使计算机获得学习的能力,该领域的研究为机器学习. 2 Tom Mitchell(1998):如果一个计算机程序解决任务T的性能达到了P ...

  6. 【吴恩达机器学习】学习笔记——4多元线性回归

    1 多元线性回归假设形式 多元线性回归算法的假设函数: 矩阵表示形式: 其中, 2 多元梯度下降 梯度下降算法: 将成本函数代入得: 3 特征缩放 为了使梯度下降算法更快的收敛,我们可以使用特征缩放将 ...

  7. 【吴恩达机器学习】学习笔记——1.5无监督学习

    1 无监督学习:在不知道数据点的含义的情况下,从一个数据集中找出数据点的结构关系. 2 聚类算法:相同属性的数据点会集中分布,聚集在一起,聚类算法将数据集分成不同的聚类.也就是说,机器不知道这些数据点 ...

  8. 吴恩达机器学习--单变量线性回归【学习笔记】

    说明:本文是本人用于记录学习吴恩达机器学习的学习笔记,如有不对之处请多多包涵. 作者:爱做梦的90后 一.模型的描述: 下面的这张图片是对于课程中一些符号的基本的定义: 吴老师列举的最简单的单变量线性 ...

  9. 0.0 Introduction-机器学习笔记-斯坦福吴恩达教授

    斯坦福学习笔记 本书为斯坦福吴恩达教授的在 coursera 上的机器学习公开课的知识笔记,涵盖了大部分课上涉及到的知识点和内容,因为篇幅有限,部分公式的推导没有记录在案,但推荐大家还是在草稿本上演算 ...

  10. 下载量过百万的吴恩达机器学习和深度学习笔记更新了!(附PDF下载)

    今天,我把吴恩达机器学习和深度学习课程笔记都更新了,并提供下载,这两本笔记非常适合机器学习和深度学习入门.(作者:黄海广) 0.导语 我和同学将吴恩达老师机器学习和深度学习课程笔记做成了打印版,放在g ...

最新文章

  1. 随机矩阵理论_MIMO 信道容量的理论模型
  2. Error: pgraster_wkb_reader: grayscale band type 10 unsupported
  3. 【错误记录】Google Play 上架报错 ( APK 大小 | 目标 API 级别 | Google Play 帮助文档 )
  4. 开源矿工README
  5. h5 uniapp history模式下刷新页面404
  6. 将js对象转化为树形结构
  7. gcc和arm-linux-gcc区别
  8. wordpress如何让百度快速收录_百度搜狗蜘蛛池让你的新网站内页快速收录
  9. 计算机组成与结构知识点总结
  10. arcgis engine 打开shp文件
  11. c语言谷歌坐标转百度坐标,百度经纬度和google经纬度转换测试
  12. 如何集成支付宝到电脑网站
  13. mac bookpro m1 笔记本关闭键盘屏幕 禁用键盘屏幕使用 键盘屏幕误触 Touch Bar禁用 禁用MacBook-Pro的触摸栏
  14. SQL 注入速查表大全
  15. changelog 生成  npm install -g conventional-changelog-cli
  16. 进销存管理系统大全【70个进销存系统】
  17. 2023 樱花飘落官网单页HTML源码
  18. 一般空间曲线的旋转曲面、椭球面、单叶双曲面,双叶曲面
  19. 【Unity】Unity 脚下光圈
  20. 开源四轴无人机系统迈入新的阶段!

热门文章

  1. 【转】WCF、Net remoting、Web service概念及区别
  2. x86_64 Linux 运行时栈的字节对齐
  3. HIve:beeline终端上在输错hive语句时,无论 Backspace还是delete 都删除不掉错误的语句,没有办法退格...
  4. jqGrid方法整理
  5. 中国剩余定理-模版(互质版)
  6. as2的Key.isDown方法在as3的代替
  7. 明年的现在我也想去“双选会”应聘!
  8. KEIL MDK access violation at 0x40021000 : no ‘read‘ permission的一种解决方法
  9. 解决ubuntu上在androidstudio中启动emulator闪退的问题(1)
  10. 【报告分享】见实私域流量白皮书:私域流量案例实操手册.pdf