师兄博客原文地址 https://blog.csdn.net/LogHouse/article/details/96434429

从零开始的机器学习6-强化学习

  • 一些问题

智能控制与优化决策课题组制作。
对应周志华《机器学习》第十六章内容。

一些问题

1、分析强化学习与监督学习的联系与差别。
监督学习就是有导师学习,所学习的样例是有标签的。
强化学习是无导师学习。但实际上,强化学习有一位隐形的 导师,这个导师会告诉你所获得的 奖赏,这些奖赏其实也是一种标签,不过这种标签需要通过学习得到。
2、 ε \varepsilon ε-贪心法如何实现探索与利用的平衡。
探索指对未知的部分进行尝试和认知,尝试找到较当前最优解更优的解;
利用指使用已知部分的信息,保证解较优。
ε \varepsilon ε贪心法是一种平衡探索与利用的方法,以ϵ ε \varepsilon ε的概率进行探索,以 ε − 1 \varepsilon-1 ε−1的概率进行利用,通常令 ε \varepsilon ε取一个较小的常数,也就是说,以大概率利用,小概率探索。不过,如果你去餐馆的次数足够多了,几乎所有餐馆你都去过了,那里就可以放心的去你现在发现最好吃的餐馆了,所以,探索的概率逐渐减小也是个不错的选择。
3、如何用赌博机算法实现强化学习任务。
在玩K-摇臂赌博机时,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道,那要如何最大化自己的奖赏呢。最大化奖赏需要做两件事:1)尽可能准确的知道每个摇臂平均奖赏;2)尽可能多的利用平均奖赏最多的那个摇臂。
对于第一件事,需要的是多次尝试,观察记录摇臂按下的次数和获得的奖赏,计算每个摇臂的平均奖赏;对于第二件事,就是尽可能选择平均奖赏多的摇臂。
将赌博机算法用于每个状态,对每个状态分别记录个动作的尝试次数、当前平均累积奖赏等信息,然后基于 ε \varepsilon ε-贪心算法之类的方法选择下一步的动作。
4、试推导 γ \gamma γ折扣累积奖赏的全概率展开式(16.8)。
V γ π = E π [ ∑ t = 0 ∞ γ t r t + 1 ∣ x 0 = x ] = E π [ r 1 + ∑ t = 1 ∞ γ t r t + 1 ∣ x 0 = x ] = E π [ r 1 + γ ∑ t = 1 ∞ γ t − 1 r t + 1 ∣ x 0 = x ] = ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ X P x → x ′ a ( R x → x ′ a + γ E π [ ∑ t = 0 ∞ γ t r t + 1 ∣ x 0 = x ′ ] ) = ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ X P x → x ′ a ( R x → x ′ a + γ V γ π ( x ′ ) ) \begin{aligned} V^\pi_\gamma&=\mathbb{E}_\pi[\sum^\infin_{t=0} \gamma^tr_{t+1}|x_0=x]\\ &=\mathbb{E}_\pi[r_1+\sum^\infin_{t=1}\gamma^tr_{t+1}|x_0=x]\\ &=\mathbb{E}_\pi[r_1+\gamma\sum^\infin_{t=1}\gamma^{t-1}r_{t+1}|x_0=x]\\ &=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P^a_{x\rightarrow x'} (R^a_{x\rightarrow x'}+\gamma\mathbb{E}_\pi [\sum^\infin_{t=0}\gamma^tr_{t+1}|x_0=x'])\\ &=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P^a_{x\rightarrow x'} (R^a_{x\rightarrow x'}+\gamma V^\pi_\gamma(x')) \end{aligned} Vγπ​​=Eπ​[t=0∑∞​γtrt+1​∣x0​=x]=Eπ​[r1​+t=1∑∞​γtrt+1​∣x0​=x]=Eπ​[r1​+γt=1∑∞​γt−1rt+1​∣x0​=x]=a∈A∑​π(x,a)x′∈X∑​Px→x′a​(Rx→x′a​+γEπ​[t=0∑∞​γtrt+1​∣x0​=x′])=a∈A∑​π(x,a)x′∈X∑​Px→x′a​(Rx→x′a​+γVγπ​(x′))​
其中, π ( x , a ) \pi(x,a) π(x,a)表示在 x x x状态下执行动作 a a a的概率; P x → x ′ a P^a_{x\rightarrow x'} Px→x′a​表示执行动作 a a a之后转移到状态 x ′ x' x′的概率; R x → x ′ a + γ V γ π ( x ′ ) R^a_{x\rightarrow x'}+\gamma V^\pi_\gamma(x') Rx→x′a​+γVγπ​(x′)表示到达状态 x ′ x' x′所能获得的奖赏,其中 R x → x ′ a R^a_{x\rightarrow x'} Rx→x′a​为即时奖赏, γ V γ π ( x ′ ) \gamma V^\pi_\gamma(x') γVγπ​(x′)为未来奖赏的估计。
5、什么是动态规划中的最优性原理,与强化学习中的策略更新有什么关系
最优性原理:一个最优策略的子策略必须是最优的。
在强化学习中,策略实际上是状态到动作的映射,在某一个状态下,策略决定了采取什么动作。
如果每一个状态下采取的动作都是最优动作,那么,总的策略也会是最优的。
6、完成时序差分学习中式(16.31)的推导。
时序差分学习的特点就是每执行一步策略后就进行值函数的更新。
在计算第 t + 1 t+1 t+1个采样 r t + 1 r_{t+1} rt+1​时按照增量平均公式有:
Q t + 1 π ( x , a ) = Q t π ( x , a ) + 1 t + 1 ( r t + 1 − Q t π ( x , a ) ) Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\frac{1}{t+1}(r_{t+1}-Q^\pi_{t}(x,a)) Qt+1π​(x,a)=Qtπ​(x,a)+t+11​(rt+1​−Qtπ​(x,a))
采用近似的方法,令 α = α t + 1 , α \alpha=\alpha_{t+1},\alpha α=αt+1​,α为较小的整数。这种近似在 t t t增大时是收敛的。结合策略改进方式(16.15)有:
r t + 1 = ( R x → x ′ a + γ max ⁡ a ′ ∈ A + Q t π ( x ′ , a ′ ) r_{t+1}=(R^a_{x\rightarrow x'}+\gamma\max\limits_{a'\in A}+Q^\pi_{t}(x',a') rt+1​=(Rx→x′a​+γa′∈Amax​+Qtπ​(x′,a′)
推出:
Q t + 1 π ( x , a ) = Q t π ( x , a ) + α ( R x → x ′ a + γ max ⁡ a ′ ∈ A Q t π ( x ′ , a ′ ) − Q t π ( x , a ) ) Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x'}+\gamma\max\limits_{a'\in A}Q^\pi_{t}(x',a')-Q^\pi_{t}(x,a)) Qt+1π​(x,a)=Qtπ​(x,a)+α(Rx→x′a​+γa′∈Amax​Qtπ​(x′,a′)−Qtπ​(x,a))
综合 ε \varepsilon ε-贪心法可以的到:
Q t + 1 π ( x , a ) = Q t π ( x , a ) + α ( R x → x ′ a + γ Q t π ( x ′ , a ′ ) − Q t π ( x , a ) ) Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x'}+\gamma Q^\pi_{t}(x',a')-Q^\pi_{t}(x,a)) Qt+1π​(x,a)=Qtπ​(x,a)+α(Rx→x′a​+γQtπ​(x′,a′)−Qtπ​(x,a))

可结合我的这篇博文一起理解 强化学习——Q学习算法

机器学习6-强化学习相关推荐

  1. 李宏毅机器学习系列-强化学习之模仿学习

    李宏毅机器学习系列-强化学习之模仿学习 模仿学习 行为复制(Behavior Cloning) 逆向强化学习(Inverse Reinforcement Learning (IRL)) 第三人称模仿学 ...

  2. 李宏毅机器学习系列-强化学习之Q-Learning

    李宏毅机器学习系列-强化学习之Q-Learning 评判家(Critic) 怎么衡量$V^\pi(s)$ 蒙特卡洛法(MC) 时序差分算法(TD) MC和TD对比 另一种评判$Q^\pi(s,a)$ ...

  3. 【机器学习】强化学习算法的优化

    系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.神经网络框架的改进 二. 算法改进:ε-贪婪策略 前言 我们通过之前的学习知道了所谓的强化学习,关键就是学习 ...

  4. 【机器学习】强化学习的概念及马尔科夫决策

    系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.什么是强化学习? 二.强化学习算法的示例:火星探测器 三.强化学习的回报及折扣因子 四. 强化学习中的策略 ...

  5. 机器学习中强化学习是什么?人工智能机器学习

    机器学习需要通过建立模型进行自我学习,那么学习方法有哪些呢?本篇来给大家介绍一下机器学习中的强化学习.如果还不了解什么是机器学习的,先浏览下这篇内容: 机器学习是什么?详解机器学习概念_程序媛珂珂的博 ...

  6. 【机器学习】强化学习:马尔科夫决策过程(Markov decision process)

    本章是强化学习的基础,主要讲的就是马尔科夫决策过程,以后的内容都是以这一节为基础的,所以对本节的相关概念的理解是很重要的. 这一节的概念比较多,也是后面章节的基础,一开始笔者也是一头雾水,只有多看几遍 ...

  7. 机器学习(十) 强化学习

    前言   强化学习是机器学习领域除有监督学习.无监督学习外的另一个研究分支,它主要利用智能体与环境进行交互,从而学习到能获得良好结果的策略.与有监督学习不同,强化学习的动作并没有明确的标注信息,只有来 ...

  8. 机器学习之强化学习概览

    https://www.toutiao.com/a6683691974433702408/ 2019-04-25 12:58:24 本文翻译自Vishal Maini在Medium平台上发布的< ...

  9. 机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)

    文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...

  10. 【周志华机器学习】强化学习

    第十六章 强化学习 任务与奖赏 K-摇臂赌博机 e-贪心 Softmax 有模型学习 策略评估 策略改进 策略迭代与值迭代 免模型学习 蒙特卡罗强化学习 时序差分学习 值函数近似 模仿学习 任务与奖赏 ...

最新文章

  1. 从d2来看前端的未来
  2. Atitit.css 规范 bem  项目中 CSS 的组织和管理
  3. hdu2833 Floyd + dp
  4. oracle 数据立方_大数据之数据仓库分层
  5. 启明云端分享|SSW101B WIFI调试会遇到的问题答疑
  6. Windows Server 2016及System Center 2016正式商用
  7. 1012.log4cplus项目应用
  8. mysql 增删改查操作笔记
  9. Java 重载、重写(Override、Overload)
  10. 职称计算机xp上机考试内容,全国职称计算机考试WindowsXP中文操作系统模块最新上机操作试题(1-12套)...
  11. Neutron的Router简介
  12. 关于符号Symbol第二篇
  13. 关于电子书pdf打开无目录标签问题的解决方案
  14. Python脚本实现淘宝秒杀
  15. 高德地图插件使用汇总(干货-从注册到熟练使用)
  16. 《神经科学:探索脑》学习笔记(第9章 眼睛)
  17. 白盒测试方法之逻辑覆盖
  18. NID-00135: There are 1 active threads错误
  19. TMS320C6748开发视频教程笔记 第6章 GEL 文件
  20. OneKey Tools Lite插件安装常见问题集锦(PowerPoint版)

热门文章

  1. 9_1 法律法规标准化
  2. 小型温控系统c语言程序,pid算法温度控制c语言程序 - 全文
  3. gstreamer(三) 常用命令集锦
  4. 【CC2640】CC2640架构及原理
  5. appinventor java,(1) AppInventor高级组件之JavaReflector系列教程 概述
  6. QIIME2-傻瓜式安装
  7. XSS靶场level7秘籍
  8. PDF和CDF图的区别
  9. 【LOJ #6617】「THUPC 2019」摆家具 / furniture(DP / BSGS / 矩阵快速幂)
  10. (※)中序遍历二叉树的非递归算法