关于周志华老师的《机器学习》这本书的学习笔记
记录学习过程
本博客记录Chapter16

文章目录

  • 1 任务与奖赏
  • 2 K-摇臂赌博机
    • 2.1 ϵ\epsilonϵ-贪心
    • 2.2 Softmax
  • 3 有模型学习
  • 4 免模型学习
    • 4.1 蒙特卡洛强化学习
    • 4.2 时序差分学习
  • 5 值函数近似
  • 6 模仿学习
    • 6.1 直接模仿学习
    • 6.2 逆强化学习

1 任务与奖赏

强化学习(Reinforcement Learning)是机器学习的重要分支。强化学习是指从环境状态从动作映射的学习,以使动作从环境中获得的累计奖赏值最大。与监督学习不同,监督学习通过正例、反例来训练模型采用何种行为,而强化学习通过探索试错的策略发现最优行为策略。

强化学习的基本结构如下所示:

该模型共包括五个重要组成部分:

  • 智能主体(agent):智能主体指的是驻留在某一环境下,能持续自主地发挥作用,具有驻留性、反应性、社会性和主动性等特征的计算实体。它能根据外界环境的变化,自主地对自己的行为和状态进行调整,具备对外界刺激做出相应的反应的能力,并能积累或学习经验和知识,修改自己的行为决策以适应新环境。
  • 环境(environment):环境指系统中智能主体以外的部分,能够向智能主体提供反馈状态和奖励,并按照所规定的规律发生相应的变化。
  • 状态(state):状态指智能主体所处的当前状态情况。
  • 行为(action):行为指智能主体在当前所处状态下所做出的动作行为。
  • 奖惩反馈(reward):奖惩反馈是环境给予智能体所做行为的反馈。若智能体做出的行为得到换将正的奖赏,则强化信号;反之则减弱信号。

针对智能体选择行为的方式,强化学习方法可以分为基于价值的方法基于概率的方法。基于价值的方法的输出值是下一步要采取的各种动作的价值,根据价值最高的原则选择动作,经常应用于不连续的动作行为,常见的算法包括Q learning,Sarsa算法;基于概率的方法能通过感官分析所处的环境,输出下一步要采取的各种动作的概率,根据概率选择行动,经常应用于连续的动作行为,常见的算法包括Policy Gradients算法等。

2 K-摇臂赌博机

与一般监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖赏,即仅考虑一步操作。

欲最大化单步奖赏需考虑两个方面:

  • 一是需知道每个动作带来的奖赏
  • 二是要执行奖赏最大的动作。

若每个动作对应的奖赏是一个确定值,那么尝试一遍所有的动作便能找出奖赏最大的动作。然而,更一般的情形是,一个动作的奖赏值是来自于一个概率分布,仅通过一次尝试并不能确切地获得平均奖赏值。

实际上,单步强化学习任务对应了一个理论模型,即 “K-摇臂赌博机”:K-摇臂赌博机有K个摇臂,赌徒在投入一个硬币后可选择按下其中1个摇臂,每个摇臂以一定的概率吐出硬币。但这个概 率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖赏,即获得最多的硬币。

强化学习所面临的"探索-利用窘境" (ExplorationExploitation dilemma)。 显然,欲累积奖赏最大,则必须在探索与利用之间达成较好的折中。

2.1 ϵ\epsilonϵ-贪心

ϵ\epsilonϵ-贪心法基于一个概率来对探索和利用进行折中:每次尝试时,以ϵ\epsilonϵ的概率进行探索,即以均匀概率随机选取一个摇臂;以 1-ϵ\epsilonϵ的概率进行利用,即选择当前平均奖赏最高的摇臂(若有多个,则随机选取一个)。

2.2 Softmax

Sotfmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中。若各摇臂的平均奖赏相当,则选取各摇臂的概率也相当;若某些摇臂的平均奖赏明显高于其他摇臂,则它们被选取的概率也明显更高。

Sotfmax 算法中摇臂概率的分配是基于Boltzmann 分布:
P(k)=eQ(k)τ∑i=1KeQ(i)τP(k)=\frac{e^{\frac{Q(k)}{\tau}}}{\sum_{i=1}^K e^{\frac{Q(i)}{\tau}}} P(k)=∑i=1K​eτQ(i)​eτQ(k)​​
其中,Q(i)Q(i)Q(i)记录当前摇臂的平均奖赏;τ>0\tau>0τ>0 称为"温度" , τ\tauτ越小则平均奖赏高的摇臂被选取的概率越高;τ\tauτ趋于0时,Softmax 将趋于"仅利用"; τ\tauτ趋于无穷大时,Softmax 则将趋于"仅探索"。

3 有模型学习

考虑多步强化学习任务,暂且先假定任务对应的马尔可夫决策过程四元组E=(X,A,P,R)E=(X,A,P,R)E=(X,A,P,R) 均为己知。这样的情形称为 “模型已知”,即机器对环境进行了建模,能在机器内部模拟出与环境相同或近似的状况。在己知模型的环境中学习称为"有模型学习" 。

理想的策略为最大化累计奖赏:
π∗=arg⁡max⁡π∑x∈XVπ(x)\pi^*=\mathop{\arg \max}_\pi \sum_{x\in X}V^{\pi}(x) π∗=argmaxπ​x∈X∑​Vπ(x)

4 免模型学习

在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中共有多少状态。若学习算法不依赖于环境建模,则称为 “免模型学习” (model-free learning),这比有模型学习要难得多。

4.1 蒙特卡洛强化学习

受K摇臂赌博机的启发,一种直接的策略评估替代方法是多次"采样",然后求取平均累积奖赏来作为期望累积奖赏的近似,这称为蒙特卡罗强化学习。由于采样必须为有限次数,因此该方法适合于使用T步累积奖赏的强化学习任务。

4.2 时序差分学习

时序差分 (Temporal Difference,简称TD) 学习结合了动态规划与蒙特卡罗方法的思想,能做到更高效的免模型学习。

蒙特卡洛方法相当于是“批处理”,实际中可以使用增量方法更新值函数。

5 值函数近似

现实情况,我们面对的状态空间往往是连续的,有无穷多个状态。一种做法是对状态空间离散化,另一种方法时直接对连续状态空间地值函数来进行学习。

假定状态空间为nnn维实数空间X=RnX=\mathbb R^nX=Rn,将值函数表达为状态的线性函数:
Vθ(x)=θTxV_\theta(x)=\theta^Tx Vθ​(x)=θTx
值函数的求解被称为值函数近似

利用最小二乘法和梯度下降法,求解得到单个样本的更新规则:
θ=θ+α(Vπ(x)−Vθ(x))x\theta = \theta+\alpha(V^{\pi}(x)-V_\theta(x))x θ=θ+α(Vπ(x)−Vθ​(x))x

6 模仿学习

6.1 直接模仿学习

假定我们获得了一批人类专家的决策轨迹数据{τ1,τ2,⋯,τm}\{\tau_1,\tau_2,\cdots,\tau_m \}{τ1​,τ2​,⋯,τm​}, 每条轨迹包含状态和动作序列
τi=<s1i,α1i,s2i,α2i,⋯,sni+1i>\tau_i = \big< s_1^i,\alpha_1^i,s_2^i,\alpha_2^i,\cdots,s_{n_i+1}^i \big> τi​=⟨s1i​,α1i​,s2i​,α2i​,⋯,sni​+1i​⟩
其中τi\tau_iτi​为第iii条轨迹中的转移次数。有了这样的数据,就相当于告际机器在什么状态下应选择什么动作,于是可利用监督学习来学得符合人类专家决策轨迹数据的策略。

6.2 逆强化学习

逆强化学习的基本思想是:欲使机器做出与范例一致的行为,等价于在某个奖赏函数的环境中求解最优策略,该最优策略所产生的轨迹与范例数据一致。换言之,我们要寻找某种奖赏函数使得范例数据是最优的,然后即可使用这个奖赏函数来训练强化学习策略。

机器学习(周志华) 第十六章强化学习相关推荐

  1. 西瓜书(机器学习 周志华)读书笔记--第一章 绪论

    1.1 引言 略 1.2 基本术语 1.2.1 数据集相关的基本概念 假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽= ...

  2. 机器学习(周志华西瓜书) 参考答案 总目录

    转自:http://blog.csdn.net/icefire_tyh/article/details/52064910 从刚开始学习机器学习到现在也有几个月了,期间看过PDF,上过MOOC,总感觉知 ...

  3. 机器学习(周志华) 参考答案 第十四章 概率图模型 14.9

    机器学习(周志华西瓜书) 参考答案 总目录 http://blog.csdn.net/icefire_tyh/article/details/52064910 机器学习(周志华) 参考答案 第十四章 ...

  4. 机器学习 周志华 第一章课后习题

    机器学习 周志华 第一章课后习题 1.1 1.2 1.3 1.4 1.5 1.1 在下面这张图片中若只包含编号为1和4的两个样例,试给出相应的版本空间. 书上实例: 1.表 1.1 对应的假设空间如下 ...

  5. 小吴的《机器学习 周志华》学习笔记 第二章 模型评估与选择

    小吴的<机器学习 周志华>学习笔记 第二章 模型评估与选择 上一周我们介绍了第一章的基础概念,这一次将带来第二章的前三节.后面的2.4 比较检验与2.5 偏差与方差,涉及概率论与数理统计概 ...

  6. 小吴的《机器学习 周志华》学习笔记 第一章 绪论

    小吴的<机器学习 周志华>学习笔记 第一章 绪论 近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...

  7. 小吴的《机器学习 周志华》学习笔记 第二章 2.4 比较检验、2.5 偏差与方差

    小吴的<机器学习 周志华>学习笔记 第二章 2.4 比较检验. 2.5 偏差与方差 2.4 比较检验 上一周提到了实验的评价方法和性能量度,步骤简单可以看成:先使用某种实验评估方法测得学习 ...

  8. 机器学习 周志华 课后习题3.5 线性判别分析LDA

    机器学习 周志华 课后习题3.5 线性判别分析LDA 照着书上敲了敲啥都不会,雀食折磨 python代码 # coding=UTF-8 from numpy import * # 我安装numpy的时 ...

  9. 【机器学习-周志华】学习笔记-第十五章

    记录第一遍没看懂的 记录觉得有用的 其他章节:         第一章         第三章         第五章         第六章         第七章         第八章      ...

  10. 机器学习西瓜书(周志华)第七章 贝叶斯分类器

    第七章 贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论 贝 ...

最新文章

  1. UML用例图概要(转)
  2. 12月8日中科院刘永鑫报告:宏基因组数据分析的机遇与挑战
  3. alibaba cloud 打包_阿里也上VS Code船了,发布Alibaba Cloud Toolkit插件
  4. ArrayList的实现原理--转
  5. python主要用于系统编程_一文带你了解python是什么?能做什么?为什么(附赠40G项目实战+绝版电子书)...
  6. Artifactory——启动错误[Artifactory failed to initialize: check Artifactory logs for errors.]解决方案
  7. js Blob对象介绍
  8. 关于拓扑排序的问题-P3116 [USACO15JAN]会议时间Meeting Time
  9. 598. 范围求和 II
  10. Linux的Qt编译出现:-1: error: cannot find -lGL问题的解决方法
  11. SringBoot/Cloud/Aalibab 事务管理
  12. (BFS+hash去重)八数码问题
  13. 针对PostgreSQL的Linux下XFS文件系统优化。
  14. ProteusPro(EDA工具软件) V8.9 _下载及安装
  15. 关于protues仿真中的OLED显示模块的使用
  16. 服务器频繁重启怎么解决
  17. SpringMVC整合百度富文本编辑器
  18. 使用IDEA连接本地数据库
  19. 分享记录第一次在小鸟云网站备案
  20. bochs安装以及使用

热门文章

  1. 【数值计算】计算机中的数值计算
  2. 软件系统上线前演示剧本
  3. 建议IPC采用RTMP(server+rtmppush)的流媒体框架。
  4. SFML/C++二维热传导模拟,热传导方程
  5. 它不是哆啦A梦 也能满足你的挑剔需求
  6. 基于ECharts和腾讯疫情数据接口的全球疫情地图(超全)
  7. 双android手机同步工具,手机同步软件Android Manager使用图文教程
  8. 08CMS之数据库字段在表单中的展现
  9. Xpose模块抓取函数功能学习笔记
  10. 2021年高压电工考试及高压电工考试资料