强化学习最主要的两种方式之一,策略学习的究竟是怎么回事?此处笔记根据B站课程,王树森老师的强化学习记录而来。3.深度强化学习(3_5):策略学习 Policy-Based Reinfor(Av374239425,P3)_哔哩哔哩_bilibili

Policy-based Reinforcement Learning 策略学习

1.回顾策略函数

策略学习的本质就是使用一种方式来近似策略函数Π(a|s), Policy Function Approximation

Policy Function Π(a|s) ,其是一个概率密度分布PDF,使用网络来近似策略函数,则输入是state s,输出是该条件下各个动作的概率,根据概率进行随机抽样,选择下一个action。在这个过程中,Π(a|s)控制agent做出反应。

想要让agent玩超级玛丽这样的游戏,并不能把所有的状态和动作记录下来,所以我们要做函数近似,学习一个函数近似策略函数,近似的方法是多种多样的。

策略网络,Policy Network,使用一个神经网络近似Π(a|s)

Model   Π(a|s;θ) ————近似——>Π(a|s),其中θ是要学习的参数。

由于Π是概率密度函数PDF,所以有性质:

已知动作价值函数QΠ,在其基础上,去除策略Π的影响,得到状态价值函数VΠ,可以评价当前状态的好坏,也能评价策略policy Π的好坏,VΠ越大,说明policy Π越好。

2.Policy-base Reinforcement Learning策略基础的强化学习

使用神经网络来代替策略函数Π,该神经网络就叫做策略网络。

为了使V(s;θ) 足够大,我们调整θ的值,其中V(S;θ)对S求期望,则J(θ)就只与θ的值相关。当观测到状态s时,使用策略梯度更新θ的值。这里使用的是梯度上升,实际就是随机梯度,随机性来自s,目标是让J(θ)越来越大。

这里的梯度并不是真正的梯度,真正的梯度是目标函数(价值)关于θ的导数,这里只是VΠ(状态转移函数)关于θ的导数。

3.策略梯度如何计算?Policy Gradient

V(s,θ)是对state-value function的近似,梯度是V对θ的导数,推到过程大致如下:

这里做一个假设,QΠ不依赖于θ,这个假设是为了简单理解,并不严谨,因为QΠ是依赖于θ的。

在此处得到了策略梯度计算的第一个公式,但实际应用中并不这么用,都是使用蒙特卡洛近似。因为Π在这里是复杂的神经网路,并不能简单的计算积分。

 接下来做蒙特卡洛近似:从上往下推不太好推,但是可以从下往上验证:使用链式法则

因此得到策略梯度的两种等价形式:

3.计算策略梯度函数:离散、连续

 

4.算法:

如何计算qt,有两种方式:第一种方式用u(t)替代QΠ函数,需要玩完一局游戏,观测到所有奖励,才能更新网络。另一种方式是使用神经网络近似QΠ,这样就有两个神经网络,一个近似Π,一个近似QΠ,叫做actor-critic模型。

Summary

【Reinforcement Learning】策略学习相关推荐

  1. Reinforcement learning book 学习笔记 第一章

    RL学习 写在前面: 本专栏是学习由Richard S. Sutton and Andrew G. Barto 所著 <Reinforcement learning>的学习笔记,如有指正请 ...

  2. 强化学习(Reinforcement Learning)入门学习--01

    强化学习(Reinforcement Learning)入门学习–01 定义 Reinforcement learning (RL) is an area of machine learning in ...

  3. 机器学习-49-RL-01-Deep Reinforcement Learning(强化学习-强化学习的基本介绍 Policy-based方法的基本介绍)

    文章目录 Deep Reinforcement Learning Reference Example: Scenario of Reinforcement Learning(强化学习的应用场景) Su ...

  4. 李宏毅Reinforcement Learning强化学习入门笔记

    文章目录 Concepts in Reinforcement Learning Difficulties in RL A3C Method Brief Introduction Policy-base ...

  5. Reinforcement Learning强化学习系列之二:MC prediction

    引言 这几个月一直在忙找工作和毕业论文的事情,博客搁置了一段时间,现在稍微有点空闲时间,又啃起了强化学习的东西,今天主要介绍的是强化学习的免模型学习free-model learning中的最基础的部 ...

  6. Reinforcement Learning | 强化学习十种应用场景及新手学习入门教程

    文章目录 1.在自动驾驶汽车中的应用 2.强化学习的行业自动化 3.强化学习在贸易和金融中的应用 4.NLP(自然语言处理)中的强化学习 5.强化学习在医疗保健中的应用 6.强化学习在工程中的应用 7 ...

  7. Reinforcement Learning——强化学习

    强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励. 强化学习和监督学习 强化学习有这个 试错探索(trial-and-err ...

  8. Reinforcement Learning强化学习 (第二版)

    中文版: 链接:https://pan.baidu.com/s/19Ci_47hjfEfLhfNs3EtuyA?pwd=lul1  提取码:lul1

  9. 分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey

    论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...

最新文章

  1. PHP整数取余返回负数解决办法
  2. Silverlight调用的JS方法返回对象数组的处理方法
  3. 详解shuffle过程(转载)
  4. Property ‘configuration‘ and ‘configLocation‘ can not specified with together
  5. 成功解决xgboost.core.XGBoostError: b‘[14:48:08] 0 feature is supplied. Are you using raw Booster inter
  6. $bzoj1060-ZJOI2007$ 时态同步 贪心 树形$dp$
  7. Hibernate提供的内置标识符生成器
  8. B. Bogosort codeforces(思维)
  9. linux卸载minicoda2,MiniConda2下载 MiniConda python 2.7 v4.3.30.2 Linux 64位 官方免费版(附安装步骤) 下载-脚本之家...
  10. php字符串怎么传到html_php字符串函数(四):html与字符串之间的转换
  11. InnerClass内部类
  12. 随机交换检验数据挖掘结果-assessing data mining result via swap randomization
  13. 8.0服务器维护时间,魔兽世界8.0服务器维护把玩家心态搞崩 网友:喜闻乐见
  14. python注册登陆程序未响应_SpringBoot实现登录注册常见问题解决方案
  15. 信息服务器 iis 5.0,使用IIS 5.0调整Web服务器的艺术与科学(4)
  16. python重定向网页_【Python网页分析】httplib库的重定向处理
  17. excel如何把顺序倒过来_春节酒局多,这些葡萄酒倒酒礼仪你一定要知道
  18. 2021-2025年中国厨房橱柜行业市场供需与战略研究报告
  19. 1038. 统计同成绩学生(20)-PAT乙级真题
  20. Atitit..状态机与词法分析  通用分词器 分词引擎的设计与实现 attilax总结

热门文章

  1. FPGA基础知识(六)UG586 Mermoy Interface Solutions内存接口的生成与使用
  2. Bugku之Crypto(前十部分WP)
  3. 瑞昱Realtek显示类芯片-简介V2.0
  4. linux命令后台运行[转]
  5. 抖音智能剪辑,视频批量发布,多账号管理,抖音搜索排名系统源码搭建
  6. 从小白程序员到大厂高级技术专家,这些系统架构方案是你必须要掌握的!!
  7. 文件权限概念,相关操作
  8. win10 一直循环重启, 页面 “scanning and repairing (C): ”...(已解决!)
  9. pip+conda更换国内源(ubuntu18.04+win10)
  10. Win10安装fbprophet实录