策略学习的意思是通过求解一个优化问题,学出最优策略函数 π ( a ∣ s ) \pi(a|s) π(a∣s)或它的近似函数(比如策略网络)。

一、策略网络


在 Atari 游戏、围棋等应用中,状态是张量(比如图片),那么应该如图 7.1 所示用卷积网络处理输入。在机器人控制等应用中,状态 s 是向量,它的元素是多个传感器的数值,那么应该把卷积网络换成全连接网络。

二、 策略学习的目标函数

  • 状态价值既依赖于当前状态 s t ,也依赖于策略网络 π 的参数 θ。
  • 策略学习的目标函数

三、策略梯度定理

四、Actor-Critic

1.价值网络

Actor-critic 方法用一个神经网络近似动作价值函数 Q π ( s , a ) Q _π (s,a) Qπ​(s,a),这个神经网络叫做“价值网络”,记为 q ( s , a ; w ) q(s,a;\bf{w}) q(s,a;w)

注:区别DQN网络的区别:

2.Actor-critic

策略网络 π ( a ∣ s ; θ ) π(a|s;θ) π(a∣s;θ) 相当于演员,它基于状态 s做出动作 a。价值网络 q ( s , a ; w ) q(s,a;w) q(s,a;w) 相当于评委,它给演员的表现打分,评价在状态 s 的情况下做出动作 a 的好坏程度。

注:

  • 训练策略网络(演员)需要的是回报 U,而不是奖励 R。价值网络(评委)能够估算出回报 U 的期望,因此能帮助训练策略网络(演员)。

(1)训练策略网络(演员)

然后做算法的更新:

(2)训练价值网络

用 SARSA算法更新 w w w,提高评委的水平。每次从环境中观测到一个奖励 r r r,把 r r r 看做是真相,用 r r r来校准评委的打分。

----------------------------------------------------------整体的训练步骤:----------------------------------------------------------

五、带基线的策略梯度方法

强化学习DRL--策略学习(Actor-Critic)相关推荐

  1. 强化学习3(策略学习)

    策略学习 前面已经学习过了策略函数 π ( a ∣ s ) \pi(a|s) π(a∣s),这是一个概率密度函数.只要有了一个好的策略函数,我们就可以根据策略函数自动控制智能体运动,所以下面我们就讨论 ...

  2. 强化学习论文笔记:Soft Actor Critic算法

    Soft Actor Critic是伯克利大学团队在2018年的ICML(International Conference on Machine Learning)上发表的off-policy mod ...

  3. 【MATLAB强化学习工具箱】学习笔记--actor网络和critic网络的结果放在哪里?

    原算例见 [MATLAB强化学习工具箱]学习笔记--在Simulink环境中训练智能体Create Simulink Environment and Train Agent_bear_miao的博客- ...

  4. 【强化学习笔记】2020 李宏毅 强化学习课程笔记(PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL)

    前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 文章目录 前言 Introduction Two Learning Mod ...

  5. 深度强化学习DRL训练指南和现存问题(D3QN(Dueling Double DQN))

    目录 参数 iteration episode epoch Batch_Size Experimence Replay Buffer经验回放缓存 Reward discount factor或gamm ...

  6. 强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)

    强化学习(三)-- 策略学习(Policy-Based)及策略梯度(Policy Gradient) 1. 策略学习 2. 策略梯度 3. 案例 1. 策略学习 Policy Network 通过策略 ...

  7. 7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法

    前6篇我们都是估计动作值函数Q,从而可以根据估计的Q值选择相应的动作.但是这样的值函数(Value Based)估计方法有着一定的限制.第一,值函数估计方法最后得到的策略是固定策略,不能应对最优策略是 ...

  8. 强化学习经典算法笔记(十九):无监督策略学习算法Diversity Is All You Need

    强化学习经典算法笔记19:无监督策略学习算法Diversity Is All You Need DIAYN核心要点 模型定义 目标函数的构造 DIAYN算法细节 目标函数的优化 SAC的训练 判别器的 ...

  9. 【深度强化学习】策略梯度 Policy Gradients

    文章目录 前言 values 和 policy 策略的表示 策略梯度 REINFORCE method 实例:CartPole 前言 重读<Deep Reinforcemnet Learning ...

  10. 强化学习 动态规划 策略评估 策略改进 策略迭代 有模型 无模型

    目录 一.动态规划 1.1核心思想 1.2异步动态规划 二.策略评估与改进 2.1有模型学习与无模型学习 2.2策略评估 2.2.1输入 2.2.2输出 2.2.3迭代过程 2.3策略改进 2.3.1 ...

最新文章

  1. 在不丢失堆栈跟踪的情况下重新抛出Java中的异常
  2. Dubbo设置超时时间
  3. 学校不用考直接过计算机一级,全国计算机等级考试1级是不是必须要考的啊
  4. 机器人暮色枪骑皮肤_吃鸡幸运新转盘:新载具皮肤和纸盒武器皮肤!
  5. config修改php背景颜色,动态永久修改config
  6. java excel .do_Java Excel
  7. Bailian2701 Bailian3864 POJ NOI0105-39 与7无关的数【进制】
  8. UITableViewDataSource Protocol Reference
  9. Dubbo的架构体系
  10. 火热报名|Apache Pulsar x KubeSphere 在线 Meetup 来袭
  11. java开发微信公众号(SpringMVC)2-消息管理功能
  12. 惊闻“漫游成本只有一分钱”
  13. 梦想CAD控件自定义实体实现
  14. 融资融券五月试点 首批入选券商或增至5家
  15. ssh隧道-能ssh就能http和tcp,通过ssh就能访问内网web页面和数据库
  16. 使用Python爬虫爬取简单网页(Python爬虫入门)
  17. Redis底层数据结构详解(一)
  18. linux 解压命令不提示信息,技术编辑研习linux解压命令【解决措施】
  19. 遇到apt-get锁怎么办Unable to acquire the dpkg frontend lock
  20. 国鼎IGBT-TRW(E/G)5065NH1是50A,650V高可靠性IGBT,具有高速开关特性、及低导通损耗和开关损耗等特点

热门文章

  1. 华为U-SYS系统力助运营商实施转型
  2. vue-amap 实现定位+跑步路程+跑步时间计算功能
  3. scanner 获取控制台信息_关于java.util.scanner:如何使用Java中的Scanner类从控制台读取输入?...
  4. 亚马逊echo中国使用_我需要Amazon Echo才能使用Alexa吗?
  5. 电磁波极化原理及仿真
  6. 数据库的学习MySQL
  7. 19106225贾奎滢
  8. 小程序支付报错:向微信请求统一下单失败:商户号该产品权限未开通,请前往商户平台>产品中心检查后重试
  9. ISP(二) Demosiac 去马赛克 (CIP)
  10. SLC NAND FLASH的物理结构