强化学习DRL--策略学习(Actor-Critic)
策略学习的意思是通过求解一个优化问题,学出最优策略函数
π ( a ∣ s ) \pi(a|s) π(a∣s)或它的近似函数(比如策略网络)。
一、策略网络
在 Atari 游戏、围棋等应用中,状态是张量(比如图片),那么应该如图 7.1 所示用卷积网络处理输入。在机器人控制等应用中,状态 s 是向量,它的元素是多个传感器的数值,那么应该把卷积网络换成全连接网络。
二、 策略学习的目标函数
- 状态价值既依赖于当前状态 s t ,也依赖于策略网络 π 的参数 θ。
- 策略学习的目标函数
三、策略梯度定理
四、Actor-Critic
1.价值网络
Actor-critic 方法用一个神经网络近似动作价值函数 Q π ( s , a ) Q _π (s,a) Qπ(s,a),这个神经网络叫做“价值网络”,记为 q ( s , a ; w ) q(s,a;\bf{w}) q(s,a;w)
注:区别DQN网络的区别:
2.Actor-critic
策略网络 π ( a ∣ s ; θ ) π(a|s;θ) π(a∣s;θ) 相当于演员,它基于状态 s做出动作 a。价值网络 q ( s , a ; w ) q(s,a;w) q(s,a;w) 相当于评委,它给演员的表现打分,评价在状态 s 的情况下做出动作 a 的好坏程度。
注:
- 训练策略网络(演员)需要的是回报 U,而不是奖励 R。价值网络(评委)能够估算出回报 U 的期望,因此能帮助训练策略网络(演员)。
(1)训练策略网络(演员)
然后做算法的更新:
(2)训练价值网络
用 SARSA算法更新 w w w,提高评委的水平。每次从环境中观测到一个奖励 r r r,把 r r r 看做是真相,用 r r r来校准评委的打分。
----------------------------------------------------------整体的训练步骤:----------------------------------------------------------
五、带基线的策略梯度方法
强化学习DRL--策略学习(Actor-Critic)相关推荐
- 强化学习3(策略学习)
策略学习 前面已经学习过了策略函数 π ( a ∣ s ) \pi(a|s) π(a∣s),这是一个概率密度函数.只要有了一个好的策略函数,我们就可以根据策略函数自动控制智能体运动,所以下面我们就讨论 ...
- 强化学习论文笔记:Soft Actor Critic算法
Soft Actor Critic是伯克利大学团队在2018年的ICML(International Conference on Machine Learning)上发表的off-policy mod ...
- 【MATLAB强化学习工具箱】学习笔记--actor网络和critic网络的结果放在哪里?
原算例见 [MATLAB强化学习工具箱]学习笔记--在Simulink环境中训练智能体Create Simulink Environment and Train Agent_bear_miao的博客- ...
- 【强化学习笔记】2020 李宏毅 强化学习课程笔记(PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL)
前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 文章目录 前言 Introduction Two Learning Mod ...
- 深度强化学习DRL训练指南和现存问题(D3QN(Dueling Double DQN))
目录 参数 iteration episode epoch Batch_Size Experimence Replay Buffer经验回放缓存 Reward discount factor或gamm ...
- 强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)
强化学习(三)-- 策略学习(Policy-Based)及策略梯度(Policy Gradient) 1. 策略学习 2. 策略梯度 3. 案例 1. 策略学习 Policy Network 通过策略 ...
- 7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法
前6篇我们都是估计动作值函数Q,从而可以根据估计的Q值选择相应的动作.但是这样的值函数(Value Based)估计方法有着一定的限制.第一,值函数估计方法最后得到的策略是固定策略,不能应对最优策略是 ...
- 强化学习经典算法笔记(十九):无监督策略学习算法Diversity Is All You Need
强化学习经典算法笔记19:无监督策略学习算法Diversity Is All You Need DIAYN核心要点 模型定义 目标函数的构造 DIAYN算法细节 目标函数的优化 SAC的训练 判别器的 ...
- 【深度强化学习】策略梯度 Policy Gradients
文章目录 前言 values 和 policy 策略的表示 策略梯度 REINFORCE method 实例:CartPole 前言 重读<Deep Reinforcemnet Learning ...
- 强化学习 动态规划 策略评估 策略改进 策略迭代 有模型 无模型
目录 一.动态规划 1.1核心思想 1.2异步动态规划 二.策略评估与改进 2.1有模型学习与无模型学习 2.2策略评估 2.2.1输入 2.2.2输出 2.2.3迭代过程 2.3策略改进 2.3.1 ...
最新文章
- 在不丢失堆栈跟踪的情况下重新抛出Java中的异常
- Dubbo设置超时时间
- 学校不用考直接过计算机一级,全国计算机等级考试1级是不是必须要考的啊
- 机器人暮色枪骑皮肤_吃鸡幸运新转盘:新载具皮肤和纸盒武器皮肤!
- config修改php背景颜色,动态永久修改config
- java excel .do_Java Excel
- Bailian2701 Bailian3864 POJ NOI0105-39 与7无关的数【进制】
- UITableViewDataSource Protocol Reference
- Dubbo的架构体系
- 火热报名|Apache Pulsar x KubeSphere 在线 Meetup 来袭
- java开发微信公众号(SpringMVC)2-消息管理功能
- 惊闻“漫游成本只有一分钱”
- 梦想CAD控件自定义实体实现
- 融资融券五月试点 首批入选券商或增至5家
- ssh隧道-能ssh就能http和tcp,通过ssh就能访问内网web页面和数据库
- 使用Python爬虫爬取简单网页(Python爬虫入门)
- Redis底层数据结构详解(一)
- linux 解压命令不提示信息,技术编辑研习linux解压命令【解决措施】
- 遇到apt-get锁怎么办Unable to acquire the dpkg frontend lock
- 国鼎IGBT-TRW(E/G)5065NH1是50A,650V高可靠性IGBT,具有高速开关特性、及低导通损耗和开关损耗等特点
热门文章
- 华为U-SYS系统力助运营商实施转型
- vue-amap 实现定位+跑步路程+跑步时间计算功能
- scanner 获取控制台信息_关于java.util.scanner:如何使用Java中的Scanner类从控制台读取输入?...
- 亚马逊echo中国使用_我需要Amazon Echo才能使用Alexa吗?
- 电磁波极化原理及仿真
- 数据库的学习MySQL
- 19106225贾奎滢
- 小程序支付报错:向微信请求统一下单失败:商户号该产品权限未开通,请前往商户平台>产品中心检查后重试
- ISP(二) Demosiac 去马赛克 (CIP)
- SLC NAND FLASH的物理结构