强化学习笔记 DDPG (Deep Deterministic Policy Gradient)
1 总述
总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay
强化学习笔记 experience replay 经验回放_UQI-LIUWJ的博客-CSDN博客
强化学习笔记:Actor-critic_UQI-LIUWJ的博客-CSDN博客
DQN 笔记 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客
2 模型介绍
2.1 整体架构
看模型架构和actor-critic 类似,也是训练一个actor 网络(策略网络)以及一个critic网络(DQN)
2.2 目标网络+经验回放
Q-network和带目标网络的DQN一样
但是这里因为是actor-critic结构,所以相应的策略网络(actor)也需要有target-network。这样的话 eval-actor的动作喂给eval-critic,target=actor的动作喂给target-critic
3 soft-replace
在DQN中,每过一定的回合,就直接将eval net的所有参数给替换成target net。这种做法被称为hard replace。
DQN 笔记 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客
而在DDPG中一般采取的是soft replace。即每一个回合都将target net的参数用一个小步长向着eval net的方向更新。如此看来,target net就是eval net的一个比较滞后的版本。
3.1 为什么要把hard replace改成soft replace
这是为了使得训练更加稳定。因为我们加入时滞的target net目的是让问题变得更像一个监督学习问题,让label更加稳定。
而在hard replace的前后,可能全局所有Q(s_)的label都发生了剧烈的变化,我们可以想成整个监督学习的问题都变了。这样会导致求解的结果不稳定。
而soft replace可以在让label缓慢地发生变化,更加的平缓一些。
强化学习笔记 DDPG (Deep Deterministic Policy Gradient)相关推荐
- 【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...
- DDPG(Deep Deterministic Policy Gradient)
Hi,这是第二篇算法简介呀 论文链接:"Continuous control with deep reinforcement learning." ,2016 文章概述 这篇文 ...
- 【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解
1 DDPG简介 DDPG吸收了Actor-Critic让Policy Gradient 单步更新的精华,而且还吸收让计算机学会玩游戏的DQN的精华,合并成了一种新算法,叫做Deep Deterini ...
- 【7】强化学习之策略梯度(Policy Gradient)
[李宏毅]强化学习笔记(一) 什么是强化学习 监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...
- 深度增强学习DDPG(Deep Deterministic Policy Gradient)算法源码走读
原文链接:https://blog.csdn.net/jinzhuojun/article/details/82556127 本文是基于OpenAI推出deep reinforcement learn ...
- 强化学习(4):策略梯度Policy Gradient算法
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 终于到Policy Gradient方法了! 一.引言 reinforcement le ...
- 机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)
文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...
- 强化学习(二):Policy Gradient理解
上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解.于是,本章我们就 ...
- 强化学习:DDPG到MADDPG
目录 策略梯度(Policy Gradient) 行动器-评判器方法(Actor-Critic) Deterministic Policy Gradient on-policy和off-policy ...
最新文章
- java 运算符输入_java-运算符,IO输入输出,文件操作
- 图像压缩算法动态规划c语言,图像压缩算法 动态规划
- 自动undo管理下如何添加和删除回滚段
- SpringAMQP--WorkQueue模型
- LevelDB 源码剖析(九)DBImpl模块:Open、Get、Put、Delete、Write
- Leetcode-3 无重复字符的最长子串【c语言】
- 贪心算法—区间调度 电影节(POJ 4151)
- c#.net操作注册表RegistryKey
- windows 64 搭建RabbitMQ环境
- Fedora下安装Nerolinux 4刻录软件
- sql如何行转列,列转行
- android usb 网卡驱动,安卓系统手机USB网络驱动
- js 拖拽上传文件及文件夹
- 在微型计算机中ega,在微机系统中,常有VGA、EGA等说法,它们的含义是什么
- 驾驶员理论考试系统的设计与实现(论文+源码)_kaic
- 记一次艰苦的刷机历程,nexus7 刷cm12 nightly版,刷入gapps
- ubuntu个人常见问题汇总
- golang构建htpp服务
- 学习PHP中的iconv扩展相关函数
- Java修炼——手写服务器项目
热门文章
- Http压测工具wrk使用指南
- xmanager远程登录
- 年中总结(2013年3月到2013年9月)
- Cortex M3寄存器组
- 图解C++虚函数 虚函数表
- linux共享库 == windows动态库
- 安卓项目打开有时候manifests不见了_【必看】暴力0鲁项目详细操作及玩法如何跳过广告,不分享群等...
- 大龄计算机考研 考研帮,大龄学子考研之路
- 如何修改influxdb表结构_使用nginx-lua修改influxdb API的返回结构
- 微软模拟飞行2020服务器多少内存,《微软模拟飞行2020》配置公开,想玩爽还需玩家加大投入...