1 总述

总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay

强化学习笔记 experience replay 经验回放_UQI-LIUWJ的博客-CSDN博客

强化学习笔记:Actor-critic_UQI-LIUWJ的博客-CSDN博客

DQN 笔记 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客

2 模型介绍

2.1 整体架构

看模型架构和actor-critic 类似,也是训练一个actor 网络(策略网络)以及一个critic网络(DQN)

2.2 目标网络+经验回放

Q-network和带目标网络的DQN一样

但是这里因为是actor-critic结构,所以相应的策略网络(actor)也需要有target-network。这样的话 eval-actor的动作喂给eval-critic,target=actor的动作喂给target-critic

3 soft-replace

在DQN中,每过一定的回合,就直接将eval net的所有参数给替换成target net。这种做法被称为hard replace。

DQN 笔记 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客

而在DDPG中一般采取的是soft replace。即每一个回合都将target net的参数用一个小步长向着eval net的方向更新。如此看来,target net就是eval net的一个比较滞后的版本。

3.1  为什么要把hard replace改成soft replace

这是为了使得训练更加稳定。因为我们加入时滞的target net目的是让问题变得更像一个监督学习问题,让label更加稳定。

而在hard replace的前后,可能全局所有Q(s_)的label都发生了剧烈的变化,我们可以想成整个监督学习的问题都变了。这样会导致求解的结果不稳定。

而soft replace可以在让label缓慢地发生变化,更加的平缓一些。

强化学习笔记 DDPG (Deep Deterministic Policy Gradient)相关推荐

  1. 【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解

    http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...

  2. DDPG(Deep Deterministic Policy Gradient)

    Hi,这是第二篇算法简介呀 论文链接:"Continuous control with deep reinforcement learning." ,2016 文章概述   这篇文 ...

  3. 【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解

    1 DDPG简介 DDPG吸收了Actor-Critic让Policy Gradient 单步更新的精华,而且还吸收让计算机学会玩游戏的DQN的精华,合并成了一种新算法,叫做Deep Deterini ...

  4. 【7】强化学习之策略梯度(Policy Gradient)

    [李宏毅]强化学习笔记(一) 什么是强化学习 监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...

  5. 深度增强学习DDPG(Deep Deterministic Policy Gradient)算法源码走读

    原文链接:https://blog.csdn.net/jinzhuojun/article/details/82556127 本文是基于OpenAI推出deep reinforcement learn ...

  6. 强化学习(4):策略梯度Policy Gradient算法

    本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 终于到Policy Gradient方法了! 一.引言 reinforcement le ...

  7. 机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)

    文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...

  8. 强化学习(二):Policy Gradient理解

    上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解.于是,本章我们就 ...

  9. 强化学习:DDPG到MADDPG

    目录 策略梯度(Policy Gradient) 行动器-评判器方法(Actor-Critic) Deterministic Policy Gradient on-policy和off-policy ...

最新文章

  1. java 运算符输入_java-运算符,IO输入输出,文件操作
  2. 图像压缩算法动态规划c语言,图像压缩算法  动态规划
  3. 自动undo管理下如何添加和删除回滚段
  4. SpringAMQP--WorkQueue模型
  5. LevelDB 源码剖析(九)DBImpl模块:Open、Get、Put、Delete、Write
  6. Leetcode-3 无重复字符的最长子串【c语言】
  7. 贪心算法—区间调度 电影节(POJ 4151)
  8. c#.net操作注册表RegistryKey
  9. windows 64 搭建RabbitMQ环境
  10. Fedora下安装Nerolinux 4刻录软件
  11. sql如何行转列,列转行
  12. android usb 网卡驱动,安卓系统手机USB网络驱动
  13. js 拖拽上传文件及文件夹
  14. 在微型计算机中ega,在微机系统中,常有VGA、EGA等说法,它们的含义是什么
  15. 驾驶员理论考试系统的设计与实现(论文+源码)_kaic
  16. 记一次艰苦的刷机历程,nexus7 刷cm12 nightly版,刷入gapps
  17. ubuntu个人常见问题汇总
  18. golang构建htpp服务
  19. 学习PHP中的iconv扩展相关函数
  20. Java修炼——手写服务器项目

热门文章

  1. Http压测工具wrk使用指南
  2. xmanager远程登录
  3. 年中总结(2013年3月到2013年9月)
  4. Cortex M3寄存器组
  5. 图解C++虚函数 虚函数表
  6. linux共享库 == windows动态库
  7. 安卓项目打开有时候manifests不见了_【必看】暴力0鲁项目详细操作及玩法如何跳过广告,不分享群等...
  8. 大龄计算机考研 考研帮,大龄学子考研之路
  9. 如何修改influxdb表结构_使用nginx-lua修改influxdb API的返回结构
  10. 微软模拟飞行2020服务器多少内存,《微软模拟飞行2020》配置公开,想玩爽还需玩家加大投入...