1 总述

总体来讲，和actor-critic 差不多，只不过这里用了target network 和experience relay

强化学习笔记 experience replay 经验回放_UQI-LIUWJ的博客-CSDN博客

强化学习笔记：Actor-critic_UQI-LIUWJ的博客-CSDN博客

DQN 笔记 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客

2 模型介绍

2.1 整体架构

看模型架构和actor-critic 类似，也是训练一个actor 网络（策略网络）以及一个critic网络（DQN）

2.2 目标网络+经验回放

Q-network和带目标网络的DQN一样

但是这里因为是actor-critic结构，所以相应的策略网络（actor）也需要有target-network。这样的话 eval-actor的动作喂给eval-critic，target=actor的动作喂给target-critic

3 soft-replace

在DQN中，每过一定的回合，就直接将eval net的所有参数给替换成target net。这种做法被称为hard replace。

DQN 笔记 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客

而在DDPG中一般采取的是soft replace。即每一个回合都将target net的参数用一个小步长向着eval net的方向更新。如此看来，target net就是eval net的一个比较滞后的版本。

3.1 为什么要把hard replace改成soft replace

这是为了使得训练更加稳定。因为我们加入时滞的target net目的是让问题变得更像一个监督学习问题，让label更加稳定。

而在hard replace的前后，可能全局所有Q(s_)的label都发生了剧烈的变化，我们可以想成整个监督学习的问题都变了。这样会导致求解的结果不稳定。

而soft replace可以在让label缓慢地发生变化，更加的平缓一些。

强化学习笔记 DDPG (Deep Deterministic Policy Gradient)相关推荐

【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...
DDPG（Deep Deterministic Policy Gradient）
Hi,这是第二篇算法简介呀论文链接:"Continuous control with deep reinforcement learning." ,2016 文章概述这篇文 ...
【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解
1 DDPG简介 DDPG吸收了Actor-Critic让Policy Gradient 单步更新的精华,而且还吸收让计算机学会玩游戏的DQN的精华,合并成了一种新算法,叫做Deep Deterini ...
【7】强化学习之策略梯度（Policy Gradient）
[李宏毅]强化学习笔记(一) 什么是强化学习监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...
深度增强学习DDPG（Deep Deterministic Policy Gradient）算法源码走读
原文链接:https://blog.csdn.net/jinzhuojun/article/details/82556127 本文是基于OpenAI推出deep reinforcement learn ...
强化学习(4)：策略梯度Policy Gradient算法
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成终于到Policy Gradient方法了! 一.引言 reinforcement le ...
机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)
文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...
强化学习（二）：Policy Gradient理解
上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解.于是,本章我们就 ...
强化学习：DDPG到MADDPG
目录策略梯度(Policy Gradient) 行动器-评判器方法(Actor-Critic) Deterministic Policy Gradient on-policy和off-policy ...

强化学习笔记 DDPG (Deep Deterministic Policy Gradient)