基本概念

TD3

TD3全称Twin Delayed Deep Deterministic Policy Gradient,中文名双延迟深度确定性策略梯度。简单来说TD3算法是一个相对于DDPG算法优化的版本。TD3算法在DDPG算法的基础上,主要有三个方面的优化:

1、网络结构的优化:TD3在DDPG基础上增加了一个Critic网络,主网络上TD3有2个Critic网络和一个Actor网络,同时Target目标网络也有主网络的一个备份。为什么增加一个Critic网络?原因很简单,增加一个Critic网络,就可以形成对比,通过选取最小的Q值,来避免持续过高的估计。这在只有一个Critic网络是做不到的,当然还可以再增加一个Critic网络。

2、更新方式的优化:DDPG网络的更新方式是Critic网络参数更新一次,Actor参数也跟着更新一次。但是在TD3网络中,并不是这样的,它采用延迟更新的策略。也就是说,Critic网络更新多次后,Actor网络才更新一次。

为什么采用延迟更新?这样做的目的主要是为了稳定Q值,减少一些错误的更新。想象一下,原本是最高点,当Actor好不容易到达最高点,Q值更新了,这里并不是最高点了。这是Actor只能转头再继续寻找新的最高点;更坏的情况是Actor被困在次高点,没能找到正确的最高点。

3、参数更新的优化:在更新Critic网络时候加入随机噪声a~\tilde{a}a~,以达到对Critic网络波动的稳定性。

Critic网络参数更新的方式为:

TD3算法的伪代码如下图所示:

TD3:双延迟深度确定性策略梯度相关推荐

  1. 强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现

    强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现 TD3算法简介 TD3是Twin Delayed Deep Deterministic policy gradie ...

  2. TD3:双延迟深度确定性策略梯度算法

    目录 模型架构 Double Q-learning Target Policy Smoothing​ Delayed 损失函数 学习过程 TD3:Twin Delayed Deep Determini ...

  3. 强化学习(十六) 深度确定性策略梯度(DDPG)

    在强化学习(十五) A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Cri ...

  4. 无人机辅助移动边缘计算的计算卸载优化:一种深度确定性策略梯度方法(2)——模型构建

    无人机辅助移动边缘计算的计算卸载优化:一种深度确定性策略梯度方法(2)--模型构建 参考文献: [1] Wang Y , Fang W , Ding Y , et al. Computation of ...

  5. 系统学习深度学习(三十八)--深度确定性策略梯度(DDPG)

    转自:https://www.cnblogs.com/pinard/p/10345762.html 1. 从随机策略到确定性策略 从DDPG这个名字看,它是由D(Deep)+D(Determinist ...

  6. 梳理确定性策略梯度,随机策略梯度,AC,DPG,DDPG之间的联系

    1.随机策略 1.1  随机策略公式为: 这里的P是一个概率函数,就是说,在给定状态和参数的情况下,输出的的动作服从一个概率分布,也就意味着每次走进这个状态的时候,输出的动作可能不同. 1.2  随机 ...

  7. 策略梯度方法介绍——确定性策略梯度定理

    策略梯度方法介绍--确定性策略梯度定理 引言 回顾:策略梯度定理 确定性策略梯度 确定性策略梯度的表示形式 确定性策略梯度算法推导过程 引言 上一节我们介绍了 行动者-评论家(AC)方法,其核心思想是 ...

  8. DeepFusion:基于单视图深度和梯度预测的单目SLAM实时稠密三维重建

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 标题:DeepFusion: Real-Time Dense 3D Reconstruction fo ...

  9. 深度链接、延迟深度链接、App Links以及关于LinkedME实现深度链接的原理解析

    开始之前,我们先介绍两个概念:深度链接(Deep Linking)和延迟深度链接(Deferred Deep Linking). 深度链接 我们通过例子来说明这个问题,比如说我们使用淘宝,看到一个宝贝 ...

最新文章

  1. 网站 java php_做网站用java还是php
  2. python电脑软件下载-Python for windows
  3. python六十三: __call__
  4. Android -- 贝塞尔二阶实现饿了么加入购物车效果
  5. centos 一键安装ftp 配置_CentOS快速搭建FTP(初级-四步)
  6. 一张A4纸的牛B变化(你能吗?)
  7. 【原创视频】Docker总体架构设计及各模块原理剖析
  8. 回溯求解排列组合(求源码评论区留言)
  9. 虚拟机服务器实验三十一 Windows Server 2012 RDS桌面虚拟化之二VDI标准部署之托管共享桌面虚拟化...
  10. Struts框架面试题
  11. 电子设计从零开始(1)
  12. 【keil/MDK5】编译生成bin文件和汇编文件
  13. http中get和post的区别
  14. python考勤记录_python做考勤统计
  15. 数据分析--PEG策略(选股)
  16. vs2008gridview自带删除功能代码怎么实现
  17. Airbnb创始人:屌丝的逆袭之路
  18. iOS11缩小界面导航栏与标签栏异常的问题
  19. 小观插值逼近的龙格现象
  20. Installation of Theano on Windows

热门文章

  1. Flutter集成字节跳动穿山甲广告
  2. Eclipse通过SVN查看当前文件的提交记录
  3. GMSSL开源库--初步接触SM2
  4. java 求1到100的和
  5. 画柱状图(查看英文文章单词出现频次)
  6. MYSQL ’s Builted Function即MySQL内置函数小结
  7. 用python对excel中的两列数据进行排列组合
  8. WEB页面中常用的中国地图选取器
  9. 小林打算向朋友借钱,请输入一个浮点数m和一个整数n,分别表示他想借的钱数和借期,程序输出他的意图。
  10. android scaleanimation 动画方向,Animation 动画详解(一)——alpha、scale、translate、rotate、set的xml属性及用法...