前言

对于Q-learning算法,有两点不足之处:

  1. 维度灾难;这是由于查找表存储和更新Q值时需要在离散状态空间开始强化学习,当状态的数量增大,这一问题将愈发难解;
  2. 有关状态空间离散化的粒度;较低的粒度将使得Q-learning泛化能力较弱,高粒度又将可能导致状态数量呈指数增长。

DQN应运而生,采用深度神经网络为非线性函数逼近,以表示高维连续状态空间中的Q值函数。, θ即参数化的神经网络。loss function可表示为“mean-squared TD error”:

并以P概念选择动作action,,P服从Boltzmann分布。其中,越高越接近于等概率,越低越接近于贪心策略,即选择Q(s,a)中对于值最大的动作a。   一般,会在初始时设置较大的,然后逐渐减小。

为了提高DQN的学习能力,在其迭代过程中加入了两种技术,即下述的经验回放和目标网络。


经验回放

其将系统探索环境得到的数据储存起来,然后随机采样样本更新深度神经网络的参数。

由于agent与环境交互得到的训练样本并不是独立同分布的,为了解决这一问题DQN引入了经验回放机制。利用一个回放以往经验信息的buffer,将过去的experience和目前的experience混合,降低了数据相关性。并且,经验回放还使得样本可重用,从而提高学习效率。


目标网络

在RL中,当采用非线性函数逼近Q值函数时,Q值的更新容易发生震荡,呈现出不稳定的学习行为。为此引入目标网络。

因为online network  的更新是基于对的计算。

目标网络相当于是 的copy,但在目标网络中,参数将在每隔X步都独立于online network进行更新。这就使得在训练过程中暂时固定Q值,从而学习过程更加稳定。


当采用以上两种机制后,DQN的Loss function可表示为:

【深度学习】DQN的经验回放(Experience Reply)和目标网络(Target Network)相关推荐

  1. 深度学习之循环神经网络(8)长短时记忆网络(LSTM)

    深度学习之循环神经网络(8)长短时记忆网络(LSTM) 0. LSTM原理 1. 遗忘门 2. 输入门 3. 刷新Memory 4. 输出门 5. 小结  循环神经网络除了训练困难,还有一个更严重的问 ...

  2. 深度学习之图像分类(二十五)-- S2MLPv2 网络详解

    深度学习之图像分类(二十五)S2MLPv2 网络详解 目录 深度学习之图像分类(二十五)S2MLPv2 网络详解 1. 前言 2. S2MLPv2 2.1 S2MLPv2 Block 2.2 Spat ...

  3. 深度学习之图像分类(二十六)-- ConvMixer 网络详解

    深度学习之图像分类(二十六)ConvMixer 网络详解 目录 深度学习之图像分类(二十六)ConvMixer 网络详解 1. 前言 2. A Simple Model: ConvMixer 2.1 ...

  4. 深度学习新贵?经验不限,月薪6万!

    CV算法岗日渐内卷的今日,GAN( Generative Adversarial Networks,生成对抗网络)又一次成功引起了我的注意. (高薪小贴士:建议打印贴墙) 不禁好奇,为什么现在GAN方 ...

  5. 【深度学习】解决物体检测中的小目标问题

    为了提高模型在小物体上的性能,我们建议使用以下技术: 提高图像捕获分辨率 提高模型的输入分辨率 平铺图像 通过扩充生成更多数据 自动学习模型锚 过滤掉多余的类 为什么小目标问题很难? 小物体问题困扰着 ...

  6. 【深度学习 学习率,优化器】——深刻解读训练网络时各种学习率,优化器的区别,learning rate, Momentum

    机梯度下降及各种更新方法 普通更新 最简单的更新形式是沿着负梯度方向改变参数(因为梯度指向的是上升方向,但是我们通常希望最小化损失函数).假设有一个参数向量x及其梯度dx,那么最简单的更新的形式是: ...

  7. 【深度学习】(7) 交叉验证、正则化,自定义网络案例:图片分类,附python完整代码

    各位同学好,今天和大家分享一下TensorFlow2.0深度学习中的交叉验证法和正则化方法,最后展示一下自定义网络的小案例. 1. 交叉验证 交叉验证主要防止模型过于复杂而引起的过拟合,找到使模型泛化 ...

  8. 计算机视觉与深度学习 | 卷积神经网络实现异常行为识别(目标分割与提取)

    ################################################ 博主github:https://github.com/MichaelBeechan 博主CSDN:h ...

  9. 深度学习(十四)——Softmax详解, 目标检测, RCNN

    https://antkillerfarm.github.io/ Softmax详解 首先给出Softmax function的定义: yc=ζ(z)c=ezc∑Cd=1ezd for c=1,-,C ...

最新文章

  1. JS设计模式——3.封装与信息隐藏
  2. hdu 3172(并查集+hash)
  3. ylb:表的结构的修改和基本约束
  4. 18-数据持久化-Data Volume
  5. 使用 Swift 在 iOS 10 中集成 Siri —— SiriKit 教程(Part 1)
  6. Java基础——Oracle(二)
  7. 鸿星尔克因公司系统崩溃、恳请顾客退款;乔布斯首份手写求职信拍卖出222万;OpenAI 开源 Triton语言|极客头条...
  8. 电脑大小写怎么切换_小白买了Mac pro电脑学会基本操作
  9. 永磁同步电机dq坐标系中转矩公式中系数3/2的由来
  10. 微信小程序公农历转换的实现
  11. fastJson注解@JSONField指定字段的顺序
  12. 【MYSQL】ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)
  13. 债务纠纷案被录入终本库了怎么办?
  14. 【SLAM】ORB-SLAM3解析——帧Frame()的构建(2)
  15. c语言质变量变,量变和质变的根本区别是( )
  16. JAVA基础九 数字与字符串
  17. 本周最新文献速递20210321
  18. android仿iphone日期时间选择器,Android仿iPhone日期时间选择器详解
  19. Matlab小波去噪——基于wden函数的去噪分析
  20. 短视频开发之短视频广告功能,教你玩转短视频营销

热门文章

  1. Ldap集成Ranger应用服务
  2. 机器学习基础--回归(Regression)
  3. 条款11:在operator=中处理“自我赋值”
  4. Python 顺序结构_交换变量值
  5. 华工计算机网络随堂练习答案,华工计算机网络随堂练习答案
  6. 2021年茶艺师(初级)考试总结及茶艺师(初级)模拟考试
  7. 使用.net core ABP和Angular模板构建博客管理系统(实现博客列表页面)
  8. 【mba项目管理论文】S 公司项目管理绩效评价现状与问题(节选)
  9. 从边际效用递减原理看人的幸福感和前进动力
  10. 数据孤岛下的新破局 Real Time DaaS:面向 AP+TP 业务的数据平台架构