【深度学习】DQN的经验回放(Experience Reply)和目标网络(Target Network)
前言
对于Q-learning算法,有两点不足之处:
- 维度灾难;这是由于查找表存储和更新Q值时需要在离散状态空间开始强化学习,当状态的数量增大,这一问题将愈发难解;
- 有关状态空间离散化的粒度;较低的粒度将使得Q-learning泛化能力较弱,高粒度又将可能导致状态数量呈指数增长。
DQN应运而生,采用深度神经网络为非线性函数逼近,以表示高维连续状态空间中的Q值函数。, θ即参数化的神经网络。loss function可表示为“mean-squared TD error”:
并以P概念选择动作action,,P服从Boltzmann分布。其中,越高越接近于等概率,越低越接近于贪心策略,即选择Q(s,a)中对于值最大的动作a。 一般,会在初始时设置较大的,然后逐渐减小。
为了提高DQN的学习能力,在其迭代过程中加入了两种技术,即下述的经验回放和目标网络。
经验回放
其将系统探索环境得到的数据储存起来,然后随机采样样本更新深度神经网络的参数。
由于agent与环境交互得到的训练样本并不是独立同分布的,为了解决这一问题DQN引入了经验回放机制。利用一个回放以往经验信息的buffer,将过去的experience和目前的experience混合,降低了数据相关性。并且,经验回放还使得样本可重用,从而提高学习效率。
目标网络
在RL中,当采用非线性函数逼近Q值函数时,Q值的更新容易发生震荡,呈现出不稳定的学习行为。为此引入目标网络。
因为online network 的更新是基于对的计算。
目标网络相当于是 的copy,但在目标网络中,参数将在每隔X步都独立于online network进行更新。这就使得在训练过程中暂时固定Q值,从而学习过程更加稳定。
当采用以上两种机制后,DQN的Loss function可表示为:
【深度学习】DQN的经验回放(Experience Reply)和目标网络(Target Network)相关推荐
- 深度学习之循环神经网络(8)长短时记忆网络(LSTM)
深度学习之循环神经网络(8)长短时记忆网络(LSTM) 0. LSTM原理 1. 遗忘门 2. 输入门 3. 刷新Memory 4. 输出门 5. 小结 循环神经网络除了训练困难,还有一个更严重的问 ...
- 深度学习之图像分类(二十五)-- S2MLPv2 网络详解
深度学习之图像分类(二十五)S2MLPv2 网络详解 目录 深度学习之图像分类(二十五)S2MLPv2 网络详解 1. 前言 2. S2MLPv2 2.1 S2MLPv2 Block 2.2 Spat ...
- 深度学习之图像分类(二十六)-- ConvMixer 网络详解
深度学习之图像分类(二十六)ConvMixer 网络详解 目录 深度学习之图像分类(二十六)ConvMixer 网络详解 1. 前言 2. A Simple Model: ConvMixer 2.1 ...
- 深度学习新贵?经验不限,月薪6万!
CV算法岗日渐内卷的今日,GAN( Generative Adversarial Networks,生成对抗网络)又一次成功引起了我的注意. (高薪小贴士:建议打印贴墙) 不禁好奇,为什么现在GAN方 ...
- 【深度学习】解决物体检测中的小目标问题
为了提高模型在小物体上的性能,我们建议使用以下技术: 提高图像捕获分辨率 提高模型的输入分辨率 平铺图像 通过扩充生成更多数据 自动学习模型锚 过滤掉多余的类 为什么小目标问题很难? 小物体问题困扰着 ...
- 【深度学习 学习率,优化器】——深刻解读训练网络时各种学习率,优化器的区别,learning rate, Momentum
机梯度下降及各种更新方法 普通更新 最简单的更新形式是沿着负梯度方向改变参数(因为梯度指向的是上升方向,但是我们通常希望最小化损失函数).假设有一个参数向量x及其梯度dx,那么最简单的更新的形式是: ...
- 【深度学习】(7) 交叉验证、正则化,自定义网络案例:图片分类,附python完整代码
各位同学好,今天和大家分享一下TensorFlow2.0深度学习中的交叉验证法和正则化方法,最后展示一下自定义网络的小案例. 1. 交叉验证 交叉验证主要防止模型过于复杂而引起的过拟合,找到使模型泛化 ...
- 计算机视觉与深度学习 | 卷积神经网络实现异常行为识别(目标分割与提取)
################################################ 博主github:https://github.com/MichaelBeechan 博主CSDN:h ...
- 深度学习(十四)——Softmax详解, 目标检测, RCNN
https://antkillerfarm.github.io/ Softmax详解 首先给出Softmax function的定义: yc=ζ(z)c=ezc∑Cd=1ezd for c=1,-,C ...
最新文章
- JS设计模式——3.封装与信息隐藏
- hdu 3172(并查集+hash)
- ylb:表的结构的修改和基本约束
- 18-数据持久化-Data Volume
- 使用 Swift 在 iOS 10 中集成 Siri —— SiriKit 教程(Part 1)
- Java基础——Oracle(二)
- 鸿星尔克因公司系统崩溃、恳请顾客退款;乔布斯首份手写求职信拍卖出222万;OpenAI 开源 Triton语言|极客头条...
- 电脑大小写怎么切换_小白买了Mac pro电脑学会基本操作
- 永磁同步电机dq坐标系中转矩公式中系数3/2的由来
- 微信小程序公农历转换的实现
- fastJson注解@JSONField指定字段的顺序
- 【MYSQL】ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)
- 债务纠纷案被录入终本库了怎么办?
- 【SLAM】ORB-SLAM3解析——帧Frame()的构建(2)
- c语言质变量变,量变和质变的根本区别是( )
- JAVA基础九 数字与字符串
- 本周最新文献速递20210321
- android仿iphone日期时间选择器,Android仿iPhone日期时间选择器详解
- Matlab小波去噪——基于wden函数的去噪分析
- 短视频开发之短视频广告功能,教你玩转短视频营销
热门文章
- Ldap集成Ranger应用服务
- 机器学习基础--回归(Regression)
- 条款11:在operator=中处理“自我赋值”
- Python 顺序结构_交换变量值
- 华工计算机网络随堂练习答案,华工计算机网络随堂练习答案
- 2021年茶艺师(初级)考试总结及茶艺师(初级)模拟考试
- 使用.net core ABP和Angular模板构建博客管理系统(实现博客列表页面)
- 【mba项目管理论文】S 公司项目管理绩效评价现状与问题(节选)
- 从边际效用递减原理看人的幸福感和前进动力
- 数据孤岛下的新破局 Real Time DaaS:面向 AP+TP 业务的数据平台架构