dqn系列梳理_系列论文阅读—

DQN

作为DRL的开山之作，DeepMind的DQN可以说是每一个入坑深度增强学习的同学必了解的第一个算法了吧。先前，将RL和DL结合存在以下挑战：1.deep learning算法需要大量的labeled data，RL学到的reward 大都是稀疏、带噪声并且有延迟的(延迟是指action 和导致的reward之间)；2.DL假设样本独立；而RL前后state状态相关；3.DL假设分布固定，而RL在学习新的行为时，数据分布会变化。DQN通过Q-Learning使用reward来构造标签、使用经验池等方法解决了这些问题。

基于Q-learning 确定Loss Function

Q-learning 更新公式为：

DQN 的 loss function：

DQN使用随机梯度下降更新参数,为啥要把targetnet单独拎出来呢，后续会说的。

experience replay

DQN 使用exprience replay解决instablity的问题，把每个时间步agent与环境交互得到的转移样本

存储在buffer中，并被随机抽取。通过这种方式，去除了数据之前的相关性，并且缓和了数据分布的差异。

TargetNet

为了减少

和目标

之间的相关性，从而提高稳定性.2015年版的DQN加入了另一个网络——

作为targetnet,它和

参数分离，每次参数更新只更新

，而

的参数

保持不变,并且周期性的将

的参数复制给

。此时，loss function变为：

DQN算法伪代码

double DQN

在标准的Q-learning,和DQN中，参数是这么更新的：

max操作使得估计的值函数比值函数的真实值大。如果是均匀的过估计，找到的最优策略是不会变的，不会对我们的目标造成影响。但实际上，过估计的误差在不同的states和actions下是不同的，这就会影响到我们找到最佳策略了。为了减少overestimation，van Hasselt et al.(2016)提出Double DQN(D-DQN)。利用DQN中的target network,将selection 和 evelation 解藕。使用Behavior Network选择出value最大的action，用target network来估计它的值

被更改为：

PS 论文中有对两个数学定理的详细证明，感兴趣的同学可以看哦

Prioritized Experience Replay

在前面的方法中，experience replay都是均匀随机采样，但实际上不同样本的重要性显然是不同的。举个例子，在强化学习初期，replay memory中，除了直接和目标相关的state-action pair 有正值，大部分的value都为0，大量的从zero-value state 到另一个 zero-value state 的transitions更新导致很低效。Moore & Atkeson, 1993 提出Prioritized Sweeping，优先选择value改变了的state。具体算法如下：

prioritized sweeping

但Prioritized sweeping 主要用在model based planning。Schaul et al. (2016)提出了Prioritized Experience Replay。

Prioritizing TD-Error

用 TD-error来规定优先学习的程度. 如果

越大, 就代表我们的预测精度还有很多上升空间, 那么这个样本就越需要被学习, 也就是优先级越高。通过存储transition,及其每次回放更新得到的最新的TD-error，将TD-error绝对值最大的transition从 memory 中进行回放。然后对该transition进行Q-learning的更新，并根据TD-error,更新其优先级。而对于没有已知TD-error的新进入memory的transition，将其放到最大优先级的行列，以确保所有的经验至少被回放一次。

Stochastic Prioritization

greedy TD-error prioritization有以下问题：1.那些TD-error很小的transition 将很长时间不被replay.2.对noise spikes 敏感。最终算法会集中在一个小子集里面。初始TD-error很高的transitions会经常被重放，缺失多样性会导致over-fitting。作者提出了一种介于均匀随机采样和贪心优先之间的随机采样方法，transition

的采样概率为：

其中，

是

的优先级。这样，即使是最低优先级的transition被采样到的概率也不为0.

的设定有多种方法。

第一种是成比例优先。

用来防止transitions的TD-error为0后不再被回放。具体实现中，使用名为sum-tree的树型数据结构。它的每个叶子节点保存了 transition priorities，父节点存储了孩子节点值之和，这样，头节点的值就是所有叶子结点的总和

。采样一个大小为

的minibatch时，range

被均分为

个ranges，每个ranges均匀采样，这样，各种

的transitions都有被采样到。

第二种是

。

是transition

根据它的

在replay memory中的rank。这种方法对异常值更加不敏感，因此更为鲁棒。作者最终使用了基于array的二叉堆实现的优先队列来存储transitions。

Importance Sampling

Prioritized replay 改变了分布，因此引入了bias。为了消除bias，作者使用了importance-sampling(IS) weights：

Q-learning更新中的

替换为

，并出于stability的原因，用

将权值正则化。

Prioritized Sweeping

Dueling Network Architectures for Deep Reinforcement Learning

Wang et al. (2016b)在网络结构上做了创新，这种新的网络结构能够更容易的与当前和未来的RL算法相结合。

作者引入了advantage function。

关注的是state的值，

关注的是这个状态下，动作的重要性。

估计的是在这一状态下选择某一动作的价值。因为在某些状态下，无论做什么动作对下一个状态都没有太大影响，而这种方法，可以单独学习状态本身的价值。

dueling network architecture.png

如上图，作者将原来的DQN最后的一条全联接层一分为二，一个用来估计value functions,一个用来估计advantage function。最后将两条流聚合成输出Q function。

相应的Q function变为：

和

是两个全联接层分支的参数，那为什么要减去

呢。这是因为给定一个Q，我们无法给出一个唯一的V和A(拥有两个变量的一个方程式，当然有无穷多解)。为了解决这一问题，作者强制让被选择的动作的advantage为0，即

。

这样，

在实际应用中，作者用均值代替了最大值操作，即：

这样，可以缩小 Q 值的范围，去除多余的自由度，且期望值为0,提高算法稳定性

Distributional value function

强化学习一般是对智体收到的随机return的期望进行建模，但实际上，这些随机return的分布——value distribution是非常有用的。

It’s already evident from our empirical results that the distributional perspective leads to better, more stable reinforcement learning

Bellemare et al. (2017)提出贝尔曼方程的一个变体，实际上可以预测所有可能的结果，而不用对它们进行平均 —— distributional Bellman’s equation

具体算法如下：

categorical algorithm

网络结构上的改变：

传统的DQN最后一层全联接层输出的是

维向量，表示当前状态下，每一个动作的价值的估计。Categorical DQN 输出的是

维，表示的是表示的是 N 个动作在 M 个价值分布的支撑上的概率。

def _network_template(self, state):

"""Builds a convolutional network that outputs Q-value distributions.

Args:

state: `tf.Tensor`, contains the agent's current state.

Returns:

net: _network_type object containing the tensors output by the network.

"""

weights_initializer = slim.variance_scaling_initializer(

factor=1.0 / np.sqrt(3.0), mode='FAN_IN', uniform=True)

net = tf.cast(state, tf.float32)

net = tf.div(net, 255.)

net = slim.conv2d(

net, 32, [8, 8], stride=4, weights_initializer=weights_initializer)

net = slim.conv2d(

net, 64, [4, 4], stride=2, weights_initializer=weights_initializer)

net = slim.conv2d(

net, 64, [3, 3], stride=1, weights_initializer=weights_initializer)

net = slim.flatten(net)

net = slim.fully_connected(

net, 512, weights_initializer=weights_initializer)

net = slim.fully_connected(

net,

self.num_actions * self._num_atoms,

activation_fn=None,

weights_initializer=weights_initializer)

logits = tf.reshape(net, [-1, self.num_actions, self._num_atoms])

probabilities = tf.contrib.layers.softmax(logits)

q_values = tf.reduce_sum(self._support * probabilities, axis=2)

return self._get_network_type()(q_values, logits, probabilities)

orz其实这篇论文我看了代码才懂了算法流程，但是并不能完全理解，有大佬可以解释一哈吗??

未完待续

A3C

asynchronous advantage actor-critic (A3C) [Mnih et al.(2016)] (https://arxiv.org/pdf/1602.01783.pdf)并不属于value-based算法，这里提到它一是因为DeepMind 在投给AAAI 2018的论文Rainbow: Combining Improvements in Deep Reinforcement Learning中使用了A3C中的multi-step learning。

论文中最为出彩的地方在于：在多个环境副本上并行地异步执行多个agent，不同的agent采用不同的策略，经历不同的state，有不同的transition,不但有助于探索，加快速度，而且使得时间上数据的相关性很小，起到稳定学习过程的作用。因此不需要使用又费计算又费资源的experience replay，这样就可以使用on-policy RL 方法。

算法有一个global network,和若干个agent，大概的步骤过程是：

1.agent 将global network的参数pull过来

2.agent与环境互动n-step或遇到terminal state 提前终止

3.agent计算loss，得到梯度

4.把梯度 push 给global network，用梯度更新global network的参数，然后reset自己，回到第一步

A3C, each actor-learner thread, based on Mnih et al. (2016)

Noisy DQN

Fortunato et al. (2018)提出在参数中加入噪声，代替

-greedy，增加模型的探索能力。

Noisynet

举个例子，设神经网络的一个linear layer 为：

那么加入噪声后为：

是均值为0的噪声，

和

都是可学习的参数。设

为

有两种噪声产生方法：

a.Independent Gaussian noise：为每一个权值和偏差都设定一个独立噪声。在这种情况下，若输入x是q维、输出y是p维，那么就需要p*q+q个

，

b. Factorised Gaussian noise:通过将

分解，大大减少了需要的噪声数量，只需要q+p个

即可。

和

的计算公式为：

这里，作者将

设为

NoisyNet 的loss function 为

梯度为

作者使用蒙特卡洛方法近似上面的梯度，得到

dqn系列梳理_系列论文阅读——DQN及其改进相关推荐

dqn系列梳理_强化学习：DQN与Double DQN讨论
1 DQN方法强化学习逐渐引起公众的注意要归功于谷歌的DeepMind公司.DeepMind公司最初是由Demis Hassabis, Shane Legg和Mustafa Suleyman于201 ...
rgb fusion检测不到显卡_【论文阅读27】Co-Fusion
主要内容物体级别的语义SLAM.维护一个背景模型和多物体模型,每个模型由面元地图表示. 基于运动分割和语义信息检测运动物体. 使用基于ICP对齐的几何误差和基于颜色差异的光度误差跟踪背景模型(相机位 ...
dqn系列梳理_我梳理了乡村爱情和刘老根中的重要人物，发现赵本山真是宇宙中心...
如果谢广坤掉水里了,你是准备开个庆典,还是邀请十里八村的乡亲们来共同观看?这两集的谢广坤又开启了"死作"的节奏,看的人这个气啊. 穿插着<刘老根3>看,我发现了很多演员 ...
dqn系列梳理_讲人话系列——DQN初探之2048
概述强化学习也火了好久,最近才有空来充充电.老实说,最开始强化学习的知识点还挺多的,看了好久也没太弄清楚几个算法的关系,所以本着实践出真知的想法,找个案例做下.2048小游戏感觉本身复杂度还可以,又 ...
随机邻域嵌入_「论文阅读」-学习用于通勤流嵌入的地理上下文嵌入
论文地址:https://ojs.aaai.org//index.php/AAAI/article/view/5425 0x00 引言本文章题为"用于通勤流预测的地理上下文嵌入学习&quo ...
checkbox wpf 改变框的大小_【论文阅读】倾斜目标范围框(标注)的终极方案
前言最常用的斜框标注方式是在正框的基础上加一个旋转角度θ,其代数表示为(x_c,y_c,w,h,θ),其中(x_c,y_c )表示范围框中心点坐标,(w,h)表示范围框的宽和高[1,2,7].对于该 ...
rgb红色范围_【论文阅读18】RGB-D Object-Oriented Semantic Mapping
主要内容基于RGB-D数据的语义建图(SLAM帮助语义).具体过程如下首先利用SSD执行单帧RGB图片(2D)物体检测. 接着基于检测结果和深度信息,利用3D分割算法进一步分割3D点云. 最终利用 ...
harris位_【论文阅读】Harris角点算法
#coding=utf-8 from PIL import Image import numpy as np from scipy.ndimage import filters import matp ...
萤火虫算法_每日论文38：基于改进萤火虫算法的分布式电源优化配置
每日论文第三十八篇 2020/08/26 摘要:在分析分布式电源特性的基础上,建立了含分布式电源的购电成本最小.网损费用最小.投资成本最小以及电压稳定裕度最大的多目标优化模型,能够比较实际.科学地反 ...

dqn系列梳理_系列论文阅读——DQN及其改进

dqn系列梳理_系列论文阅读——DQN及其改进相关推荐

最新文章

热门文章