[DQN] Playing Atari with Deep Reinforcement Learning

论文链接：https://arxiv.org/abs/1312.5602
引用：Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.

概述

Deep Reinforcement Learning (DQN) 是一个 model-free、off-policy 的强化学习算法，使用深度神经网络作为非线性的函数估计，是一个“端到端”训练的算法。Deep Q-network 直接接受RGB三通道图片作为输入，输入为N个动作对应的Q值，即 Q(s,a)Q(s,a)Q(s,a)，论文的实验主要基于七个Atari游戏。

算法

主要的创新点

引入了一个replay buffer，用于存储采样，即一个四元组：[statet,actiont,rewardt,statet+1][state_t,action_t,reward_t,state_{t+1}][statet,actiont,rewardt,statet+1]，每次梯度更新需要从buffer中随机抽取一批数据来进行梯度下降，由于buffer本身有大小限制，所以新进来的数据会顶替旧的数据（按队列规则，先进先出），这样的好处在于：可以减少每个sample之间的关联性，减少方差，（因为训练时假设每个sample都是iid的，也就是 independently and identically distributed，但是如果直接使用按照时间序列依次采样得到的sample来训练，显然他们是不符合iid的），并且可以使用batch训练来充分利用硬件资源。
使用了target network和policy network，采样时使用target network来取得数据，但是训练时更新policy network的参数，在一定的步骤数后，将policy network的参数再拷贝给target network。
由于有一个replay buffer，而且batch size要远远大于1，而每一步都会采样更新，所以几乎每个sample都会被使用好多次，所以是 data efficient 的。
可以端到端训练，因为输入时直接使用游戏界面的RGB图像，输出时Q值。
网络底层对RGB图片进行了一定的预处理，将其转换成了灰度图，且裁剪出中间的一个游戏的主体部分

其他的点

实验所测试的所有Atari游戏均采用了同一套网络结构和超参数（很强的适应性）
在进行evaluation的时候，除了传统的使用累计奖赏或平均奖赏外，还使用了一些state对应的Q值变化来进行评估，更能体现出算法的稳定性

[DQN] Playing Atari with Deep Reinforcement Learning相关推荐

算法笔记：Playing Atari with Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning 比较尴尬,上篇文章不是DQN的来源,这篇才是.上篇Nature文章对于DQN做出的改进上次没读明白,查看其 ...
RL论文阅读【一】Playing Atari with Deep Reinforcement Learning
1 废话开始要认真的读论文的,计划每天晚上回宿舍看一半,两天看完一篇,第三天写博客总结,虽然有点慢吧,但是积少成多嘛~ 今天先介绍第一篇,也是深度强化学习的开山之作. 2 动机一般把这篇论文称作深 ...
深度强化学习篇2：从Playing Atari with Deep Reinforcement Learning 看神经网络的输入，学习的状态空间
Introduction:学习直接从高维的感观输入(视觉,语音)去直接控制智能体是强化学习一个长期的挑战.一些成功的RL应用都是依赖于hand-crafted的特征.最近深度学习的进步使提取高水平的特 ...
【强化学习】Playing Atari with Deep Reinforcement Learning （2013）
Playing Atari with Deep Reinforcement Learning (2013) 这篇文章提出了第一个可以直接用强化学习成功学习控制policies的深度学习模型. 输入是r ...
论文笔记之：Playing Atari with Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方 ...
【论文翻译】Playing Atari with Deep Reinforcement Learning
摘要:我们第一个提出了"利用强化学习从高维输入中直接学习控制策略"的深度学习模型.该模型是一个卷积神经网络,经过Q-learning训练,输入为原始像素,输出为:"用来估 ...
Paper Reading 1 - Playing Atari with Deep Reinforcement Learning
来源:NIPS 2013 作者:DeepMind 理解基础: 增强学习基本知识深度学习特别是卷积神经网络的基本知识创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控 ...
【论文理解】DQN：Playing Atari with Deep Reinforcement Learning
特点强化学习和深度学习结合使用原始的游戏画面作为输入,使用nn模型提取特征使用深度网络输出作为选在动作a的价值. 使用内存空间来缓存历史行为,状态以及奖励值. 算法流程对于转换状态的rewar ...
Playing Atari with Deep Reinforcement Learning
背景实践中,因为action-value公式对于每个序列是被分别估计的.所以作为替换,在强化学习,通常用一个函数拟合器来估计action-value函数,典型的是一个线性拟合器,但是有时候是一个 ...

[DQN] Playing Atari with Deep Reinforcement Learning

概述

算法

主要的创新点

其他的点

[DQN] Playing Atari with Deep Reinforcement Learning相关推荐

最新文章

热门文章