[DQN] Playing Atari with Deep Reinforcement Learning
论文链接:https://arxiv.org/abs/1312.5602
引用:Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.
概述
Deep Reinforcement Learning (DQN) 是一个 model-free、off-policy 的强化学习算法,使用深度神经网络作为非线性的函数估计,是一个“端到端”训练的算法。Deep Q-network 直接接受RGB三通道图片作为输入,输入为N个动作对应的Q值,即 Q(s,a)Q(s,a)Q(s,a),论文的实验主要基于七个Atari游戏。
算法
主要的创新点
- 引入了一个replay buffer,用于存储采样,即一个四元组:[statet,actiont,rewardt,statet+1][state_t,action_t,reward_t,state_{t+1}][statet,actiont,rewardt,statet+1],每次梯度更新需要从buffer中随机抽取一批数据来进行梯度下降,由于buffer本身有大小限制,所以新进来的数据会顶替旧的数据(按队列规则,先进先出),这样的好处在于:可以减少每个sample之间的关联性,减少方差,(因为训练时假设每个sample都是iid的,也就是 independently and identically distributed,但是如果直接使用按照时间序列依次采样得到的sample来训练,显然他们是不符合iid的),并且可以使用batch训练来充分利用硬件资源。
- 使用了target network和policy network,采样时使用target network来取得数据,但是训练时更新policy network的参数,在一定的步骤数后,将policy network的参数再拷贝给target network。
- 由于有一个replay buffer,而且batch size要远远大于1,而每一步都会采样更新,所以几乎每个sample都会被使用好多次,所以是 data efficient 的。
- 可以端到端训练,因为输入时直接使用游戏界面的RGB图像,输出时Q值。
- 网络底层对RGB图片进行了一定的预处理,将其转换成了灰度图,且裁剪出中间的一个游戏的主体部分
其他的点
- 实验所测试的所有Atari游戏均采用了同一套网络结构和超参数(很强的适应性)
- 在进行evaluation的时候,除了传统的使用累计奖赏或平均奖赏外,还使用了一些state对应的Q值变化来进行评估,更能体现出算法的稳定性
[DQN] Playing Atari with Deep Reinforcement Learning相关推荐
- 算法笔记:Playing Atari with Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning 比较尴尬,上篇文章不是DQN的来源,这篇才是.上篇Nature文章对于DQN做出的改进上次没读明白,查看其 ...
- RL论文阅读【一】Playing Atari with Deep Reinforcement Learning
1 废话 开始要认真的读论文的,计划每天晚上回宿舍看一半,两天看完一篇,第三天写博客总结,虽然有点慢吧,但是积少成多嘛~ 今天先介绍第一篇,也是深度强化学习的开山之作. 2 动机 一般把这篇论文称作深 ...
- 深度强化学习篇2:从Playing Atari with Deep Reinforcement Learning 看神经网络的输入,学习的状态空间
Introduction:学习直接从高维的感观输入(视觉,语音)去直接控制智能体是强化学习一个长期的挑战.一些成功的RL应用都是依赖于hand-crafted的特征.最近深度学习的进步使提取高水平的特 ...
- 【强化学习】Playing Atari with Deep Reinforcement Learning (2013)
Playing Atari with Deep Reinforcement Learning (2013) 这篇文章提出了第一个可以直接用强化学习成功学习控制policies的深度学习模型. 输入是r ...
- 论文笔记之:Playing Atari with Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方 ...
- 【论文翻译】Playing Atari with Deep Reinforcement Learning
摘要:我们第一个提出了"利用强化学习从高维输入中直接学习控制策略"的深度学习模型.该模型是一个卷积神经网络,经过Q-learning训练,输入为原始像素,输出为:"用来估 ...
- Paper Reading 1 - Playing Atari with Deep Reinforcement Learning
来源:NIPS 2013 作者:DeepMind 理解基础: 增强学习基本知识 深度学习 特别是卷积神经网络的基本知识 创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控 ...
- 【论文理解】DQN:Playing Atari with Deep Reinforcement Learning
特点 强化学习和深度学习结合 使用原始的游戏画面作为输入,使用nn模型提取特征 使用深度网络输出作为选在动作a的价值. 使用内存空间来缓存历史行为,状态以及奖励值. 算法流程 对于转换状态的rewar ...
- Playing Atari with Deep Reinforcement Learning
背景 实践中,因为action-value公式对于每个序列是被分别估计的.所以作为替换,在强化学习,通常用一个 函数拟合器 来估计action-value函数,典型的是一个线性拟合器,但是有时候是一个 ...
最新文章
- 一位39岁程序员的困惑:知道得越多编程越慢怎么办?
- HBase进化 | 从NoSQL到NewSQL,凤凰涅槃成就Phoenix
- 区块链BaaS云服务(19)趣链Hyperchain
- 什么是对象,为什么要面向对象,怎么才能面向对象?
- LocalDB 和Compact
- wamp 服务器安装问题 及cmd常用命令 和 php mysql数据库常用cmd命令集
- win10搭建无盘服务器配置,关于今天搞定网吧无盘Win10x64一包多配置到底的详细讲解 By 原来我不帅...
- 【排序】直接选择排序
- 汇编语言 dos中masm的配置教程
- WEBMAX函数教程
- 联想e480一键恢复小孔_联想一键恢复的使用方法
- 惊天翻转,复盘BSV的逆袭之路
- matlab中除法的使用,错误使用 / 矩阵维度必须一致
- Vue 之 vue-seamless-scroll 实现简单自动无缝滚动,且添加对应点击事件的简单整理
- java1000字节是多少汉字_面试官:Java 中有几种基本数据类型是什么?各自占用多少字节?...
- cubemax设置中断优先级
- lcg_magic算法笔记:堆排序
- RecyclerView addItemDecoration 的妙用 - item 间距平均分布和添加分割线
- c语言列车信息管理系统,C语言火车票信息管理系统.doc
- ERP项目经理的“5+4”素质能力模型
热门文章
- 19年1月底得一些装机心得(一)
- 删除node_modules文件夹太慢
- 微信小程序修改顶部通知栏字体颜色,手机电量时间.....。
- 快速寻找研究方向+发文章的方法!!按头安利!
- html邢台模板,邢台水泥预制件定制
- Redis(1)入门指令
- 小程序修改单页面的背景颜色
- 什么是keep-alive?怎么去使用?简述keep-alive
- ChatGPT/大模型+零代码,给中小企业带来哪些机会?
- DataX二次开发——(6)kafkareader、kafkawriter的开发