揭秘深度强化学习-6状态空间过大之神经网络来帮忙
看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看
原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/
DQN
上回书咱们说到,当状态和动作很小时,我们可以用表结构来记录Q值。
再捡起我们的打砖块游戏,它的环境中的状态,可以被定义为平板位置,球的位置和方向,每个独立砖块的存在性。然而,这个直觉性的表示方法对于每个游戏都是不同的。我们是否可以提出一个更通用的适用于所有游戏的方法呢?很显然,我们可以选择屏幕像素,它们包含了关于游戏的所有相关信息,除了球的方向和速度,这通过屏幕两个连续的帧就同样可以获得。
如果我们要应用DeepMind在论文中提到的对于屏幕预处理的方法——获取我们屏幕最后的信息,挑战尺寸为84*84并且转换为256灰度级——我们将会有256×84×84×4≈1067970 种可能的游戏状态。这太多了,Q表装不下了,整个宇宙的已知原子数目也没那么多!也许有人争辩说许多状态永远不可能出现,我们可以将它视为分散表结构仅包含已经发生过的状态。即便如此,想要遍历训练这个表可能会花费很长很长的时间。我们有更理想的方法,就是我们并不是全覆盖,而是对于从未访问过的状态依然有一个关于Q值的好的猜想。
神经网络特别擅长于在高层结构数据中获得更好的特征。我们可以将神经网络作为我们的Q函数,输入状态(屏幕像素)和行动,输出相应的Q值。或者我们仅输入状态,神经网络输出每个可能行动的Q值。这个方法自有其优点,就是如果我们想要获得一个Q值或者选择一个高Q值行动,我们只需要输入一次状态,前向传播通过神经网络并且立刻获得所有行动的Q值。
上图右是DeepMind在论文中提出的网络结构。这是一个经典的卷积神经网络(CNN),包含3个卷积层和两个全连接层。对于图像识别网络很熟悉的小伙伴可能注意到这里没有池化层,但是如果你仔细的思考,你会知道原因的:池化会去掉部分信息,使得网络对于物体在图像中所在位置信息不敏感,这对于图像识别很有效,但是对于游戏来说可完全不是那么回事:比如打砖块游戏,球的位置信息非常非常重要哦,它决定了潜在奖励,我们肯定不想丢掉这些信息!
网络输入是4个84*84的灰度游戏屏幕,输出是每个可能行动的Q值。Q值可以是任意实数,这使它成为一个回归任务,可以用一个简单的差方作为损失函数。
已知转换<s,a,r,s′>,之前算法的Q表更新规则呗如下规则替代:
1.当前状态s作为输入值前向传播通过NN,获得所有动作的预测Q值
2.下一状态s’作为输入值前向传播通过NN,并取最大值
3.设置行动a的目标Q值为,对于所有其它行动,设置目标Q值与原来相同,使它们的误差为0
4.通过反向传播更新权重
揭秘深度强化学习-6状态空间过大之神经网络来帮忙相关推荐
- 揭秘深度强化学习的研究哲学:乐观主义与悲观主义
智源导读:西北大学汪昭然老师课题组的主要研究方向为:为深度强化学习算法提供理论保障,从样本复杂性.计算复杂性等方面提升深度强化学习算法的效率.在近期的演讲中,汪老师分别介绍了在线学习环境下进行探索的「 ...
- 深度强化学习引导的脑网络分析图神经网络
https://www.sciencedirect.com/science/article/pii/S0893608022002507#fig1https://www.sciencedirect.co ...
- 用Turtlebot3实现基于深度强化学习的多移动机器人导航避障的仿真训练(附源码)
Do not blindly trust anything I say, try to make your own judgement. 这是我的第一篇CSDN文章,本科四年一直都是白嫖现成的CSDN ...
- 基于深度强化学习的智能汽车决策模型
1.基于深度强化学习的智能汽车决策模型 以神经网络为核心的智能体最主要的优势在于其依靠大量的数据自主学习的能力,通过数据驱动智能体可以应对各种未经历过的复杂环境.强化学习是一种经典的智能系统设计方案, ...
- 汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实
作者 | 陈彩娴 深度强化学习的故事,可以追溯到2015年: 当时,位于英国伦敦的一家小公司 DeepMind 在<Nature>上发表了一篇文章"Human-level con ...
- 【ICML2021】 9篇RL论文作者汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实...
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:转载自AI科技评论 作者 | 陈彩娴 深度强 ...
- 最新 | 用深度强化学习打造不亏钱的交易机器人(附代码)
今天,你AI了没? 关注:决策智能与机器学习,每天学点AI干货 --本文由<量化投资与机器学习>授权转载 在本文中,我们将创建深度强化学习agents,学习如何通过比特币交易赚钱.在本文中 ...
- 深度强化学习综述(上)
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 人工智能 ...
- dqn在训练过程中loss越来越大_深度强化学习——从DQN到DDPG
想了解更多好玩的人工智能应用,请关注公众号"机器AI学习 数据AI挖掘","智能应用"菜单中包括:颜值检测.植物花卉识别.文字识别.人脸美妆等有趣的智能应用.. ...
最新文章
- 打破“维度的诅咒”,机器学习降维大法好
- 关于vue2.0组件通信
- HTTP/3 原理实战
- 利用matlab绘制图形
- 深入 Linux PAM 体系结构
- 迅为IMX6ULL开发板Linux下电容触摸屏实验-实验程序编写
- JAVA字符串排序去重
- Map与数组、对象之间的转换
- 坯子库无法一键安装插件没用_坯子插件库_SketchUp坯子库(su插件管理器)下载 v2018.3官方版 - 121下载站...
- python的Bio下的Entrez使用
- 自部署IPA在线安装服务源码
- Ubuntu18.04: Git clone 时出现gnutls_handshake() failed: The TLS connection was non-properly terminated
- 超级抠图:Super PhotoCut for Mac
- ninja源码下载及编译(Win10+VS2019)
- Ubuntu 20.04 系统5分钟后老是自动锁屏怎么取消?
- Dual Encoding for Video Retrieval by T ext
- 【趣味】一个将任意数字分解成 114514 构成的公式的工具
- Python调用使用自颁发证书的https接口
- 一些IT专业英文缩写(老说这些 是显着自己不low)
- pythonindex函数的使用格式_Python之函数
热门文章
- Classic Application Wizard config EPMA
- 2022年货节有什么好买的?新年好物选购清单
- 【ZZULIOJ】1103: 平均学分绩点(函数专题)
- 合合信息科技-校园招聘笔试题
- CH 1 Greenfoot初体验
- 【数据挖掘】期末复习模拟题(暨考试题)
- Creo Simulat 4.0有限元分析视频教程 料材 结构 网格 装配 散热分析
- Chrome/Edge 夜间模式插件:Dark Reader
- 计算机辅助教学是人工智能应用,人工智能教学论文,关于人工智能存计算机辅助教学中应用相关参考文献资料-免费论文范文...
- 戴尔游匣5577安装Ubuntu18.04配置