在强化学习(八)价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。

    本章内容主要参考了ICML 2016的deep RL tutorial和Nature DQN的论文。

1. DQN(NIPS 2013)的问题

    在上一篇我们已经讨论了DQN(NIPS 2013)的算法原理和代码实现,虽然它可以训练像CartPole这样的简单游戏,但是有很多问题。这里我们先讨论第一个问题。

    注意到DQN(NIPS 2013)里面,我们使用的目标Q值的计算方式:

yj={RjRj+γmaxa′Q(ϕ(S′j),A′j,w)is_endjistrueis_endjisfalseyj={Rjis_endjistrueRj+γmaxa′Q(ϕ(Sj′),Aj′,w)is_endjisfalse

    这里目标Q值的计算使用到了当前要训练的Q网络参数来计算Q(ϕ(S′j),A′j,w)Q(ϕ(Sj′),Aj′,w),而实际上,我们又希望通过yjyj来后续更新Q网络参数。这样两者循环依赖,迭代起来两者的相关性就太强了。不利于算法的收敛。

    因此,一个改进版的DQN: Nature DQ

强化学习(九)Deep Q-Learning进阶之Nature DQN相关推荐

  1. 深度强化学习(Deep Reinforcement Learning)的资源

    深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00|  分类: Torch |  标签:深度强化学习   |举报 |字号 订阅 Goo ...

  2. [PARL强化学习]Sarsa和Q—learning的实现

    [PARL强化学习]Sarsa和Q-learning的实现 Sarsa和Q-learning都是利用表格法再根据MDP四元组<S,A,P,R>:S: state状态,a: action动作 ...

  3. 深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)

    深度强化学习--概述 翻译说明 综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...

  4. 【强化学习】Deep Q Network深度Q网络(DQN)

    1 DQN简介 1.1 强化学习与神经网络 该强化学习方法是这么一种融合了神经网络和Q-Learning的方法,名字叫做Deep Q Network. Q-Learning使用表格来存储每一个状态st ...

  5. 强化学习_07_DataWhale深度Q网络进阶技巧

    习题 7-1 为什么传统的深度Q 网络的效果并不好?可以参考其公式Q(st, at) = rt + maxa Q(st+1, a) 来描述. 因为实际上在做的时候,我们要让左边的式子跟目标越接近越好. ...

  6. 【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解

    1 DDPG简介 DDPG吸收了Actor-Critic让Policy Gradient 单步更新的精华,而且还吸收让计算机学会玩游戏的DQN的精华,合并成了一种新算法,叫做Deep Deterini ...

  7. 强化学习(RL)——Reinforcement learning

    强化学习 一.强化学习简介 二.强化学习发展历程 三.深度强化学习DRL 四.马尔可夫决策过程 五.值函数 六.Q值 七.蒙特卡洛(MC)与时序差分(TD) 八.强化学习的代表算法 1.Q-learn ...

  8. Deep Q learning: DQN及其改进

    Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示 价值函数 策略 模型 使用随机梯度下降(SGD)优化los ...

  9. CNNs and Deep Q Learning

    前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL.这篇博文前半部分介绍DNN.CNN,熟悉这些的读者可以跳过,直接看后半部分的 ...

  10. AI周报丨标清变4k?B站超分辨率算法开源;强化学习算法控制核聚变登上《nature》

    AI周刊丨标清变4k?B站超分辨率算法开源:强化学习算法控制核聚变登上<nature> 2022年2月22日 极链AI云 文章目录 AI周刊丨标清变4k?B站超分辨率算法开源:强化学习算法 ...

最新文章

  1. suse linux 命令
  2. 安装neo1973的GPS驱动[转]
  3. 新装oracle如何启动服务,Oracle数据库新装之后出现的监听程序无法正常启动和运行(Oracle-12514)问题...
  4. “寒假”建站创业 选购虚拟主机是关键
  5. python3函数中lambda/filter/map/reduce的用法
  6. Android studio 查找文件在电脑路径位置
  7. JavaScript 是传值调用还是传引用调用?
  8. React Native 轻松集成分享功能( iOS 篇)
  9. javaWeb服务详解(含源代码,测试通过,注释) ——web.xml
  10. 车联网 python_利用百度车联网提供的天气查询接口用python查询天气信息
  11. oracle XMLType字段使用方法
  12. python展示全部好友_python爬所有好友头像
  13. PHP CURL 异步测试
  14. cocos2d-lua 搓牌效果_夏天这样洗澡才叫爽,用它搓一搓,脏东西都出来了
  15. php函数声明提前,php的日期处理函数及uchome的function_coomon中日期处理函数的研究...
  16. 高级python_高级Python功能
  17. Linux系统启动过程分析
  18. 解决办法:configure后,没有更新Makefile
  19. 免费的银行联行号查询/接口
  20. 在ArcCatalog中建立空间数据库以及数据的编辑

热门文章

  1. 嵌入式项目数据解决方案之sqlite
  2. Windows server 2012 活动目录回收站
  3. Hyperic HQ 应用性能管理解决方案
  4. XML格式对象序列化(2)
  5. 《算法竞赛进阶指南》打卡-基本算法-AcWing 91. 最短Hamilton路径:位运算、状态压缩dp、dp
  6. 几个关于财报的基本知识
  7. oracle define (hex 26),oracle 特殊字符轉義
  8. channels java_Java NIO channels
  9. 数据增量更新定义_封面数据 | 爬虫技术与应用
  10. 苹果cms的php.ini,苹果cms安装及配置详细教程