习题

7-1 为什么传统的深度Q 网络的效果并不好?可以参考其公式Q(st, at) = rt + maxa Q(st+1, a) 来描述。

因为实际上在做的时候,我们要让左边的式子跟目标越接近越好。但目标值很容易一不小心被设得太高,因为在计算目标的时候,实际采用的是哪个动作获得最大价值,就把它加上去变成我们的目标。即,每次我们都会选择哪个Q值被高估的动作,总是会选哪个奖励被高估的动作这个最大的结果去加上rt当目标,所以目标总是太大。

7-2 接着上个思考题,我们应该怎么解决目标值总是太大的问题呢?

采用双深度Q网络解决该问题。在双深度网络中,第一个Q网络决定哪一个动作的Q值最大,用第一个Q网络遍历全部的动作a,去看看那个Q值最大,依此选定动作。我们的Q值是用Q’估算的。
因为假设我们有两个Q 函数,假设第一个Q 函数高估了它现在选出来的动作a,那没关系,只要第二个Q 函数Q′ 没有高估这个动作a 的值,那你算出来的,就还是正常的值。假设反过来是Q′ 高估了某一个动作的值,那也没差

7-3 哪来的Q 与Q′ 这两个网络呢?

  • 目标的Q 网络:计算价值
  • 真正更新的Q 网络:进行动作选择
  • 来源:之前最佳动作用目标Q网络计算,现在改成了会更新的Q网络计算

7-4 如何理解竞争深度Q 网络的模型变化带来的好处?

我们最终的矩阵Q<s, a>的结果是将每一个V加到矩阵A<s, a>中得到的。从模型的角度考虑,
我们的网络改变的不是Q<s, a>而是改变V, A。在更新时不一定会将V和Q<s, a>都更新。我们将其分成两个部分后,
我们就不需要将所有的状态-动作都采样一遍,这样就可以更加高效的估计Q值

7-5 使用蒙特卡罗和时序差分平衡方法的优劣分别有哪些

优势:
因为我们现在采样了比较多的步骤,之前是只采样一步,所以某一步得到的数据是真实值,接下来都是Q值估计出来的。
现在比较多步骤,采样N步才估测价值,所以估测的部分所造成的影响就回比较小。

劣势:
N步相加,会增加对应的方差。但是可以通过调整N值,在方差与不精确的Q值之间做衡量

强化学习_07_DataWhale深度Q网络进阶技巧相关推荐

  1. 【EasyRL学习笔记】第七章 深度Q网络进阶技巧(Double-DQN、Dueling-DQN、Noisy-DQN、Distributional-DQN、Rainbow-DQN)

    文章目录 一.双深度Q网络(DDQN) 二.竞争深度Q网络(Dueling DQN) 三.优先级经验回放 四.在蒙特卡洛方法和时序差分方法中取得平衡 五.噪声深度Q网络(Noisy DQN) 六.分布 ...

  2. 【强化学习】竞争深度Q网络(Dueling DQN)求解倒立摆问题 + Pytorch代码实战

    文章目录 一.倒立摆问题介绍 二.竞争深度Q网络简介 三.详细资料 四.Python代码实战 4.1 运行前配置 4.2 主要代码 4.3 运行结果展示 4.4 关于可视化的设置 一.倒立摆问题介绍 ...

  3. 强化学习之深度Q函数

    背景:强化学习玩游戏 模拟器(model 或 emulator)以动作(action)为输入,输出一张图像和奖励. 单张图像无法完全理解agent的当前状态,所以得结合动作与状态序列的信息. agen ...

  4. 【强化学习】双深度Q网络(DDQN)求解倒立摆问题 + Pytorch代码实战

    文章目录 一.倒立摆问题介绍 二.双深度Q网络简介 三.详细资料 四.Python代码实战 4.1 运行前配置 4.2 主要代码 4.3 运行结果展示 4.4 关于可视化的设置 一.倒立摆问题介绍 A ...

  5. 【EasyRL学习笔记】第六章 DQN 深度Q网络(基本概念)

    文章目录 一.深度Q网络的引入 1.1 传统表格型方法的缺点 1.2 引入深度Q网络 二.状态价值函数 2.1 基于蒙特卡洛的方法 2.2 基于时序差分的方法 2.3 两方法对比 2.4 举例说明 三 ...

  6. 第七章 深度强化学习-深度Q网络系列1(Deep Q-Networks,DQN)

    获取更多资讯,赶快关注上面的公众号吧! 文章目录 第七章 深度强化学习-深度Q网络 7.1 学习目标 7.2 深度学习和强化学习的区别 7.3 DQN原理 7.4 DQN算法 7.4.1 预处理 7. ...

  7. 深度强化学习引导的脑网络分析图神经网络

    https://www.sciencedirect.com/science/article/pii/S0893608022002507#fig1https://www.sciencedirect.co ...

  8. 【EasyRL学习笔记】第八章 针对连续动作的深度Q网络

    文章目录 一.连续动作 二.方案1:对动作进行采样 三.方案2:梯度上升 四.方案3:设计网络架构 五.方案4:不使用深度Q网络 六.习题 一.连续动作 深度 Q\mathrm{Q}Q 网络其实存在一 ...

  9. 一周上榜新书:强化学习、深度学习最受程序员关注

    4月出版了很多新书,上周有两本书最受程序员关注,<动手学强化学习>和<PyTorch深度学习实战>位于一周榜单TOP10.现在和小编一起来看看有哪些新书上榜. 1.动手学强化学 ...

最新文章

  1. centos7上的图形化界面svn客户端_Git实战一:图形客户端规范用法小讲
  2. eigen跟踪MILTracker代码分析
  3. 【采用】【科技金融】CART树现金贷风控策略
  4. 一轮项目冲刺——移山小分队(2)
  5. oracle复合索引介绍(多字段索引)
  6. 算法题11 字符串的所有对称子串
  7. JQuery,ajax异步加载selectoption/option/select多选框:
  8. linux认证哪家好,linux认证 考哪种好?
  9. win10安装CUDA和cuDNN详解
  10. Startlsback常见使用过程中的问题
  11. sqoop安装及使用
  12. Ubuntu18.04安装显卡驱动
  13. 修改解锁【暴力破解】《植物大战僵尸Zombie》所有模式、关卡、金钱教程。
  14. python布尔值print_python中的用户输入布尔值
  15. 小数转化为百分数(保留小数点后一位有效数字)
  16. 电梯控制技术综合实训装置QY-DT721
  17. 恒流源LM334不恒流
  18. flask使用Blueprint
  19. linux 查找删除目录,Linux运维知识之Linux系统下find命令递归删除查找目录的方法...
  20. eslint报错Parsing error: Unexpected token prettier/prettier

热门文章

  1. Cluspro蛋白蛋白对接教程
  2. 可以制造各种东西的游戏_制造可怕的东西
  3. C9800系列思科无线控制器
  4. 主元分析(PCA)理论分析及应用
  5. 【图像超分辨(SR)】图像超分辨领域一些英文名词最通俗的中文解释
  6. vue使用echarts
  7. 微盛·企微管家完成A轮融资,腾讯红杉联手发力企业微信服务赛道
  8. 平安有效提升文档服务器,平安银行主流服务器配置
  9. 西门子博图功能指令——交换
  10. 回忆法切蒂的一生:大国米时代的见证人 天生的贵族