习题

7-1 为什么传统的深度Q 网络的效果并不好？可以参考其公式Q(st, at) = rt + maxa Q(st+1, a) 来描述。

因为实际上在做的时候，我们要让左边的式子跟目标越接近越好。但目标值很容易一不小心被设得太高，因为在计算目标的时候，实际采用的是哪个动作获得最大价值，就把它加上去变成我们的目标。即，每次我们都会选择哪个Q值被高估的动作，总是会选哪个奖励被高估的动作这个最大的结果去加上rt当目标，所以目标总是太大。

7-2 接着上个思考题，我们应该怎么解决目标值总是太大的问题呢？

采用双深度Q网络解决该问题。在双深度网络中，第一个Q网络决定哪一个动作的Q值最大，用第一个Q网络遍历全部的动作a，去看看那个Q值最大，依此选定动作。我们的Q值是用Q’估算的。
因为假设我们有两个Q 函数，假设第一个Q 函数高估了它现在选出来的动作a，那没关系，只要第二个Q 函数Q′ 没有高估这个动作a 的值，那你算出来的，就还是正常的值。假设反过来是Q′ 高估了某一个动作的值，那也没差

7-3 哪来的Q 与Q′ 这两个网络呢？

目标的Q 网络：计算价值
真正更新的Q 网络：进行动作选择
来源：之前最佳动作用目标Q网络计算，现在改成了会更新的Q网络计算

7-4 如何理解竞争深度Q 网络的模型变化带来的好处？

我们最终的矩阵Q<s, a>的结果是将每一个V加到矩阵A<s, a>中得到的。从模型的角度考虑，
我们的网络改变的不是Q<s, a>而是改变V, A。在更新时不一定会将V和Q<s, a>都更新。我们将其分成两个部分后，
我们就不需要将所有的状态-动作都采样一遍，这样就可以更加高效的估计Q值

7-5 使用蒙特卡罗和时序差分平衡方法的优劣分别有哪些

优势：
因为我们现在采样了比较多的步骤，之前是只采样一步，所以某一步得到的数据是真实值，接下来都是Q值估计出来的。
现在比较多步骤，采样N步才估测价值，所以估测的部分所造成的影响就回比较小。

劣势：
N步相加，会增加对应的方差。但是可以通过调整N值，在方差与不精确的Q值之间做衡量

强化学习_07_DataWhale深度Q网络进阶技巧相关推荐

【EasyRL学习笔记】第七章深度Q网络进阶技巧(Double-DQN、Dueling-DQN、Noisy-DQN、Distributional-DQN、Rainbow-DQN)
文章目录一.双深度Q网络(DDQN) 二.竞争深度Q网络(Dueling DQN) 三.优先级经验回放四.在蒙特卡洛方法和时序差分方法中取得平衡五.噪声深度Q网络(Noisy DQN) 六.分布 ...
【强化学习】竞争深度Q网络(Dueling DQN)求解倒立摆问题 + Pytorch代码实战
文章目录一.倒立摆问题介绍二.竞争深度Q网络简介三.详细资料四.Python代码实战 4.1 运行前配置 4.2 主要代码 4.3 运行结果展示 4.4 关于可视化的设置一.倒立摆问题介绍 ...
强化学习之深度Q函数
背景:强化学习玩游戏模拟器(model 或 emulator)以动作(action)为输入,输出一张图像和奖励. 单张图像无法完全理解agent的当前状态,所以得结合动作与状态序列的信息. agen ...
【强化学习】双深度Q网络(DDQN)求解倒立摆问题 + Pytorch代码实战
文章目录一.倒立摆问题介绍二.双深度Q网络简介三.详细资料四.Python代码实战 4.1 运行前配置 4.2 主要代码 4.3 运行结果展示 4.4 关于可视化的设置一.倒立摆问题介绍 A ...
【EasyRL学习笔记】第六章 DQN 深度Q网络（基本概念）
文章目录一.深度Q网络的引入 1.1 传统表格型方法的缺点 1.2 引入深度Q网络二.状态价值函数 2.1 基于蒙特卡洛的方法 2.2 基于时序差分的方法 2.3 两方法对比 2.4 举例说明三 ...
第七章深度强化学习-深度Q网络系列1（Deep Q-Networks，DQN）
获取更多资讯,赶快关注上面的公众号吧! 文章目录第七章深度强化学习-深度Q网络 7.1 学习目标 7.2 深度学习和强化学习的区别 7.3 DQN原理 7.4 DQN算法 7.4.1 预处理 7. ...
深度强化学习引导的脑网络分析图神经网络
https://www.sciencedirect.com/science/article/pii/S0893608022002507#fig1https://www.sciencedirect.co ...
【EasyRL学习笔记】第八章针对连续动作的深度Q网络
文章目录一.连续动作二.方案1:对动作进行采样三.方案2:梯度上升四.方案3:设计网络架构五.方案4:不使用深度Q网络六.习题一.连续动作深度 Q\mathrm{Q}Q 网络其实存在一 ...
一周上榜新书：强化学习、深度学习最受程序员关注
4月出版了很多新书,上周有两本书最受程序员关注,<动手学强化学习>和<PyTorch深度学习实战>位于一周榜单TOP10.现在和小编一起来看看有哪些新书上榜. 1.动手学强化学 ...

强化学习_07_DataWhale深度Q网络进阶技巧

习题