强化学习_07_DataWhale深度Q网络进阶技巧
习题
7-1 为什么传统的深度Q 网络的效果并不好?可以参考其公式Q(st, at) = rt + maxa Q(st+1, a) 来描述。
因为实际上在做的时候,我们要让左边的式子跟目标越接近越好。但目标值很容易一不小心被设得太高,因为在计算目标的时候,实际采用的是哪个动作获得最大价值,就把它加上去变成我们的目标。即,每次我们都会选择哪个Q值被高估的动作,总是会选哪个奖励被高估的动作这个最大的结果去加上rt当目标,所以目标总是太大。
7-2 接着上个思考题,我们应该怎么解决目标值总是太大的问题呢?
采用双深度Q网络解决该问题。在双深度网络中,第一个Q网络决定哪一个动作的Q值最大,用第一个Q网络遍历全部的动作a,去看看那个Q值最大,依此选定动作。我们的Q值是用Q’估算的。
因为假设我们有两个Q 函数,假设第一个Q 函数高估了它现在选出来的动作a,那没关系,只要第二个Q 函数Q′ 没有高估这个动作a 的值,那你算出来的,就还是正常的值。假设反过来是Q′ 高估了某一个动作的值,那也没差
7-3 哪来的Q 与Q′ 这两个网络呢?
- 目标的Q 网络:计算价值
- 真正更新的Q 网络:进行动作选择
- 来源:之前最佳动作用目标Q网络计算,现在改成了会更新的Q网络计算
7-4 如何理解竞争深度Q 网络的模型变化带来的好处?
我们最终的矩阵Q<s, a>的结果是将每一个V加到矩阵A<s, a>中得到的。从模型的角度考虑,
我们的网络改变的不是Q<s, a>而是改变V, A。在更新时不一定会将V和Q<s, a>都更新。我们将其分成两个部分后,
我们就不需要将所有的状态-动作都采样一遍,这样就可以更加高效的估计Q值
7-5 使用蒙特卡罗和时序差分平衡方法的优劣分别有哪些
优势:
因为我们现在采样了比较多的步骤,之前是只采样一步,所以某一步得到的数据是真实值,接下来都是Q值估计出来的。
现在比较多步骤,采样N步才估测价值,所以估测的部分所造成的影响就回比较小。
劣势:
N步相加,会增加对应的方差。但是可以通过调整N值,在方差与不精确的Q值之间做衡量
强化学习_07_DataWhale深度Q网络进阶技巧相关推荐
- 【EasyRL学习笔记】第七章 深度Q网络进阶技巧(Double-DQN、Dueling-DQN、Noisy-DQN、Distributional-DQN、Rainbow-DQN)
文章目录 一.双深度Q网络(DDQN) 二.竞争深度Q网络(Dueling DQN) 三.优先级经验回放 四.在蒙特卡洛方法和时序差分方法中取得平衡 五.噪声深度Q网络(Noisy DQN) 六.分布 ...
- 【强化学习】竞争深度Q网络(Dueling DQN)求解倒立摆问题 + Pytorch代码实战
文章目录 一.倒立摆问题介绍 二.竞争深度Q网络简介 三.详细资料 四.Python代码实战 4.1 运行前配置 4.2 主要代码 4.3 运行结果展示 4.4 关于可视化的设置 一.倒立摆问题介绍 ...
- 强化学习之深度Q函数
背景:强化学习玩游戏 模拟器(model 或 emulator)以动作(action)为输入,输出一张图像和奖励. 单张图像无法完全理解agent的当前状态,所以得结合动作与状态序列的信息. agen ...
- 【强化学习】双深度Q网络(DDQN)求解倒立摆问题 + Pytorch代码实战
文章目录 一.倒立摆问题介绍 二.双深度Q网络简介 三.详细资料 四.Python代码实战 4.1 运行前配置 4.2 主要代码 4.3 运行结果展示 4.4 关于可视化的设置 一.倒立摆问题介绍 A ...
- 【EasyRL学习笔记】第六章 DQN 深度Q网络(基本概念)
文章目录 一.深度Q网络的引入 1.1 传统表格型方法的缺点 1.2 引入深度Q网络 二.状态价值函数 2.1 基于蒙特卡洛的方法 2.2 基于时序差分的方法 2.3 两方法对比 2.4 举例说明 三 ...
- 第七章 深度强化学习-深度Q网络系列1(Deep Q-Networks,DQN)
获取更多资讯,赶快关注上面的公众号吧! 文章目录 第七章 深度强化学习-深度Q网络 7.1 学习目标 7.2 深度学习和强化学习的区别 7.3 DQN原理 7.4 DQN算法 7.4.1 预处理 7. ...
- 深度强化学习引导的脑网络分析图神经网络
https://www.sciencedirect.com/science/article/pii/S0893608022002507#fig1https://www.sciencedirect.co ...
- 【EasyRL学习笔记】第八章 针对连续动作的深度Q网络
文章目录 一.连续动作 二.方案1:对动作进行采样 三.方案2:梯度上升 四.方案3:设计网络架构 五.方案4:不使用深度Q网络 六.习题 一.连续动作 深度 Q\mathrm{Q}Q 网络其实存在一 ...
- 一周上榜新书:强化学习、深度学习最受程序员关注
4月出版了很多新书,上周有两本书最受程序员关注,<动手学强化学习>和<PyTorch深度学习实战>位于一周榜单TOP10.现在和小编一起来看看有哪些新书上榜. 1.动手学强化学 ...
最新文章
- centos7上的图形化界面svn客户端_Git实战一:图形客户端规范用法小讲
- eigen跟踪MILTracker代码分析
- 【采用】【科技金融】CART树现金贷风控策略
- 一轮项目冲刺——移山小分队(2)
- oracle复合索引介绍(多字段索引)
- 算法题11 字符串的所有对称子串
- JQuery,ajax异步加载selectoption/option/select多选框:
- linux认证哪家好,linux认证 考哪种好?
- win10安装CUDA和cuDNN详解
- Startlsback常见使用过程中的问题
- sqoop安装及使用
- Ubuntu18.04安装显卡驱动
- 修改解锁【暴力破解】《植物大战僵尸Zombie》所有模式、关卡、金钱教程。
- python布尔值print_python中的用户输入布尔值
- 小数转化为百分数(保留小数点后一位有效数字)
- 电梯控制技术综合实训装置QY-DT721
- 恒流源LM334不恒流
- flask使用Blueprint
- linux 查找删除目录,Linux运维知识之Linux系统下find命令递归删除查找目录的方法...
- eslint报错Parsing error: Unexpected token prettier/prettier