强化学习《基于价值 - MC方法和TD方法》

这一期的RL学习全是学习自李宏毅老师的教程，在自己多次学习后，自以为比较能理解后，才写下来了的。因此很多截图呢直接来自李宏毅老师的截图，很多地方我就不亲自写式子了。
本文讲解Value-Based的方法。

一：基本介绍

我们之前在policy-based中学习的是一个Actor，也就是输入一个S，输出一个Action（各个Action的概率，取最大概率的Action）。
现在我们是 value-based 的方法，那么就是要去学习一个critic，它不直接采取行动，它是对现由的Actor做出好坏的评价。

二者之间还是由差距的。

MC方法得要花时间等episode结束才能计算，我们知道每一步骤存在随机性，步骤太多的话，不确定性太多，不稳定性极高，方差太大。

TD方法每次只需要一部或者几步即可，效率上要高一些，它引入的不确定性少很多，方差就小一些，但是很可能会不准确。

强化学习《基于价值 - MC方法和TD方法》相关推荐

深度强化学习-基于价值的强化学习-TD算法和Q学习（三）
本文主要介绍TD算法和Q学习算法目录 TD算法: Q学习算法: 同策略,异策略: TD算法: 即时间差分 (Temporal Difference):此处用举例子方法来帮助大家理解 1.假设我从天津 ...
强化学习入门：一文入门强化学习（Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等）
最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...
[强化学习实战]出租车调度-Q learning SARSA
出租车调度-Q learning & SARSA 案例分析实验环境使用同策时序差分学习调度异策时序差分调度资格迹学习调度结论代码链接案例分析本节考虑Gym库里出租车调度问题(T ...
深度强化学习-基于价值学习的高级技巧（五-1）
之前讲了TD算法和DQN,但实际上原始的DQN效果并不是很理想,因此本节主要讲解一些TD算法或者DQN的改进策略.包括经验回放, 高估问题(目标网络target network,double Q-le ...
深度强化学习-基于价值学习的高级技巧-对决网络（五-2）
对决网络实属比较复杂和难以理解,我在博客末尾加上一点自己的总结与理解,虽然可能不太严谨,但绝对通俗易懂,大家一看就会!如有问题欢迎留言,本人几乎全天在线. 目录公式: 网络: maxA的作用: 再理 ...
强化学习 | 基于Novelty-Pursuit的高效探索方法
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ Li, Ziniu, and Xiong-Hui ...
强化学习最前沿之Hierarchical reinforcement learning（一）
强化学习-最前沿系列深度强化学习作为当前发展最快的方向,可以说是百家争鸣的时代.针对特定问题,针对特定环境的文章也层出不穷.对于这么多的文章和方向,如果能撇一隅,往往也能够带来较多的启发. 本系列文 ...
分层强化学习综述：Hierarchical reinforcement learning: A comprehensive survey
论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...
dqn 应用案例_强化学习(十二) Dueling DQN
在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...
强化学习(十二) Dueling DQN
在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...

强化学习《基于价值 - MC方法和TD方法》

强化学习《基于价值 - MC方法和TD方法》相关推荐

最新文章

热门文章