这一期的RL学习全是学习自李宏毅老师的教程,在自己多次学习后,自以为比较能理解后,才写下来了的。因此很多截图呢直接来自李宏毅老师的截图,很多地方我就不亲自写式子了。
本文讲解Value-Based的方法。

一:基本介绍

我们之前在policy-based中学习的是一个Actor,也就是输入一个S,输出一个Action(各个Action的概率,取最大概率的Action)。
现在我们是 value-based 的方法,那么就是要去学习一个critic,它不直接采取行动,它是对现由的Actor做出好坏的评价。









二者之间还是由差距的。

MC方法得要花时间等episode结束才能计算,我们知道每一步骤存在随机性,步骤太多的话,不确定性太多,不稳定性极高,方差太大。

TD方法每次只需要一部或者几步即可,效率上要高一些,它引入的不确定性少很多,方差就小一些,但是很可能会不准确。

强化学习《基于价值 - MC方法和TD方法》相关推荐

  1. 深度强化学习-基于价值的强化学习-TD算法和Q学习(三)

    本文主要介绍TD算法和Q学习算法 目录 TD算法: Q学习算法: 同策略,异策略: TD算法: 即时间差分 (Temporal Difference):此处用举例子方法来帮助大家理解 1.假设我从天津 ...

  2. 强化学习入门 : 一文入门强化学习 (Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等)

    最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...

  3. [强化学习实战]出租车调度-Q learning SARSA

    出租车调度-Q learning & SARSA 案例分析 实验环境使用 同策时序差分学习调度 异策时序差分调度 资格迹学习调度 结论 代码链接 案例分析 本节考虑Gym库里出租车调度问题(T ...

  4. 深度强化学习-基于价值学习的高级技巧(五-1)

    之前讲了TD算法和DQN,但实际上原始的DQN效果并不是很理想,因此本节主要讲解一些TD算法或者DQN的改进策略.包括经验回放, 高估问题(目标网络target network,double Q-le ...

  5. 深度强化学习-基于价值学习的高级技巧-对决网络(五-2)

    对决网络实属比较复杂和难以理解,我在博客末尾加上一点自己的总结与理解,虽然可能不太严谨,但绝对通俗易懂,大家一看就会!如有问题欢迎留言,本人几乎全天在线. 目录 公式: 网络: maxA的作用: 再理 ...

  6. 强化学习 | 基于Novelty-Pursuit的高效探索方法

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ Li, Ziniu, and Xiong-Hui ...

  7. 强化学习 最前沿之Hierarchical reinforcement learning(一)

    强化学习-最前沿系列 深度强化学习作为当前发展最快的方向,可以说是百家争鸣的时代.针对特定问题,针对特定环境的文章也层出不穷.对于这么多的文章和方向,如果能撇一隅,往往也能够带来较多的启发. 本系列文 ...

  8. 分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey

    论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...

  9. dqn 应用案例_强化学习(十二) Dueling DQN

    在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...

  10. 强化学习(十二) Dueling DQN

    在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...

最新文章

  1. java_pandas_Joinery
  2. python__基础 : 异常处理与自定义异常
  3. DIRECTDRAW 1:创建一个简单的DIRECTDRAW程序
  4. 纸质图书与电子图书的营销策略研究
  5. MYSQL常用函数以及分组操作
  6. Directory /opt/jfrog/artifactory/var has bad permissions for user id 1030
  7. c语言讲输入退回缓冲区_开始之前的结束-如何不退回输入错误的用户电子邮件...
  8. winsock使用java编写_利用Socket进行Java网络编程(一)
  9. 一双耐克出厂价70元,代工老板赚到900亿身家
  10. [Java] 蓝桥杯BASIC-26 基础练习 报时助手
  11. Linux:CentOS中SFTP工具的使用
  12. 继承ActionSupport
  13. CellularAutomation(细胞自动机)
  14. Tplink路由器配置页面IP地址_tplogin.cn页面IP地址_TpLink易展版LAN口地址获取_如何获得tplogin.cn的IP地址_获取易展版TPLinkWIFI6路由器的配置地址方法
  15. vue安装vue-awesome-swiper@3实现图片列表缩略图双向控制效果
  16. 知云文献翻译打不开_有了这几个软件,轻松读懂英文文献
  17. 调用百度API(二)——百度翻译
  18. Qt QSS之QSlider滑动条美化
  19. 如何评估社交网络中信息内容的价值呢?
  20. C#二维码条码生成存入文本加缓存

热门文章

  1. 如何记录和不寻常的唤醒中断源
  2. info nano shutdown
  3. 玉置成実(Nami Tamaki) -《もしも愿いが…》单曲[MP3]
  4. RedisUtil - Redis功能介绍,五种数据类型的使用,Spring和Redis的集成
  5. Centos7 安装samba简单教程
  6. 【Java】利用for循环打印心型
  7. Getting started with Bitcoin
  8. typescript 博客_如何使用Typescript自动化博客发布过程
  9. SAS在金融中的应用三
  10. java的getshape()_JAVA(Swing)中的镜像形状