强化学习《基于价值 - MC方法和TD方法》
这一期的RL学习全是学习自李宏毅老师的教程,在自己多次学习后,自以为比较能理解后,才写下来了的。因此很多截图呢直接来自李宏毅老师的截图,很多地方我就不亲自写式子了。
本文讲解Value-Based的方法。
一:基本介绍
我们之前在policy-based中学习的是一个Actor,也就是输入一个S,输出一个Action(各个Action的概率,取最大概率的Action)。
现在我们是 value-based 的方法,那么就是要去学习一个critic,它不直接采取行动,它是对现由的Actor做出好坏的评价。
二者之间还是由差距的。
MC方法得要花时间等episode结束才能计算,我们知道每一步骤存在随机性,步骤太多的话,不确定性太多,不稳定性极高,方差太大。
TD方法每次只需要一部或者几步即可,效率上要高一些,它引入的不确定性少很多,方差就小一些,但是很可能会不准确。
强化学习《基于价值 - MC方法和TD方法》相关推荐
- 深度强化学习-基于价值的强化学习-TD算法和Q学习(三)
本文主要介绍TD算法和Q学习算法 目录 TD算法: Q学习算法: 同策略,异策略: TD算法: 即时间差分 (Temporal Difference):此处用举例子方法来帮助大家理解 1.假设我从天津 ...
- 强化学习入门 : 一文入门强化学习 (Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等)
最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...
- [强化学习实战]出租车调度-Q learning SARSA
出租车调度-Q learning & SARSA 案例分析 实验环境使用 同策时序差分学习调度 异策时序差分调度 资格迹学习调度 结论 代码链接 案例分析 本节考虑Gym库里出租车调度问题(T ...
- 深度强化学习-基于价值学习的高级技巧(五-1)
之前讲了TD算法和DQN,但实际上原始的DQN效果并不是很理想,因此本节主要讲解一些TD算法或者DQN的改进策略.包括经验回放, 高估问题(目标网络target network,double Q-le ...
- 深度强化学习-基于价值学习的高级技巧-对决网络(五-2)
对决网络实属比较复杂和难以理解,我在博客末尾加上一点自己的总结与理解,虽然可能不太严谨,但绝对通俗易懂,大家一看就会!如有问题欢迎留言,本人几乎全天在线. 目录 公式: 网络: maxA的作用: 再理 ...
- 强化学习 | 基于Novelty-Pursuit的高效探索方法
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ Li, Ziniu, and Xiong-Hui ...
- 强化学习 最前沿之Hierarchical reinforcement learning(一)
强化学习-最前沿系列 深度强化学习作为当前发展最快的方向,可以说是百家争鸣的时代.针对特定问题,针对特定环境的文章也层出不穷.对于这么多的文章和方向,如果能撇一隅,往往也能够带来较多的启发. 本系列文 ...
- 分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey
论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...
- dqn 应用案例_强化学习(十二) Dueling DQN
在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...
- 强化学习(十二) Dueling DQN
在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...
最新文章
- java_pandas_Joinery
- python__基础 : 异常处理与自定义异常
- DIRECTDRAW 1:创建一个简单的DIRECTDRAW程序
- 纸质图书与电子图书的营销策略研究
- MYSQL常用函数以及分组操作
- Directory /opt/jfrog/artifactory/var has bad permissions for user id 1030
- c语言讲输入退回缓冲区_开始之前的结束-如何不退回输入错误的用户电子邮件...
- winsock使用java编写_利用Socket进行Java网络编程(一)
- 一双耐克出厂价70元,代工老板赚到900亿身家
- [Java] 蓝桥杯BASIC-26 基础练习 报时助手
- Linux:CentOS中SFTP工具的使用
- 继承ActionSupport
- CellularAutomation(细胞自动机)
- Tplink路由器配置页面IP地址_tplogin.cn页面IP地址_TpLink易展版LAN口地址获取_如何获得tplogin.cn的IP地址_获取易展版TPLinkWIFI6路由器的配置地址方法
- vue安装vue-awesome-swiper@3实现图片列表缩略图双向控制效果
- 知云文献翻译打不开_有了这几个软件,轻松读懂英文文献
- 调用百度API(二)——百度翻译
- Qt QSS之QSlider滑动条美化
- 如何评估社交网络中信息内容的价值呢?
- C#二维码条码生成存入文本加缓存
热门文章
- 如何记录和不寻常的唤醒中断源
- info nano shutdown
- 玉置成実(Nami Tamaki) -《もしも愿いが…》单曲[MP3]
- RedisUtil - Redis功能介绍,五种数据类型的使用,Spring和Redis的集成
- Centos7 安装samba简单教程
- 【Java】利用for循环打印心型
- Getting started with Bitcoin
- typescript 博客_如何使用Typescript自动化博客发布过程
- SAS在金融中的应用三
- java的getshape()_JAVA(Swing)中的镜像形状