1. value iteration和policy iteration的区别
    value iteration: ①多次迭代Bellman最优等式和Bellman等式,等价值函数收敛后,②再用价值函数带入贝尔曼等式得到动作价值函数,策略就从最大的动作价值函数选取。(策略没有参与)

    policyiteration:①随机选取一个策略policy,用这个policy对Bellman等式进行多次迭代计算直到价值函数收敛,②再用价值函数求得动作价值函数,策略就从最大的动作价值函数选取。③然后用新的策略再进入①计算。
    对①②③进行多次迭代直到策略收敛。(策略一直参与)

  2. MC和TD的区别
    MC:基本的MC算法是采集n条轨迹,假设计算s1状态的价值函数,先取某一条轨迹中的n个不同时刻s1状态的回报相加再除以n就得到这条轨迹上s1状态的价值函数,然后按此方法计算其他轨迹的s1状态的价值函数,这样就得到n个s1状态的价值函数,最后取平均值即可。

    TD:增量型MC算法的变种,它相较于增量型MC算法,不需要agent与环境交互直到得到一条完整的轨迹,它只需要与环境进行一次交互得到一个Rt+1R_{t+1}Rt+1​,然后采用DP算法进行迭代计算。

  3. value iteration,policy iteration和MC,TD的区别

    value iteration,policy iteration:不仅可以用来对价值函数进行估值,但是需要知道model;还能得到相应的最优的策略

    MC,TD:只是用来对价值函数进行估值,不需要知道model

强化学习note2——value iteration和policy iteration的区别,MC和TD的区别相关推荐

  1. 【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解

    http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...

  2. 强化学习(4):策略梯度Policy Gradient算法

    本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 终于到Policy Gradient方法了! 一.引言 reinforcement le ...

  3. 机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)

    文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...

  4. 深度强化学习(三):Policy Gradients

    ###一.Policy-based RL概述 ####1.Policy-based RL起源 在学习Policy Gradiens(PG)之前,我们将强化学习的方法分成两类进行考虑: 一类是value ...

  5. 强化学习(二):Policy Gradient理解

    上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解.于是,本章我们就 ...

  6. 【7】强化学习之策略梯度(Policy Gradient)

    [李宏毅]强化学习笔记(一) 什么是强化学习 监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...

  7. 强化学习笔记 DDPG (Deep Deterministic Policy Gradient)

    1 总述 总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay 强化学习笔记 experience replay 经验回放_UQ ...

  8. 强化学习 / 动态规划:策略改进(Policy Improvement)使策略更优的数学证明

    前言: Sutton第二版<强化学习>中,第4章第2节"策略改进"介绍了基于贪心算法的策略改进.为什么以(只考虑一个后续状态来选择当前动作的)贪心算法进行更新的策略一定 ...

  9. 强化学习笔记: MDP - Policy iteration

    1 Policy iteration介绍 Policy iteration式马尔可夫决策过程 MDP里面用来搜索最优策略的算法 Policy iteration 由两个步骤组成:policy eval ...

最新文章

  1. 在web项目中使用SpringMVC
  2. 计算机版本号怎么看,怎样查看电脑版本型号,怎样查看电脑版本信息
  3. 【转载】扫盲概念RPA
  4. python三元表达式
  5. uefi启动如何进入
  6. Wordpress SEO robots
  7. php判断微信版本,判断是否是微信访问并获取版本号
  8. localhost方式提交作业到spark运行
  9. linux下的C语言开发(开篇)
  10. AIoT 又迎一利器,涂鸦云开发平台来了!
  11. 小学计算机小蘑菇教案,森林里的小蘑菇教案.doc
  12. 数据结构笔记(九)-- 单链队列
  13. 使用Tftpd64收集交换机日志
  14. 浅谈CPRI原理及测试解决方案(转)
  15. Android简易项目--傻瓜式阿拉伯语输入法(Dummy Arabic Input)
  16. 《东周列国志》第四十回 先轸诡谋激子玉 晋楚城濮大交兵
  17. hdu 校赛 油菜花王国
  18. java 中 Native.loadLibrary 不能加载 jar 包中库文件的解决方案
  19. 昂达b450s 内存超频3200,xmp设置教程
  20. TeamViewer用户注意:请尽快将其更新为最新版本

热门文章

  1. 0305互联网新闻 | 钉钉发布“未来校园”千校计划;海南出台方案鼓励发展网约医疗服务...
  2. 855C Helga Hufflepuff's Cup
  3. 11.28 限定某个目录禁止解析php 11.29 限制user_agent 11.30/11.31 php相关配置
  4. Java8:Lambda表达式增强版Comparator和排序
  5. thinkphp phpexcel导出
  6. 如何申请一份iOS工作
  7. SCCM 2012系列之一 Operations Manager 关键概念
  8. 介绍微软一个罕为人知的无敌命令
  9. (大纲)三小时学会openCV
  10. 史上最全的SpringCloud入门学习教程