在强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search)。

    本篇主要参考了UCL强化学习课程的第八讲,第九讲部分。

1. 基于模拟的搜索概述

    什么是基于模拟的搜索呢?当然主要是两个点:一个是模拟,一个是搜索。模拟我们在上一篇也讨论过,就是基于强化学习模型进行采样,得到样本数据。但是这是数据不是基于和环境交互获得的真实数据,所以是“模拟”。对于搜索,则是为了利用模拟的样本结果来帮我们计算到底应该采用什么样的动作,以实现我们的长期受益最大化。

    那么为什么要进行基于模拟的搜索呢?在这之前我们先看看最简单的前向搜索(forward search)。前向搜索算法从当前我们考虑的状态节点StSt开始考虑,怎么考虑呢?对该状态节点所有可能的动作进行扩展,建立一颗以StSt为根节点的搜索树,这个搜索树也是一个MDP,只是它是以当前状态为根节点,而不是以起始状态为根节点,所以也叫做sub-MDP。我们求解这个sub-MDP问题,然后得到StSt状态最应该采用的动作AtAt。前向搜索的sub-MDP如下图:

强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)相关推荐

  1. 强化学习(八):Dyna架构与蒙特卡洛树搜索MCTS

    强化学习(八):Dyna架构与蒙特卡洛树搜索MCTS   在基于表格型强化学习方法中,比较常见的方法有动态规划法.蒙特卡洛法,时序差分法,多步引导法等.其中动态规划法是一种基于模型的方法(Model- ...

  2. 强化学习基础 | (18) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

    原文地址 在基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna.本文我们讨论另一种非常流行的集合基于模型与不基于模型的 ...

  3. 系统学习深度学习(四十)--基于模拟的搜索与蒙特卡罗树搜索(MCTS)

    转自:https://www.cnblogs.com/pinard/p/10470571.html 1. 基于模拟的搜索概述 什么是基于模拟的搜索呢?当然主要是两个点:一个是模拟,一个是搜索.模拟我们 ...

  4. 强化学习(十九) AlphaGo Zero强化学习原理

    在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用.这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学 ...

  5. 机器学习与深度学习系列连载: 第三部分 强化学习(八) 整合学习与规划 (Alpha Go 基本原理)

    整合学习与规划 本篇之前所有的内容都没有提及到个体如何构建一个模拟环境的模型,自然也没有讲解个体构建一个模拟环境的模型对于解决MDP问题有何帮助. 本篇即关注这两个问题. 通过构建一个模型,个体具备了 ...

  6. 【强化学习实战】基于gym和tensorflow的强化学习算法实现

    [新智元导读]知乎专栏强化学习大讲堂作者郭宪博士开讲<强化学习从入门到进阶>,我们为您节选了其中的第二节<基于gym和tensorflow的强化学习算法实现>,希望对您有所帮助 ...

  7. Android音视频学习系列(八) — 基于Nginx搭建(rtmp、http)直播服务器

    系列文章 Android音视频学习系列(一) - JNI从入门到精通 Android音视频学习系列(二) - 交叉编译动态库.静态库的入门 Android音视频学习系列(三) - Shell脚本入门 ...

  8. 强化学习(十六) 深度确定性策略梯度(DDPG)

    在强化学习(十五) A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Cri ...

  9. 强化学习(十五) A3C

    在强化学习(十四) Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化.而Asynchronous Adv ...

最新文章

  1. Oracle中序列(Sequence)详解
  2. Java NIO:Buffer、Channel 和 Selector
  3. Linux、Windows、Mac下Docker的安装与使用
  4. java 编码实现内存拷贝_java提高篇(六)-----使用序列化实现对象的拷贝
  5. leetcode-全排列详解(回溯算法)
  6. 快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化
  7. 众元教育H3CSE20200603班-云计算基础知识讲解
  8. vs2010中svn使用教程_VS2010中使用ankhSVN | 学步园
  9. kafka streams 中streams.errors.StreamsException: java.nio.file.DirectoryNotEmptyException
  10. HashMap扩容机制源码分析
  11. 能安装Chrome扩展和油猴脚本的手机浏览器
  12. 求100以内的所有质数(素数)
  13. android 连接不上手机,安卓手机连接不上电脑怎么办
  14. DirectShow 智能连接
  15. echarts饼图图例总结
  16. 来,吃了许嵩这颗毒药
  17. 今明两天微服务 Apache ServiceComb 北京深圳连续”双开”
  18. qq自定义diy名片代码复制_「正点原子FPGA连载」第六章自定义IP核-呼吸灯实验
  19. i 智慧 | “三级火箭”战略背后:联想携手云之鼎 正式进军云数据中心主航道...
  20. UG数控编程中刀过切的原因分析和解决对策

热门文章

  1. 沈南鹏@《遇见大咖》: A轮没投,投了8个月以后就证明了张一鸣是对了,在美国都没有张一鸣这种模式...
  2. 卸载计算机更新程序包,win7系统删除系统更新安装包的详细教程
  3. 研华工控机linux改win7,嵌入式工控机研华工控机用u盘装系统如何设置bios?在虚拟机中的Linux系统中咋挂u盘 我的虚拟机上都没有USB 显示5...
  4. 汶川大地震中的SAP成都研究院
  5. [C语言]程序改错题。爱因斯坦曾出过这样的一道数学题:有一条长阶梯,若每步跨2阶,最后剩下1阶;若每步跨3阶,最后剩下2阶;若每步跨5阶,最后剩下4阶;若每步跨6阶,最后剩下5阶;只有每步跨7阶...
  6. 【异构图神经网络】HGraph || 附:AI研究生时间规划 建议(研一、研二、研三)
  7. 通过新外设CLB猜测TI C2000的发展方向
  8. 2021-2025年中国智能眼镜行业市场供需与战略研究报告
  9. Oracle 字符集从GBK升级到Utf8
  10. Java编程入门之前篇