• 论文题目:Integrated architectures for learning, planning, and reacting based on approximating dynamic programming

所解决的问题?

  提出Dyna-PI结构和Dyna-Q结构。

背景

  Dyna结构是用机器学习的方法逼近动态规划算法,动态规划算法本身并不是一种学习算法,是一种居于模型的最优策略计算方法。它与state-space search算法非常像,但是与之不同的是动态规划是一种增量式的学习算法,并不考虑action sequences。正是这种增量式的学习算法,使得其更容易处理随机环境和非完美信息问题。对于learned world model问题,通常都是随机的和不确定的,因此动态规划算法就非常合适。Dyna框架就是learn a world model online,与此同时,用动态规划算法学习规划最优行为。

所采用的方法?

Dyna-PI:Dyna by Approximating Policy Iteration

  Dyna-PI中的PI表示的是Policy Iteration,其由四大组成部分:

  1. policy:接收一个当前状态,产生一个动作。
  2. world:接收一个动作,产生下一个状态和奖励信息。
  3. world model:与real model类似,接收状态动作,输出下一个状态
  4. evaluation function:评估状态的好坏。

  其结构如下所示:

  Evaluation Function和Policy可以用函数近似的方法来拟合:决策树、K-D tree,神经网络或者符号规则。

  算法流程

  但是当world model发生改变之后,算法需要很长一段时间才能去适应改变了的model。产生这类问题的原因在于,算法收敛之后,对于非最优策略下的action是很少去选择的,概率基本为0,因此当model改变之后,需要大量的采样才能知道新的最优策略。

Dyna-Q:Dyna by Q-Learning

  将Q-Learning算法融入进来,其实也就是max那一步引入进来,并且作者在选择动作的时候用的玻尔兹曼分布,并且在奖励函数上加噪声来增加探索。

总结

  算法分为两步:1. 使用当前策略与环境互动产生数据,并用这些数据学一个world model出来。2. 基于learned model产生的数据也用来做策略改进,进而减少与真实model的交互。

其它参考链接

  • 论文PDF链接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.51.7362&rep=rep1&type=pdf
  • Richard S Sutton. Dyna, an integrated architecture for learning, planning, and reacting. ACM SIGART Bulletin, 2(4):160–163, 1991.
  • Richard S Sutton. Planning by incremental dynamic programming. In Machine Learning Proceedings 1991, pages 353–357. Elsevier, 1991.

【5分钟paper】基于近似动态规划的学习、规划和反应的集成架构相关推荐

  1. 《中国人工智能学会通讯》——11.34 基于近似动态规划的优化控制研究及 在电力系统中的应用...

    11.34 基于近似动态规划的优化控制研究及 在电力系统中的应用 上世纪 50 年代以来,在空间技术发展和数字计算机实用化的推动下,动态系统的优化理论得到了迅速的发展,形成了一个重要的学科分支--最优 ...

  2. ADPRL - 近似动态规划和强化学习 - Note 7 - Approximate Dynamic Programming

    Note 7 - 近似动态规划 Approximate Dynamic Programming 7. 近似动态规划 (Approximate Dynamic Programming) 7.1 近似架构 ...

  3. 科罗拉多大学波尔得分校计算机科学,科罗拉多大学波尔得分校副教授Dan Zhang:基于线性规划的近似动态规划方面的一些最新成果...

    科罗拉多大学波尔得分校副教授Dan Zhang:基于线性规划的近似动态规划方面的一些最新成果 [主讲]科罗拉多大学波尔得分校副教授Dan Zhang [题目]基于线性规划的近似动态规划方面的一些最新成 ...

  4. 初探强化学习(7)基于模型的强化学习的应用综述

    本文是直接翻译一篇文章的,我先把原文地址放在这里. 原文名字为:Survey of Model-Based Reinforcement Learning: Applications on Roboti ...

  5. 什么是深度学习?45分钟理解深度神经网络和深度学习 刘利刚教授

    什么是深度学习? - 45分钟理解深度神经网络和深度学习 刘利刚 中国科学技术大学图形与几何计算实验室 http://staff.ustc.edu.cn/~lgliu [绪言] 近年来,人工智能(Ar ...

  6. 基于弱监督深度学习的医学图像分割方法综述

    基于弱监督深度学习的医学图像分割方法综述 摘要:基于深度学习的医学影像分割尽管精度在不断的提升,但是离不开大规模的高质量标注数据的训练,被称为弱监督学习的深度学习的一个分支正在帮助医生通过减少对完整和 ...

  7. OR Paper Weekly (2)| 深度强化学习在库存管理、自动驾驶等领域的应用;MS主编看管理科学发展历史与展望

    作者:徐思坤,姜凯雯 精选论文(一) 论文题目:  Can Deep Reinforcement Learning Improve Inventory Management? Performance ...

  8. 10分钟内基于gpu的目标检测

    10分钟内基于gpu的目标检测 Object Detection on GPUs in 10 Minutes 目标检测仍然是自动驾驶和智能视频分析等应用的主要驱动力.目标检测应用程序需要使用大量数据集 ...

  9. 基于模型的强化学习比无模型的强化学习更好?错!

    作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...

  10. 系统学习深度学习(三十九)--基于模型的强化学习与Dyna算法框架

    转自:https://www.cnblogs.com/pinard/p/10384424.html 在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Poli ...

最新文章

  1. php preg_match 只匹配第一个字符_PHP正则表达式核心技术完全详解 第12节知识补充 断言匹配
  2. python输入函数格式_python如何提取.c文件中的指定函数的输入参数
  3. 圆角阴影_Win10新界面曝光,圆角设计加阴影半透明,更招年轻人喜欢
  4. POJ1363Rails队列和栈应用
  5. ffmpeg入门及java操作ffmpeg对视频进行处理
  6. 2020 有哪些不容错过的前端技术趋势?
  7. Nginx 虚拟主机
  8. 『线性空间 整数线性基和异或线性基』
  9. 微服务配置中心实战:Spring + MyBatis + Druid + Nacos
  10. 磁盘IO:缓存IO与直接IO
  11. 专访香侬科技:致力于让世界听到中文NLP的声音
  12. Docker-compose编排微服务顺序启动解决方案
  13. 2.亿级流量的电商网站---Redis
  14. 【老生谈算法】matlab实现图像复原算法源码——图像复原
  15. DTCC技术大会来了
  16. 十年了,测试变了,我也变了,但总有一些东西未变
  17. 米家扫地机器人尘盒怎么取_如何清理小米扫地机器人尘盒及滤网
  18. SuperMap iDesktop 8C 空间分析
  19. [c/c++] linux c生成静态库共享库 - bluefrog - 博客园
  20. 此PL2303驱动程序不支持Windows11及后续版本,请安装正确驱动程序

热门文章

  1. 设计模式14——行为型模式之职责链模式
  2. Windows 8实用窍门系列:1.使用Xaml+C#开发第一个Metro Style应用程序
  3. ExtJs4 笔记(12) Ext.toolbar.Toolbar 工具栏、Ext.toolbar.Paging 分页栏、Ext.ux.statusbar.StatusBar 状态栏...
  4. HCIE-Security Day28:IPSec:实验(三)总部采用ISAKMP方式安全策略组与分支机构之间建立IPSec PN
  5. 游戏开发之魔塔游戏分析
  6. LAMP源码安装配置实战
  7. Git环境配置(案例:clone bert源码到本地仓库)
  8. Linux之FTP服务、NFS服务、RPC服务及案例
  9. kali Linux 没有ip解决办法
  10. 安装完kali应该做的基本配置