文章目录

  • 所解决的问题?
  • 背景
  • 所采用的方法?
  • 取得的效果?
  • 所出版信息?作者信息?
  • 论文题目:Dream to Control:Learning Behaviors by Latent Imagination

所解决的问题?

  先学一个环境模型,所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了,作者提出了一种方法,dreamer,在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。

背景

  强化学习是需要学习环境的表征的,或者称之为对于环境的理解,从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。

  深度学习所做的表征就是在提取有效信息,因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划,往往能够支持更高效的方式去做规划,或者并行规划。

  通常的强化学习方法是学习一个参数化的策略,去最大化期望奖励,或者通过在线规划的方式,去学习一个固定horizon的最大奖励来实现规划,像planet那样,虽然palnet这种无梯度的方式能够较鲁棒地去减少model-bias,但是并没有去提供对未来长期的期望规划。

所采用的方法?

  作者提出了一种基于梯度的,在纯隐状态空间中现象的算法。用一种新的actor-critic算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习,所以能够获得多步的累计奖励,进行多步长期的学习规划。

  主要步骤可以分为三大部分:

  1. 从过去的经验数据中学习预测未来的奖励。主要是学环境的表征模型p(st∣st−1,at−1,ot)p\left(s_{t} \mid s_{t-1}, a_{t-1}, o_{t}\right)p(st​∣st−1​,at−1​,ot​),转移模型 q(st∣st−1,at−1)q\left(s_{t} \mid s_{t-1}, a_{t-1}\right)q(st​∣st−1​,at−1​)和奖励模型q(rt∣st)q\left(r_{t} \mid s_{t}\right)q(rt​∣st​)。

  2. 学习动作模型和值模型预测隐藏状态空间中的轨迹trajectories

  从一个真实的模型状态sts_{t}st​开始往后想象,基于转移模型预测轨迹sτ∼q(sτ∣sτ−1,aτ−1)s_{\tau} \sim q\left(s_{\tau} \mid s_{\tau-1}, a_{\tau-1}\right)sτ​∼q(sτ​∣sτ−1​,aτ−1​), 预测奖励rτ∼q(rτ∣sτ)r_{\tau} \sim q\left(r_{\tau} \mid s_{\tau}\right)rτ​∼q(rτ​∣sτ​), 基于所学习的策略aτ∼q(aτ∣sτ)a_{\tau} \sim q\left(a_{\tau} \mid s_{\tau}\right)aτ​∼q(aτ​∣sτ​),以最大化期望奖励Eq(∑τ=t∞γτ−trτ)\mathrm{E}_{q}\left(\sum_{\tau=t}^{\infty} \gamma^{\tau-t} r_{\tau}\right)Eq​(∑τ=t∞​γτ−trτ​)为目标更新动作模型aτ∼qϕ(aτ∣sτ)a_{\tau} \sim q_{\phi}\left(a_{\tau} \mid s_{\tau}\right)aτ​∼qϕ​(aτ​∣sτ​)和值模型vψ(sτ)≈Eq(⋅∣sτ)(∑τ=tt+Hγτ−trτ)v_{\psi}\left(s_{\tau}\right) \approx \mathrm{E}_{q\left(\cdot \mid s_{\tau}\right)}\left(\sum_{\tau=t}^{t+H} \gamma^{\tau-t} r_{\tau}\right)vψ​(sτ​)≈Eq(⋅∣sτ​)​(∑τ=tt+H​γτ−trτ​)。

  在这里还需要注意作者所提出来的这个新型的actor-critic方法:

  • actor model

  动作模型输出的是一个tanh-transformed Gaussian

aτ=tanh⁡(μϕ(sτ)+σϕ(sτ)ϵ),ϵ∼Normal⁡(0,I)a_{\tau}=\tanh \left(\mu_{\phi}\left(s_{\tau}\right)+\sigma_{\phi}\left(s_{\tau}\right) \epsilon\right), \quad \epsilon \sim \operatorname{Normal}(0, \mathbb{I}) aτ​=tanh(μϕ​(sτ​)+σϕ​(sτ​)ϵ),ϵ∼Normal(0,I)

  动作模型的更新公式为:

max⁡ϕEqθ,qϕ(∑τ=tt+HVλ(sτ))\max _{\phi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \mathrm{~V}_{\lambda}\left(s_{\tau}\right)\right)ϕmax​Eqθ​,qϕ​​(τ=t∑t+H​ Vλ​(sτ​))

  • value model

VR(sτ)≐Eqθ,qϕ(∑n=τt+Hrn)\mathrm{V}_{\mathrm{R}}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{t+H} r_{n}\right)VR​(sτ​)≐Eqθ​,qϕ​​(n=τ∑t+H​rn​)

  上述这个奖励模型就是单纯的奖励累计,并没有考虑对未来的期望收益,这种奖励可以不用值函数。

VNk(sτ)≐Eqθ,qϕ(∑n=τh−1γn−τrn+γh−τvψ(sh))withh=min⁡(τ+k,t+H)\mathrm{V}_{\mathrm{N}}^{k}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{h-1} \gamma^{n-\tau} r_{n}+\gamma^{h-\tau} v_{\psi}\left(s_{h}\right)\right) \quad \text{with} \quad h=\min (\tau+k, t+H)VNk​(sτ​)≐Eqθ​,qϕ​​(n=τ∑h−1​γn−τrn​+γh−τvψ​(sh​))withh=min(τ+k,t+H)

  VNkV_{N}^{k}VNk​能够估计超过kkk步之后的奖励。

Vλ(sτ)≐(1−λ)∑n=1H−1λn−1VNn(sτ)+λH−1VNH(sτ)\mathrm{V}_{\lambda}\left(s_{\tau}\right) \doteq(1-\lambda) \sum_{n=1}^{H-1} \lambda^{n-1} \mathrm{~V}_{\mathrm{N}}^{n}\left(s_{\tau}\right)+\lambda^{H-1} \mathrm{~V}_{\mathrm{N}}^{H}\left(s_{\tau}\right)Vλ​(sτ​)≐(1−λ)n=1∑H−1​λn−1 VNn​(sτ​)+λH−1 VNH​(sτ​)

  dreamer使用的是Vλ\mathrm{V}_{\lambda}Vλ​,一种指数加权平均的奖励,用于平衡kkk步不同的偏差和方差。

  值模型的更新公式为:

min⁡ψEqθ,qϕ(∑τ=tt+H12∥vψ(sτ)−Vλ(sτ))∥2)\left.\min _{\psi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \frac{1}{2} \| v_{\psi}\left(s_{\tau}\right)-\mathrm{V}_{\lambda}\left(s_{\tau}\right)\right) \|^{2}\right)ψmin​Eqθ​,qϕ​​(τ=t∑t+H​21​∥vψ​(sτ​)−Vλ​(sτ​))∥2)

  1. 基于所学的动作模型与真实环境交互,收集新的数据。

取得的效果?

  在DeepMind Control Suite上,对于同一个问题,使用相同的参数,在数据效率,计算时间,和最终性能上都超越了之前的基于模型的和无模型的方法。

  1. 学习一个值函数模型能够使得dreamer更加鲁棒。

  1. 与基于模型和无模型算法对比结果:

所出版信息?作者信息?

  Danijar Hafner,多伦多大学是一个博士生,师从Jimmy BaGeoffrey Hinton。主要研究复杂环境中人类的思考法则,目前在研究基于模型的强化学习和无监督学习方向。

【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination相关推荐

  1. Dream to Control Learning Behaviors by Latent Imagination-笔记

    Dream to Control Learning Behaviors by Latent Imagination 0 摘要 Learned world模型总结了一个agent的经验,以促进学习复杂的 ...

  2. 【Paper】2015_El H_Decentralized Control Architecture for UAV-UGV Cooperation

    Decentralized Control Architecture for UAV-UGV Cooperation 1 Introduction 2 Problem Statement and Ar ...

  3. 【李宏毅】元学习(Meta learning)的概念与步骤

    [李宏毅]元学习(Meta learning)的概念与步骤 1 概念 2 元学习步骤 2.1 定义一组学习算法 2.2 评价一个学习算法 F F F 的好坏 只讲了元学习概念和步骤,简单做了解,稍微复 ...

  4. 【01】 冯·诺依曼体系结构:计算机组成的金字塔

    [计算机组成原理]学习笔记--总目录 [01] 冯·诺依曼体系结构:计算机组成的金字塔 一.计算机的基本硬件组成 CPU: 内存: 主板: 输入/输出设备: 硬盘: 显卡: 补充: 二.冯·诺依曼体系 ...

  5. 【Python】函数图像绘制:二维图像、三维图像、散点图、心形图

    [Python]函数图像绘制:二维图像.三维图像.散点图.心形图 所有需要用的包 二维图像 三维图像 散点图绘制 心形图绘制 所有需要用的包 from mpl_toolkits.mplot3d imp ...

  6. 【Discuz】云平台服务:出了点小错,由于站点ID/通信KEY等关键信息丢失导致Discuz!云平台服务出现异常

    [Discuz]云平台服务:出了点小错,由于站点ID/通信KEY等关键信息丢失导致Discuz!云平台服务出现异常 参考文章: (1)[Discuz]云平台服务:出了点小错,由于站点ID/通信KEY等 ...

  7. 【svn】svn报错:“Previous operation has not finished; run ‘cleanup‘ if it was interrupted“ 的解决方法

    [svn]svn报错:"Previous operation has not finished; run 'cleanup' if it was interrupted" 的解决方 ...

  8. 【译】Spring官方教程:使用STS的入门指南

    原文:Working a Getting Started guide with STS 译者:hanbin 校对:Mr.lzc 这个指南引导您使用 Spring Tool Suite (STS) 去构 ...

  9. 【翻译】QEMU内部机制:顶层概览

    系列文章: [翻译]QEMU内部机制:宏观架构和线程模型 [翻译]QEMU内部机制:vhost的架构 [翻译]QEMU内部机制:顶层概览(本文) [翻译]QEMU内部机制:内存 原文地址:http:/ ...

  10. 【转】IT名企面试:腾讯笔试题(2)

    摘要:想要进入腾讯公司,面试笔试题是一定要有所准备的.那么这里我们总结了一些腾讯笔试题,例如:const的含义及实现机制等问题. 腾讯是国内数一数二的IT企业了.那么每年想要进入腾讯公司的应聘者也是络 ...

最新文章

  1. ios启动页尺寸_关于移动端App启动页的策划方案
  2. SUSE glibc升级为2.18过程记录
  3. 在迷失中前进--hatita22年蹉跎岁月的长嘘短叹(短叹篇)
  4. 如何将多个文本数据转化为指定数据格式[以电影数据为例](数据预处理)
  5. 前端工程师都会喜欢的5个JavaScript库
  6. SpringCloud的GateWay网关中怎么debug得到真实的路由地址
  7. linux安装多版本php_linux如何安装多个php版本
  8. centos 6.5 zabbix 离线安装历程
  9. LightBurn(激光切割排版软件)官方中文版V1.0.04 | 激光切割排版软件哪个好
  10. 计算机wps函数的使用,职称计算机考试WPS 使用技巧
  11. web显示实时时间动态刷新
  12. SQL数据库置疑问题的处理方法
  13. jQuery- 跟着李南江学编程
  14. 互联网、大公司常用的英文缩写
  15. 查看计算机温度指令,如何查看电脑CPU的温度?查看CPU温度的两种方法
  16. SEEDLAB2.0-Meltdown
  17. JDK8新特性02 Lambda表达式02_Lambda语法规则
  18. 基于网络安全的Docker逃逸
  19. 金融直播营销,主播必须这样做!
  20. Vue:使用elementUI upload组件上传excel文件

热门文章

  1. Eclipse 下用Maven构建ssh框架web工程
  2. 判断闰年的方法以及如何获得单链表的倒数第K个元素
  3. Google位置服务模板
  4. Visual Studio 单元测试之六---UI界面测试
  5. Java实现分类文件拷贝2
  6. LumaQQ.NET,基于LumaQQ的.NET开源QQ开发包
  7. 网络编程基础知识之线程安全
  8. MPLS virtual private network路由信息的发布过程
  9. MySQL引擎详解(三)——InnoDB引擎特性
  10. 第二届世界智能大会,看大咖眼中的智能时代