【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination
文章目录
- 所解决的问题?
- 背景
- 所采用的方法?
- 取得的效果?
- 所出版信息?作者信息?
- 论文题目:Dream to Control:Learning Behaviors by Latent Imagination
所解决的问题?
先学一个环境模型,所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了,作者提出了一种方法,dreamer
,在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。
背景
强化学习是需要学习环境的表征的,或者称之为对于环境的理解,从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。
深度学习所做的表征就是在提取有效信息,因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划,往往能够支持更高效的方式去做规划,或者并行规划。
通常的强化学习方法是学习一个参数化的策略,去最大化期望奖励,或者通过在线规划的方式,去学习一个固定horizon
的最大奖励来实现规划,像planet
那样,虽然palnet
这种无梯度的方式能够较鲁棒地去减少model-bias
,但是并没有去提供对未来长期的期望规划。
所采用的方法?
作者提出了一种基于梯度的,在纯隐状态空间中现象的算法。用一种新的actor-critic
算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习,所以能够获得多步的累计奖励,进行多步长期的学习规划。
主要步骤可以分为三大部分:
从过去的经验数据中学习预测未来的奖励。主要是学环境的表征模型p(st∣st−1,at−1,ot)p\left(s_{t} \mid s_{t-1}, a_{t-1}, o_{t}\right)p(st∣st−1,at−1,ot),转移模型 q(st∣st−1,at−1)q\left(s_{t} \mid s_{t-1}, a_{t-1}\right)q(st∣st−1,at−1)和奖励模型q(rt∣st)q\left(r_{t} \mid s_{t}\right)q(rt∣st)。
学习动作模型和值模型预测隐藏状态空间中的轨迹
trajectories
。
从一个真实的模型状态sts_{t}st开始往后想象,基于转移模型预测轨迹sτ∼q(sτ∣sτ−1,aτ−1)s_{\tau} \sim q\left(s_{\tau} \mid s_{\tau-1}, a_{\tau-1}\right)sτ∼q(sτ∣sτ−1,aτ−1), 预测奖励rτ∼q(rτ∣sτ)r_{\tau} \sim q\left(r_{\tau} \mid s_{\tau}\right)rτ∼q(rτ∣sτ), 基于所学习的策略aτ∼q(aτ∣sτ)a_{\tau} \sim q\left(a_{\tau} \mid s_{\tau}\right)aτ∼q(aτ∣sτ),以最大化期望奖励Eq(∑τ=t∞γτ−trτ)\mathrm{E}_{q}\left(\sum_{\tau=t}^{\infty} \gamma^{\tau-t} r_{\tau}\right)Eq(∑τ=t∞γτ−trτ)为目标更新动作模型aτ∼qϕ(aτ∣sτ)a_{\tau} \sim q_{\phi}\left(a_{\tau} \mid s_{\tau}\right)aτ∼qϕ(aτ∣sτ)和值模型vψ(sτ)≈Eq(⋅∣sτ)(∑τ=tt+Hγτ−trτ)v_{\psi}\left(s_{\tau}\right) \approx \mathrm{E}_{q\left(\cdot \mid s_{\tau}\right)}\left(\sum_{\tau=t}^{t+H} \gamma^{\tau-t} r_{\tau}\right)vψ(sτ)≈Eq(⋅∣sτ)(∑τ=tt+Hγτ−trτ)。
在这里还需要注意作者所提出来的这个新型的actor-critic
方法:
- actor model
动作模型输出的是一个tanh-transformed Gaussian
,
aτ=tanh(μϕ(sτ)+σϕ(sτ)ϵ),ϵ∼Normal(0,I)a_{\tau}=\tanh \left(\mu_{\phi}\left(s_{\tau}\right)+\sigma_{\phi}\left(s_{\tau}\right) \epsilon\right), \quad \epsilon \sim \operatorname{Normal}(0, \mathbb{I}) aτ=tanh(μϕ(sτ)+σϕ(sτ)ϵ),ϵ∼Normal(0,I)
动作模型的更新公式为:
maxϕEqθ,qϕ(∑τ=tt+HVλ(sτ))\max _{\phi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \mathrm{~V}_{\lambda}\left(s_{\tau}\right)\right)ϕmaxEqθ,qϕ(τ=t∑t+H Vλ(sτ))
- value model
VR(sτ)≐Eqθ,qϕ(∑n=τt+Hrn)\mathrm{V}_{\mathrm{R}}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{t+H} r_{n}\right)VR(sτ)≐Eqθ,qϕ(n=τ∑t+Hrn)
上述这个奖励模型就是单纯的奖励累计,并没有考虑对未来的期望收益,这种奖励可以不用值函数。
VNk(sτ)≐Eqθ,qϕ(∑n=τh−1γn−τrn+γh−τvψ(sh))withh=min(τ+k,t+H)\mathrm{V}_{\mathrm{N}}^{k}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{h-1} \gamma^{n-\tau} r_{n}+\gamma^{h-\tau} v_{\psi}\left(s_{h}\right)\right) \quad \text{with} \quad h=\min (\tau+k, t+H)VNk(sτ)≐Eqθ,qϕ(n=τ∑h−1γn−τrn+γh−τvψ(sh))withh=min(τ+k,t+H)
VNkV_{N}^{k}VNk能够估计超过kkk步之后的奖励。
Vλ(sτ)≐(1−λ)∑n=1H−1λn−1VNn(sτ)+λH−1VNH(sτ)\mathrm{V}_{\lambda}\left(s_{\tau}\right) \doteq(1-\lambda) \sum_{n=1}^{H-1} \lambda^{n-1} \mathrm{~V}_{\mathrm{N}}^{n}\left(s_{\tau}\right)+\lambda^{H-1} \mathrm{~V}_{\mathrm{N}}^{H}\left(s_{\tau}\right)Vλ(sτ)≐(1−λ)n=1∑H−1λn−1 VNn(sτ)+λH−1 VNH(sτ)
dreamer
使用的是Vλ\mathrm{V}_{\lambda}Vλ,一种指数加权平均的奖励,用于平衡kkk步不同的偏差和方差。
值模型的更新公式为:
minψEqθ,qϕ(∑τ=tt+H12∥vψ(sτ)−Vλ(sτ))∥2)\left.\min _{\psi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \frac{1}{2} \| v_{\psi}\left(s_{\tau}\right)-\mathrm{V}_{\lambda}\left(s_{\tau}\right)\right) \|^{2}\right)ψminEqθ,qϕ(τ=t∑t+H21∥vψ(sτ)−Vλ(sτ))∥2)
- 基于所学的动作模型与真实环境交互,收集新的数据。
取得的效果?
在DeepMind Control Suite
上,对于同一个问题,使用相同的参数,在数据效率,计算时间,和最终性能上都超越了之前的基于模型的和无模型的方法。
- 学习一个值函数模型能够使得
dreamer
更加鲁棒。
- 与基于模型和无模型算法对比结果:
所出版信息?作者信息?
Danijar Hafner
,多伦多大学是一个博士生,师从Jimmy Ba
和Geoffrey Hinton
。主要研究复杂环境中人类的思考法则,目前在研究基于模型的强化学习和无监督学习方向。
【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination相关推荐
- Dream to Control Learning Behaviors by Latent Imagination-笔记
Dream to Control Learning Behaviors by Latent Imagination 0 摘要 Learned world模型总结了一个agent的经验,以促进学习复杂的 ...
- 【Paper】2015_El H_Decentralized Control Architecture for UAV-UGV Cooperation
Decentralized Control Architecture for UAV-UGV Cooperation 1 Introduction 2 Problem Statement and Ar ...
- 【李宏毅】元学习(Meta learning)的概念与步骤
[李宏毅]元学习(Meta learning)的概念与步骤 1 概念 2 元学习步骤 2.1 定义一组学习算法 2.2 评价一个学习算法 F F F 的好坏 只讲了元学习概念和步骤,简单做了解,稍微复 ...
- 【01】 冯·诺依曼体系结构:计算机组成的金字塔
[计算机组成原理]学习笔记--总目录 [01] 冯·诺依曼体系结构:计算机组成的金字塔 一.计算机的基本硬件组成 CPU: 内存: 主板: 输入/输出设备: 硬盘: 显卡: 补充: 二.冯·诺依曼体系 ...
- 【Python】函数图像绘制:二维图像、三维图像、散点图、心形图
[Python]函数图像绘制:二维图像.三维图像.散点图.心形图 所有需要用的包 二维图像 三维图像 散点图绘制 心形图绘制 所有需要用的包 from mpl_toolkits.mplot3d imp ...
- 【Discuz】云平台服务:出了点小错,由于站点ID/通信KEY等关键信息丢失导致Discuz!云平台服务出现异常
[Discuz]云平台服务:出了点小错,由于站点ID/通信KEY等关键信息丢失导致Discuz!云平台服务出现异常 参考文章: (1)[Discuz]云平台服务:出了点小错,由于站点ID/通信KEY等 ...
- 【svn】svn报错:“Previous operation has not finished; run ‘cleanup‘ if it was interrupted“ 的解决方法
[svn]svn报错:"Previous operation has not finished; run 'cleanup' if it was interrupted" 的解决方 ...
- 【译】Spring官方教程:使用STS的入门指南
原文:Working a Getting Started guide with STS 译者:hanbin 校对:Mr.lzc 这个指南引导您使用 Spring Tool Suite (STS) 去构 ...
- 【翻译】QEMU内部机制:顶层概览
系列文章: [翻译]QEMU内部机制:宏观架构和线程模型 [翻译]QEMU内部机制:vhost的架构 [翻译]QEMU内部机制:顶层概览(本文) [翻译]QEMU内部机制:内存 原文地址:http:/ ...
- 【转】IT名企面试:腾讯笔试题(2)
摘要:想要进入腾讯公司,面试笔试题是一定要有所准备的.那么这里我们总结了一些腾讯笔试题,例如:const的含义及实现机制等问题. 腾讯是国内数一数二的IT企业了.那么每年想要进入腾讯公司的应聘者也是络 ...
最新文章
- ios启动页尺寸_关于移动端App启动页的策划方案
- SUSE glibc升级为2.18过程记录
- 在迷失中前进--hatita22年蹉跎岁月的长嘘短叹(短叹篇)
- 如何将多个文本数据转化为指定数据格式[以电影数据为例](数据预处理)
- 前端工程师都会喜欢的5个JavaScript库
- SpringCloud的GateWay网关中怎么debug得到真实的路由地址
- linux安装多版本php_linux如何安装多个php版本
- centos 6.5 zabbix 离线安装历程
- LightBurn(激光切割排版软件)官方中文版V1.0.04 | 激光切割排版软件哪个好
- 计算机wps函数的使用,职称计算机考试WPS 使用技巧
- web显示实时时间动态刷新
- SQL数据库置疑问题的处理方法
- jQuery- 跟着李南江学编程
- 互联网、大公司常用的英文缩写
- 查看计算机温度指令,如何查看电脑CPU的温度?查看CPU温度的两种方法
- SEEDLAB2.0-Meltdown
- JDK8新特性02 Lambda表达式02_Lambda语法规则
- 基于网络安全的Docker逃逸
- 金融直播营销,主播必须这样做!
- Vue:使用elementUI upload组件上传excel文件