【NIPS 2018】循环World模型促进策略演变
文章目录
- 所解决的问题?
- 背景
- 所采用的方法?
- 取得的效果?
- 所出版信息?作者信息?
- 其它参考链接
- 论文题目:Recurrent World Models Facilitate Policy Evolution
所解决的问题?
从world model
中学一个policy
,并将迁移到real world
。
背景
人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到不同的抽象理解,而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们,遇到问题或者是危险的时候,快速做出反应。
所采用的方法?
作者结合RNN
和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果,但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model
中学policy
,并将其迁移到真实环境中。
VAE
用于压缩信息得到latent vector
。RNN
用于输出一个概率密度函数p(z)p(z)p(z) (混合高斯模型做的)。RNN
建模表示为P(zt+1∣at,zt,ht)P(z_{t+1}|a_{t},z_{t},h_{t})P(zt+1∣at,zt,ht),具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。
总的来说就是基于观测的隐变量,对上一帧隐变量的预测,以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。
这里作者期望RNN
能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN
的输出是含有所有之前的历史信息的),然后用于辅助决策。VAE
和RNN
的训练都可以不需要奖励信息,只给交互数据就可以。
这么做的原因就是先对环境信息做了一个特征抽取,然后基于这个抽取的特征再用于训练得到policy
,好处在于做了特征提取之后,观测的有效信息比较多,特征比较明显,那当然再做policy
的学习会更快。
取得的效果?
基于手工提取特征的智能体得分是V model 632分上下浮动。
所出版信息?作者信息?
David Ha
谷歌大脑成员,主要研究机器智能。
其它参考链接
- 官方网页介绍:https://worldmodels.github.io/
【NIPS 2018】循环World模型促进策略演变相关推荐
- 循环世界模型(Recurrent World Models)——真实世界建模的强化学习利器
世界模型 智能体可以在它们头脑中的世界进行学习吗? 世界模型(World Model)是NIPS 2018获得口头报告的论文之一,也是谷歌AI和Deepmind 2019年力作深度规划网络 Pla ...
- 清华朱文武团队斩获NIPS 2018 AutoML挑战赛亚军,高校排名第一
来源:新智元 本文约2000字,建议阅读10分钟. 本文介绍了NIPS 2018 AutoML挑战赛的最终结果,清华大学计算机系朱文武团队斩获第二,高校排名雄踞第一. NIPS 2018 AutoML ...
- NIPS 2018 论文解读集锦(11月28日更新)
今年我们整理过视觉顶级会议CVPR 2018论文解读集锦 和 ECCV 2018论文解读集锦,并持续更新中,如今备受瞩目的NIPS 2018也将于12月举行,目前已经公布了所有收录论文名单,为了能够让 ...
- 微信「看一看」多模型内容策略与召回
看一看介绍 相信对于不少人而言微信已经成为获取资讯的主要场景.与此同时,由于微信用户群体的庞大,也吸引了大量的内容生产者在微信公共平台创造内容,以获取用户关注.点赞.收藏等.微信内的内容推荐产品:看一 ...
- 详解微信「看一看」多模型内容策略与召回
本文源自微信人工智能团队,涉及内容库.画像.标签.架构等知识,能给PM提供一些思路.从第四节[队列演进]开始,会提到很多算法.模型内容,难度较高,可酌情阅读. 看一看介绍 相信对于不少人而言微信已经成 ...
- 详文解读微信「看一看」多模型内容策略与召回
微信已经成了不少人获取咨询的来源之一,看一看功能在这基础上实现内容的精确推荐,以及拓宽用户阅读兴趣,打破信息茧房.本文从六个方面,以多模型内容策略与召回的角度分析微信看一看,希望对你有帮助. 目录 一 ...
- 蜂鸟数据Trochil:理想的基于模型的策略开发-构建更好的策略3
这是"构建更好的策略"系列的第三部分.在上一部分中,我们讨论了10个被广泛利用的市场无效性,并提供了一些交易策略的示例.在这一部分中,我们将分析开发基于模型的交易系统的一般过程.几 ...
- 深度学习笔记 第五门课 序列模型 第一周 循环序列模型
本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...
- 统计学习三要素 模型+策略+算法
统计学习方法都是由模型. 策略和算法构成的. 即统计学习方法由三要素构成, 可以简单地表示为:方法=模型+策略+算法 模型 统计学习首要考虑的问题是学习什么样的模型. 在监督学习过程中, 模型就是所要 ...
- 统计学习的三个招式:模型、策略和算法
统计学习的三个招式:模型.策略和算法 https://mp.weixin.qq.com/s/12yhAZ79i_ENAdtyOX63lQ 李航老师在统计学习方法中讲到:方法=模型+策略+算法 可以说模 ...
最新文章
- Postman使用Date数据类型,Postman发送Date类型数据,Postman模拟前端调用
- 修改oracle数据库默认时间格式
- Facebook Auth API文档中没说清楚的事情 (2011-02-28更新)
- 基于 MATLAB 的 PCM 编码解码实现
- boost::mp11::mp_any相关用法的测试程序
- opencv计算物体姿态旋转_OpenCV轮廓检测,计算物体旋转角度
- c++11-explicit
- 1.	变量提升 2.	条件语句 3.	循环语句 弹出框的三种形式 If条件的种类...
- 本地修改远端 SAP UI5 框架文件的一个小技巧
- Qt之格栅布局(QGridLayout)
- 关于new 和delete的灾祸
- java 8 新特性 时间api使用实例
- android基础入门生命周期(1)
- qemu 运行arm linux,在ubuntu bionic下对基于qemu的arm64进行linux内核5.0.1版本的编译和运行...
- pmp 第4章 错题整理(不定时更新)
- Java代码格式化工具
- 周记——20151221
- 用html js制作迷宫,JavaScript生成随机迷宫详解
- C# 通用方法MD5计算
- 天天肝大厂面试题,邮储银行Java笔试