【NIPS 2018】循环World模型促进策略演变

2024-05-11 04:10:19

文章目录

所解决的问题？
背景
所采用的方法？
取得的效果？
所出版信息？作者信息？
其它参考链接

论文题目：Recurrent World Models Facilitate Policy Evolution

所解决的问题？

从world model中学一个policy，并将迁移到real world。

背景

人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片，不同的人能够得到不同的抽象理解，而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们，遇到问题或者是危险的时候，快速做出反应。

所采用的方法？

作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果，但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy，并将其迁移到真实环境中。

VAE用于压缩信息得到latent vector。RNN用于输出一个概率密度函数p(z)p(z)p(z) (混合高斯模型做的)。RNN建模表示为P(zt+1∣at,zt,ht)P(z_{t+1}|a_{t},z_{t},h_{t})P(zt+1∣at,zt,ht)，具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

总的来说就是基于观测的隐变量，对上一帧隐变量的预测，以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。

这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的)，然后用于辅助决策。VAE和RNN的训练都可以不需要奖励信息，只给交互数据就可以。

这么做的原因就是先对环境信息做了一个特征抽取，然后基于这个抽取的特征再用于训练得到policy，好处在于做了特征提取之后，观测的有效信息比较多，特征比较明显，那当然再做policy的学习会更快。

取得的效果？

基于手工提取特征的智能体得分是V model 632分上下浮动。

所出版信息？作者信息？

David Ha谷歌大脑成员，主要研究机器智能。

其它参考链接

官方网页介绍：https://worldmodels.github.io/

【NIPS 2018】循环World模型促进策略演变相关推荐

循环世界模型(Recurrent World Models)——真实世界建模的强化学习利器
世界模型智能体可以在它们头脑中的世界进行学习吗? 世界模型(World Model)是NIPS 2018获得口头报告的论文之一,也是谷歌AI和Deepmind 2019年力作深度规划网络 Pla ...
清华朱文武团队斩获NIPS 2018 AutoML挑战赛亚军，高校排名第一
来源:新智元本文约2000字,建议阅读10分钟. 本文介绍了NIPS 2018 AutoML挑战赛的最终结果,清华大学计算机系朱文武团队斩获第二,高校排名雄踞第一. NIPS 2018 AutoML ...
NIPS 2018 论文解读集锦（11月28日更新）
今年我们整理过视觉顶级会议CVPR 2018论文解读集锦和 ECCV 2018论文解读集锦,并持续更新中,如今备受瞩目的NIPS 2018也将于12月举行,目前已经公布了所有收录论文名单,为了能够让 ...
微信「看一看」多模型内容策略与召回
看一看介绍相信对于不少人而言微信已经成为获取资讯的主要场景.与此同时,由于微信用户群体的庞大,也吸引了大量的内容生产者在微信公共平台创造内容,以获取用户关注.点赞.收藏等.微信内的内容推荐产品:看一 ...
详解微信「看一看」多模型内容策略与召回
本文源自微信人工智能团队,涉及内容库.画像.标签.架构等知识,能给PM提供一些思路.从第四节[队列演进]开始,会提到很多算法.模型内容,难度较高,可酌情阅读. 看一看介绍相信对于不少人而言微信已经成 ...
详文解读微信「看一看」多模型内容策略与召回
微信已经成了不少人获取咨询的来源之一,看一看功能在这基础上实现内容的精确推荐,以及拓宽用户阅读兴趣,打破信息茧房.本文从六个方面,以多模型内容策略与召回的角度分析微信看一看,希望对你有帮助. 目录一 ...
蜂鸟数据Trochil：理想的基于模型的策略开发-构建更好的策略3
这是"构建更好的策略"系列的第三部分.在上一部分中,我们讨论了10个被广泛利用的市场无效性,并提供了一些交易策略的示例.在这一部分中,我们将分析开发基于模型的交易系统的一般过程.几 ...
深度学习笔记第五门课序列模型第一周循环序列模型
本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...
统计学习三要素模型＋策略＋算法
统计学习方法都是由模型. 策略和算法构成的. 即统计学习方法由三要素构成, 可以简单地表示为:方法＝模型+策略+算法模型统计学习首要考虑的问题是学习什么样的模型. 在监督学习过程中, 模型就是所要 ...
统计学习的三个招式：模型、策略和算法
统计学习的三个招式:模型.策略和算法 https://mp.weixin.qq.com/s/12yhAZ79i_ENAdtyOX63lQ 李航老师在统计学习方法中讲到:方法=模型+策略+算法可以说模 ...

最新文章

热门文章