【NIPS 2017】基于深度强化学习的想象力增强智能体
文章目录
- 所解决的问题?
- 背景
- 所采用的方法?
- Enviorment Model
- 整体框架
- 取得的效果?
- 所出版信息?作者信息?
- 论文题目:Imagination-Augmented Agents for Deep Reinforcement Learning
所解决的问题?
背景
最近也是有很多文章聚焦于基于模型的强化学习算法,一种常见的做法就是学一个model,然后用轨迹优化的方法求解一下,而这种方法并没有考虑与真实环境的差异,导致你求解的只是在你所学model上的求解。解决这种问题就是Dyna架构通过切换world model和real model来实现在real model上具有好的泛化能力。
模型的学习准确精度也很大程度决定了最终算法的性能。并且模型很多时候本身就具有不确定性,那神经网络这种确定性的输出去拟合不确定性的标签是不合适的。因此有了另外一个分支基于概率的。
所采用的方法?
主要就是在model-free的框架下增加了一个想象的过程,预想未来将会发生什么,然后将这个想象信息作为辅助决策变量。既然有想象部分,那就一定会有对未来的预测,因为预测就是想象,而换一个名词再引用几篇神经学科的文章,就能瞬间提高文章档次。
Enviorment Model
基于动作条件的模型预测结构如下图所示。
接收当前观测和动作,预测下一帧观测和奖励。动作的选取来自rollout policy
,这个policy
通过模仿智能体与真实环境得到的轨迹所得到,这种非完美的近似对平衡探索和利用也具有潜力。
整体框架
动作的选择来自rollout policy
π^\widehat{\pi}π ,基于这个策略预测下一个时候的观测和奖励,组成Imagination core
模块(下图中左图部分)。基于这个模块预测nnn 条轨迹 T^1,…,T^n\hat{\mathcal{T}}_{1}, \ldots, \hat{\mathcal{T}}_{n}T^1,…,T^n,每条trajectory
都由一系列特征组成(f^t+1,…,f^t+τ)\left(\hat{f}_{t+1}, \ldots, \hat{f}_{t+\tau}\right)(f^t+1,…,f^t+τ) ,其中ttt 表示的是当前时刻,τ\tauτ表示rollout
的长度,f^t+i\hat{f}_{t+i}f^t+i表示环境模型的输出(下一帧观测/奖励)。
尽管有很多很好的训练环境模型的方法,但是一个很关键的问题就是不可能得到与真实环境模型一样的完美预测模型。因此作者这里这里使用的是trajectories
进行编码,这是因为一个轨迹中所包含的信息比单步决策所得到的信息要更多。每条轨迹编码可表示为:ei=E(T~i)e_{i}=\mathcal{E}\left(\tilde{\mathcal{T}}_{i}\right)ei=E(T~i),最终将其集成,得到:cia=A(e1,…,en)c_{\mathrm{ia}}=\mathcal{A}\left(e_{1}, \ldots, e_{n}\right)cia=A(e1,…,en)。
基于当前的观测和model-based
的对于未来的预测信息,输出策略向量π\piπ和评估值函数VVV。如果没有model-based
这条路径的话,I2A
就是一个标准的model-free
框架。
取得的效果?
在经典规划问题Sokoban
上的实验结果。
上图中standard
表示standard model-free agent
。I2A
能够解决85%
的问题,而标准的智能体不到60%
。右图表示的是rollout
的深度对性能的影响。
预测模型性能对整体性能影响结果。
所出版信息?作者信息?
文章来自DeepMind
团队2017
年的论文。已被NIPS2017
接收。作者Théophane Weber
,DeepMind
资深研究科学家,博士就读于MIT
。研究方向为机器学习和人工智能,深度学习,强化学习和基于模型的RL
,概率建模(和概率编程)以及可变推理方法等。
【NIPS 2017】基于深度强化学习的想象力增强智能体相关推荐
- 论文阅读-基于深度强化学习的方法解决多智能体防御和攻击问题
论文原题目:A deep reinforcement learning-based method applied for solving multi-agent defense and attack ...
- ICCV 2019 | 旷视研究院推出基于深度强化学习的绘画智能体
两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 ...
- 【论文笔记】基于深度强化学习的机器人操作行为研究综述
目录 摘要 关键词 1 引言 2 概念和术语 2.1 深度学习 2.2 强化学习 2.2.1 强化学习算法原理 2.2.2 强化学习算法分类 1. 无模型(model-free)算法和基于模型(mod ...
- Nat. Mach. Intell. | 基于深度强化学习寻找网络中的关键节点
今天给大家介绍哈佛大学Yang-Yu Liu课题组和加利福尼亚大学洛杉矶分校Yizhou Sun课题组发表在nature machine intelligence上的一篇文章"Finding ...
- 谣言止于智者:基于深度强化学习的谣言早期检测模型
「论文访谈间」是由 PaperWeekly 和中国中文信息学会社会媒体处理专委会(SMP)联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可. 谣言一般是指未经核实的陈述或说明,它往往与某一 ...
- 通过图注意力神经网络进行多智能体游戏抽象_[读论文] AttnPath: 将图注意力机制融入基于深度强化学习的知识图谱推理中...
论文原文:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcem ...
- 基于深度强化学习的区域化视觉导航方法
基于深度强化学习的区域化视觉导航方法 人工智能技术与咨询 本文来自<上海交通大学学报>,作者李鹏等 在环境中高效导航是智能行为的基础,也是机器人控制领域研究的热点之一.实现自主导航 ...
- 基于深度强化学习的电子商务平台动态定价
目录 1. 论文背景 2. 核心框架 3. 方法介绍 3.1 问题描述 3.2 定价动作模型 3.3 预训练 3.4 离线评估 4. 实验效果 1. 论文背景 Dynamic Pricing on E ...
- 基于深度强化学习的智能船舶航迹跟踪控制
基于深度强化学习的智能船舶航迹跟踪控制 人工智能技术与咨询 昨天 本文来自<中国舰船研究> ,作者祝亢等 关注微信公众号:人工智能技术与咨询.了解更多咨询! 0. 引 言 目前,国内外 ...
- 商简智能学术成果|基于深度强化学习的联想电脑制造调度(Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning)
获取更多资讯,赶快关注上面的公众号吧! 文章目录 摘要 背景介绍 传统方法无法解决现有挑战 解决方案 提升模型表达能力 针对复杂约束的掩码机制 快速模型训练 配置多目标调度优化 结论 本篇论文作为 ...
最新文章
- css中调整高度充满_CSS(十三).高度如何铺满全屏
- arcgis 经纬度转大地坐标_土地报备坐标txt(坐标交换数据)转shp遇到的坑及其Python(ArcPy/ArcGIS)实现...
- FPGA在电平接口领域的应用
- mongodb从3.2升级到4.4_丰田汉兰达汽车音响升级黄金声学GS265.2,焱哥音响
- Ubuntu里解压tar.xz格式
- Adobe Premiere Elements 2021中文版
- VC++开发简单DLL并调用
- Windows下编译和安装Boost库
- phpmyadmin的安装部署
- java和python对比----1:
- 再谈拍照,OPPO这次拿什么和iPhone7拼?
- 左手代码,右手带娃,还能发十几篇 paper,程序员女神是如何炼成的?
- 计算机术语解ssh,将Bash脚本SSH到计算机中而不提示密码和不使用密钥
- element-plus Radio 单选框点击失效 无法切换问题
- c语言指针选择题库及答案,C语言指针练习习题及答案.doc
- JSR规范系列(1)——Java版本、JSR规范和JCP社区流程概述
- 像元二分模型计算植被覆盖度
- jquery 图片裁剪
- dso详解--dso原理
- 计算机丢失libdelogo.dll,电脑图标打开就出错,用联机解决说计算机中丢失Duilib.dll 是怎么回事...