来源:专知本文为论文,建议阅读5分钟
这篇论文主要解决的问题是如何在生成对抗模仿学习(GAIL)中为不完美专家演示加权。

论文题目:Learning to Weight Imperfect Demonstrations (ICML 2021)

作者:Yunke Wang, Chang Xu, Bo Du, Honglak Lee

论文概述:这篇论文主要解决的问题是如何在生成对抗模仿学习(GAIL)中为不完美专家演示加权。模仿学习期望智能体通过模仿专家的行为来进行学习,然而在许多现实世界的任务中专家也会犯错,由此产生的不完美专家演示将会严重误导智能体的学习。目前,已有的一些基于加权和偏好学习的解决不完美专家演示的方法往往依赖额外的先验信息,无法在更普遍和通用的模仿学习设置下使用。因此,本文提出了一种在生成对抗模仿学习的框架下为专家演示自动生成权重的方法,通过严格的数学证明,我们发现专家演示的权重可以在训练中由GAIL中的判别器和智能体策略估算得到。理论分析显示,当我们使用该估算的权重,智能体事实上在学习一个比原始给定的专家策略更优的策略。在Mujoco和Atari上的实验结果显示了算法的优越性。

http://proceedings.mlr.press/v139/wang21aa.html

图1 Mujoco中可视化权重,第一行是非最优演示权重,第二行是最优演示权重

【ICML2021】学习权衡不完美的示范相关推荐

  1. 【TensorFlow学习笔记】完美解决 pip3 install tensorflow 没有models库,读取PTB数据

    安装tensorflow 我使用的是最最最简单的容易的 pip3 install <TensorFlow学习笔记> 一. 安装win10下python3.6的tensorflow的CPU版 ...

  2. 算法学习之路|完美数列

    给定一个正整数数列,和正整数p,设这个数列中的最大值是M,最小值是m,如果M <= m * p,则称这个数列是完美数列. 现在给定参数p和一些正整数,请你从中选择尽可能多的数构成一个完美数列. ...

  3. 论文整理学习——生成任意完美的庞加莱光束

    摘要 提出了一种使用一个空间光调制器(SLM)生成任意完美庞加莱光束的方法. 原理:偏振分束器用于产生正交(x和y)偏振的两个偏振光束. SLM的一半有助于塑造X偏振光束,SLM的另一半形成y偏振光束 ...

  4. 腾讯优图:带噪学习和协作学习,不完美场景下的神经网络优化策略

    神经网络的成功建立在大量的干净数据和很深的网络模型基础上.但是在现实场景中数据和模型往往不会特别理想,比如数据层面有误标记的情况,像小狗被标注成狼,而且实际的业务场景讲究时效性,神经网络的层数不能特别 ...

  5. 学习python最好的书籍_最好的Python书籍

    学习python最好的书籍 Python is an amazing programming language. It can be applied to almost any programming ...

  6. 从1到无穷大-强化学习篇

    0x01 强化学习在从0到1中已经介绍了基本的思想,现在再详细介绍下. 强化学习的核心逻辑,那就是智能体(Agent)可以在环境(Environment)中根据奖励(Reward)的不同来判断自己在什 ...

  7. 【论文笔记】基于深度强化学习的机器人操作行为研究综述

    目录 摘要 关键词 1 引言 2 概念和术语 2.1 深度学习 2.2 强化学习 2.2.1 强化学习算法原理 2.2.2 强化学习算法分类 1. 无模型(model-free)算法和基于模型(mod ...

  8. 图深度学习:成功,挑战以及后面的路

    2020-07-07 10:24:07 作者:Michael Bronstein 编译:ronghuaiyang 导读 介绍了图深度学习取得的一些成果,面对的挑战以及后面的发展之路. 图深度学习,也被 ...

  9. 有哪些专业学python_学习python有哪些好书和学习方法?

    既然题主是C++图形程序员,而且是想在业余时间.深入学习python,那就从专业的角度回答一下吧- 我本科专业计算机科学与技术.研究生方向是人工智能.下面我就从问题关注的好书和方法两个方面说一下我们专 ...

最新文章

  1. java不同工厂生产不同电器_完整案例分析再加知识整合——艾特抽象工厂模式,超详细的...
  2. JavaScript的作用域与闭包
  3. Object构造函数的方法
  4. 一个servlet跳到另一个servlet_另一个太阳下的天与地
  5. 第二章 使用unittest模块扩展功能测试
  6. 比赛一买香蕉问题---解题报告
  7. ksu7对讲机调频软件_科普 | 数字对讲机的群呼功能原理是什么?你了解多少?...
  8. form表单input file类型的重置
  9. vue仿微博评论回复_Vue之 3.0升级
  10. 通过机房工作看软工之软工总结
  11. 查找子字符串----KMP算法深入剖析
  12. 做朋友圈需先从做人开始
  13. glide 设置宽高_Android之ImageView加载图片保持宽高比
  14. 华为USG6320做双线-基于源地址的策略路由
  15. 后端开发岗位要求汇总
  16. android打开dialog黑色背景
  17. 厦门理工嵌入式开发LPC1768开发板教程
  18. GRUB2配置文件grub.cfg详解(GRUB2实战手册)
  19. 北美票房排行榜 实时_快手直播丨主播实时直播监测数据分享——思文22号美妆童装专场...
  20. 软开面试题合集--Binrry(冰蕊)

热门文章

  1. PTA 基础编程题目集 7-17 爬动的蠕虫 C语言
  2. 7-19 支票面额 (C语言)
  3. wp.qq.com.index.html,使用纯代码给WordPress添加文章目录功能,支持快速定位和多级目录...
  4. 怎么用express搭建一个服务器
  5. 继爆款超级账本后,IBM再次推出新产品
  6. 细说Android事件传递
  7. 为什么mac运行变慢,如何提升mac运行速度
  8. 强类型DataSet中的DBNull的处理
  9. 最完整代码的用php备份mysql数据库
  10. go语言中fmt包中Print、Printf、Println输出相关函数的区别