Imitation Learning

又称demonstration/apprenticeship learning

用于解决没有reward的情况下的学习情况

多数情况下agent可以和环境进行互动,但无法从环境中得到明确的reward,或者无法决定如何确定reward

Behavior cloning

和监督学习类似,通过直接学习一个使得si映射到ai的神经网络来实现

缺点1:有限的观察,导致agent无法处理不在数据集中的情况

->dataset aggregation:收集更多极端情况

让expert经历policy下的情况,并给出反应

缺点2:完全复制数据集中的行为,即使没有道理,且机器(如神经网络)的能力是有限的,因此可能学习得并不完全,可能会只对不必要的行为进行学习,在RL中很难完全复制expert的所有轨迹

Inverse reinforcement learning (inverse optimal control)

通常情况下的RL:

Inverse RL:

机器可以和环境互动,但无法获得reward,得从expert那里推论出来

优点:有可能获得简单的回报函数

学习过程:

  • 收集一系列expert的轨迹和agent的轨迹
  • 学习一个回报函数,使得所学的回报函数总是满足expert的reward高于agent的reward
  • 根据所学的回报函数学得最优的agent
  • 重复上述步骤,②中所学的回报函数总是在改变的

最终expert会和agent获得同样高的分数

Inverse RL和GAN类似

只用个位数的数据,就可以达到很好的效果

应用:学会不同的开车风格、机械手臂学习、句子生成、聊天机器(Chat-bot)

从第三人称视角学习,在第一人称视角操作

用到了domain adversarial training(GAN),抽取信息使得第三人称视角和第一人称视角所获得的信息相同

句子生成&聊天机器

使用最大似然等价于behavior cloning

SeqGAN等价于inverse RL

李宏毅教授Imitation Learning课程笔记总结相关推荐

  1. 李宏毅2022ML第四周课程笔记

    目录 李宏毅2022ML第四周课程笔记--自注意力机制 为什么引入自注意力机制? Self-Attention的具体机理 多头注意力机制 位置编码 CNN vs self-attention RNN ...

  2. 李宏毅老师2022机器学习课程笔记 01 Introduction of Deep Learning

    01 Introduction of Deep Learning 机器学习相关规定 什么是机器学习 机器学习的概念 我觉得李老师讲得非常好的一点就是,他真正说清楚了机器学习中的一些因果逻辑. 比如我之 ...

  3. 吴立德教授深度学习课程笔记

    复旦大学 吴立德教授 深度学习(Deep Learning)课程(http://www.youku.com/playlist_show/id_21508721.html),老先生讲得很细致,非常推荐. ...

  4. 清华教授的操作系统-----课程笔记

    文章目录 操作系统 准备 系统调用 计算机体系结构及内存分层体系 地址空间 & 地址空间是如何生成的 MMU 连续内存分配 内存碎片问题 分区的动态分配 压缩式碎片整理 交换时碎片整理 **非 ...

  5. 李宏毅老师2022机器学习课程笔记 02 卷积神经网络(CNN)

    02 卷积神经网络(CNN) CNN介绍 上图是CNN的完整结构图,先放在这里,下面会以图像分类任务为例,逐步对其进行介绍. CNN的设计动机 CNN是专门为图像设计的网络结构,结合了许多图像才会有的 ...

  6. 【CS224n】2斯坦福大学深度学习自然语言处理课程笔记——词向量、词义和神经分类器

    Natural Language Processing with Deep Learning 课程笔记2 1. 词向量和word2vec 2. 优化基础知识 3. 我们能否通过计数更有效地抓住词义的本 ...

  7. 深度学习课程笔记(七):模仿学习(imitation learning)

    深度学习课程笔记(七):模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显 ...

  8. 台大李宏毅课程笔记3——New Optimization for Deep Learning深度学习新优化

    台大李宏毅课程笔记3 SGD with Momentum(SGDM) RMSProp Adam SWATS AdaXXX Adam分析 AMSGrad AdaBound SGDM分析 Cyclical ...

  9. 【深度学习】李宏毅2021/2022春深度学习课程笔记 - Deep Learning Task Tips

    文章目录 一.深度学习步骤回顾 二.常规指导 三.训练过程中Loss很大 3.1 原因1:模型过于简单 3.2 原因2:优化得不好 3.3 原因1 or 原因2 ? 四.训练过程Loss小.测试过程L ...

最新文章

  1. java urlstreamhandler_获取对Java的默认http(s)URLStreamHandler的引用
  2. 网站数据分析:基于用户细分的比较分析
  3. VTK:图像理想高通用法实战
  4. SpringBoot2 整合 Drools规则引擎,实现高效的业务规则
  5. linux 网络状态图,linux的网络连接状态
  6. 框架设计之菜鸟漫漫江湖路系列 开篇
  7. 面试官:说一下Jena推理
  8. (组合数学笔记)递推关系小结及典型题分析
  9. python中的axis=0和1代表什么
  10. matlab抓取股票数据,Matlab通过sina web接口获取个数即时股票数据函数实现代码
  11. python入门教程(非常详细)-Python超详细入门教程(上)
  12. iOS 微信消息拦截插件系列教程-附录(服务端成果展示)
  13. 【算法学习】【图像增强】【Retinex】源码运行
  14. NetAssist连接报错!
  15. win2008 php,Windows Server 2008(R2) 一键安装PHP环境(PHP5.3+FastCGI模式)
  16. 培养创造性思维的20个方法
  17. asp毕业设计—— 基于asp+access的论坛网站设计与实现(毕业论文+程序源码)——论坛网站
  18. [CM311-1A]- Android 文件/目录 管理
  19. what 's Trac?
  20. 宿迁学院计算机二级必须要过吗,宿迁学院四级没过能拿到学位证书吗

热门文章

  1. piwik统计单页面
  2. vue2使用轮播图插件swiper,vue-awesome-swiper
  3. 云媒易推广:实体店铺抖音推广技巧分享
  4. Qt5编程——word操作
  5. NLP14-基于Gensim中的Doc2Vec的试探
  6. 2020下半年,值得关注的10本机器学习、深度学习好书
  7. 骨传导耳机和气传导哪个对听力好?不伤耳骨传导耳机了解一下
  8. C语言编程过河问题,过河问题
  9. 一文搞懂图片像素、图片大小、图片存储类型等概念和计算
  10. java练手项目_20个Java练手项目,献给嗜学如狂的人