李宏毅教授Imitation Learning课程笔记总结

Imitation Learning

又称demonstration/apprenticeship learning

用于解决没有reward的情况下的学习情况

多数情况下agent可以和环境进行互动，但无法从环境中得到明确的reward，或者无法决定如何确定reward

Behavior cloning

和监督学习类似，通过直接学习一个使得si映射到ai的神经网络来实现

缺点1：有限的观察，导致agent无法处理不在数据集中的情况

->dataset aggregation：收集更多极端情况

让expert经历policy下的情况，并给出反应

缺点2：完全复制数据集中的行为，即使没有道理，且机器(如神经网络)的能力是有限的，因此可能学习得并不完全，可能会只对不必要的行为进行学习，在RL中很难完全复制expert的所有轨迹

Inverse reinforcement learning (inverse optimal control)

通常情况下的RL：

Inverse RL：

机器可以和环境互动，但无法获得reward，得从expert那里推论出来

优点：有可能获得简单的回报函数

学习过程：

收集一系列expert的轨迹和agent的轨迹
学习一个回报函数，使得所学的回报函数总是满足expert的reward高于agent的reward
根据所学的回报函数学得最优的agent
重复上述步骤，②中所学的回报函数总是在改变的

最终expert会和agent获得同样高的分数

Inverse RL和GAN类似

只用个位数的数据，就可以达到很好的效果

应用：学会不同的开车风格、机械手臂学习、句子生成、聊天机器(Chat-bot)

从第三人称视角学习，在第一人称视角操作

用到了domain adversarial training(GAN)，抽取信息使得第三人称视角和第一人称视角所获得的信息相同

句子生成&聊天机器

使用最大似然等价于behavior cloning

SeqGAN等价于inverse RL

李宏毅教授Imitation Learning课程笔记总结相关推荐

李宏毅2022ML第四周课程笔记
目录李宏毅2022ML第四周课程笔记--自注意力机制为什么引入自注意力机制? Self-Attention的具体机理多头注意力机制位置编码 CNN vs self-attention RNN ...
李宏毅老师2022机器学习课程笔记 01 Introduction of Deep Learning
01 Introduction of Deep Learning 机器学习相关规定什么是机器学习机器学习的概念我觉得李老师讲得非常好的一点就是,他真正说清楚了机器学习中的一些因果逻辑. 比如我之 ...
吴立德教授深度学习课程笔记
复旦大学吴立德教授深度学习(Deep Learning)课程(http://www.youku.com/playlist_show/id_21508721.html),老先生讲得很细致,非常推荐. ...
清华教授的操作系统-----课程笔记
文章目录操作系统准备系统调用计算机体系结构及内存分层体系地址空间 & 地址空间是如何生成的 MMU 连续内存分配内存碎片问题分区的动态分配压缩式碎片整理交换时碎片整理 **非 ...
李宏毅老师2022机器学习课程笔记 02 卷积神经网络(CNN)
02 卷积神经网络(CNN) CNN介绍上图是CNN的完整结构图,先放在这里,下面会以图像分类任务为例,逐步对其进行介绍. CNN的设计动机 CNN是专门为图像设计的网络结构,结合了许多图像才会有的 ...
【CS224n】2斯坦福大学深度学习自然语言处理课程笔记——词向量、词义和神经分类器
Natural Language Processing with Deep Learning 课程笔记2 1. 词向量和word2vec 2. 优化基础知识 3. 我们能否通过计数更有效地抓住词义的本 ...
深度学习课程笔记（七）：模仿学习（imitation learning）
深度学习课程笔记(七):模仿学习(imitation learning) 2017.12.10 本文所涉及到的模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显 ...
台大李宏毅课程笔记3——New Optimization for Deep Learning深度学习新优化
台大李宏毅课程笔记3 SGD with Momentum(SGDM) RMSProp Adam SWATS AdaXXX Adam分析 AMSGrad AdaBound SGDM分析 Cyclical ...
【深度学习】李宏毅2021/2022春深度学习课程笔记 - Deep Learning Task Tips
文章目录一.深度学习步骤回顾二.常规指导三.训练过程中Loss很大 3.1 原因1:模型过于简单 3.2 原因2:优化得不好 3.3 原因1 or 原因2 ? 四.训练过程Loss小.测试过程L ...

李宏毅教授Imitation Learning课程笔记总结

李宏毅教授Imitation Learning课程笔记总结相关推荐

最新文章

热门文章