李宏毅教授Imitation Learning课程笔记总结
Imitation Learning
又称demonstration/apprenticeship learning
用于解决没有reward的情况下的学习情况
多数情况下agent可以和环境进行互动,但无法从环境中得到明确的reward,或者无法决定如何确定reward
Behavior cloning
和监督学习类似,通过直接学习一个使得si映射到ai的神经网络来实现
缺点1:有限的观察,导致agent无法处理不在数据集中的情况
->dataset aggregation:收集更多极端情况
让expert经历policy下的情况,并给出反应
缺点2:完全复制数据集中的行为,即使没有道理,且机器(如神经网络)的能力是有限的,因此可能学习得并不完全,可能会只对不必要的行为进行学习,在RL中很难完全复制expert的所有轨迹
Inverse reinforcement learning (inverse optimal control)
通常情况下的RL:
Inverse RL:
机器可以和环境互动,但无法获得reward,得从expert那里推论出来
优点:有可能获得简单的回报函数
学习过程:
- 收集一系列expert的轨迹和agent的轨迹
- 学习一个回报函数,使得所学的回报函数总是满足expert的reward高于agent的reward
- 根据所学的回报函数学得最优的agent
- 重复上述步骤,②中所学的回报函数总是在改变的
最终expert会和agent获得同样高的分数
Inverse RL和GAN类似
只用个位数的数据,就可以达到很好的效果
应用:学会不同的开车风格、机械手臂学习、句子生成、聊天机器(Chat-bot)
从第三人称视角学习,在第一人称视角操作
用到了domain adversarial training(GAN),抽取信息使得第三人称视角和第一人称视角所获得的信息相同
句子生成&聊天机器
使用最大似然等价于behavior cloning
SeqGAN等价于inverse RL
李宏毅教授Imitation Learning课程笔记总结相关推荐
- 李宏毅2022ML第四周课程笔记
目录 李宏毅2022ML第四周课程笔记--自注意力机制 为什么引入自注意力机制? Self-Attention的具体机理 多头注意力机制 位置编码 CNN vs self-attention RNN ...
- 李宏毅老师2022机器学习课程笔记 01 Introduction of Deep Learning
01 Introduction of Deep Learning 机器学习相关规定 什么是机器学习 机器学习的概念 我觉得李老师讲得非常好的一点就是,他真正说清楚了机器学习中的一些因果逻辑. 比如我之 ...
- 吴立德教授深度学习课程笔记
复旦大学 吴立德教授 深度学习(Deep Learning)课程(http://www.youku.com/playlist_show/id_21508721.html),老先生讲得很细致,非常推荐. ...
- 清华教授的操作系统-----课程笔记
文章目录 操作系统 准备 系统调用 计算机体系结构及内存分层体系 地址空间 & 地址空间是如何生成的 MMU 连续内存分配 内存碎片问题 分区的动态分配 压缩式碎片整理 交换时碎片整理 **非 ...
- 李宏毅老师2022机器学习课程笔记 02 卷积神经网络(CNN)
02 卷积神经网络(CNN) CNN介绍 上图是CNN的完整结构图,先放在这里,下面会以图像分类任务为例,逐步对其进行介绍. CNN的设计动机 CNN是专门为图像设计的网络结构,结合了许多图像才会有的 ...
- 【CS224n】2斯坦福大学深度学习自然语言处理课程笔记——词向量、词义和神经分类器
Natural Language Processing with Deep Learning 课程笔记2 1. 词向量和word2vec 2. 优化基础知识 3. 我们能否通过计数更有效地抓住词义的本 ...
- 深度学习课程笔记(七):模仿学习(imitation learning)
深度学习课程笔记(七):模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显 ...
- 台大李宏毅课程笔记3——New Optimization for Deep Learning深度学习新优化
台大李宏毅课程笔记3 SGD with Momentum(SGDM) RMSProp Adam SWATS AdaXXX Adam分析 AMSGrad AdaBound SGDM分析 Cyclical ...
- 【深度学习】李宏毅2021/2022春深度学习课程笔记 - Deep Learning Task Tips
文章目录 一.深度学习步骤回顾 二.常规指导 三.训练过程中Loss很大 3.1 原因1:模型过于简单 3.2 原因2:优化得不好 3.3 原因1 or 原因2 ? 四.训练过程Loss小.测试过程L ...
最新文章
- java urlstreamhandler_获取对Java的默认http(s)URLStreamHandler的引用
- 网站数据分析:基于用户细分的比较分析
- VTK:图像理想高通用法实战
- SpringBoot2 整合 Drools规则引擎,实现高效的业务规则
- linux 网络状态图,linux的网络连接状态
- 框架设计之菜鸟漫漫江湖路系列 开篇
- 面试官:说一下Jena推理
- (组合数学笔记)递推关系小结及典型题分析
- python中的axis=0和1代表什么
- matlab抓取股票数据,Matlab通过sina web接口获取个数即时股票数据函数实现代码
- python入门教程(非常详细)-Python超详细入门教程(上)
- iOS 微信消息拦截插件系列教程-附录(服务端成果展示)
- 【算法学习】【图像增强】【Retinex】源码运行
- NetAssist连接报错!
- win2008 php,Windows Server 2008(R2) 一键安装PHP环境(PHP5.3+FastCGI模式)
- 培养创造性思维的20个方法
- asp毕业设计—— 基于asp+access的论坛网站设计与实现(毕业论文+程序源码)——论坛网站
- [CM311-1A]- Android 文件/目录 管理
- what 's Trac?
- 宿迁学院计算机二级必须要过吗,宿迁学院四级没过能拿到学位证书吗