李宏毅深度强化学习(国语)课程(2018)

李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili

​        机器是可以与环境进行交互的,但是大部分情况下,机器却不能从这个过程中显示的获得奖励,奖励函数是难以确定。因此,模仿学习方法考虑让机器学习人类的做法,来使得机器可以去做人类才能完成的事。

​         模仿学习主要有两种方式:行为克隆(Behavior Cloning)和逆向强化学习(Inverse Reinforcement Learning)。

行为克隆:假设有许多专家的示例数据,它们以这样的形式出现:<s1,a1>,<s2,a2>,...,<sn,an>,si代表当前的环境,ai代表当前环境下专家采取的动作。得到了这一串专家动作之后,直接丢到一个神经网络中,s是输入,a是输出,直接训练出一个结果。

这种方法的缺点之一是:机器的输出非常依赖专家数据,一旦出现了训练数据中没有的场景,机器的输出就会失去了参考,变得极其不靠谱。另外,在此类问题中处理的都是一系列相关的环境和动作,极易出现一步错步步错的情况。

​        针对这种问题,采用了数据增强(Data Aggregation)的手段。

方法举例:假设车里面坐了一个专家,专家在每个不同的环境下都会给一个策略,但是机器仍然是按照原本的模型输出的策略行进的,这样子当汽车偏离的时候,虽然车可能依然会撞墙,但是此时专家就会把这个模型缺失的一部分数据补充上。

​        这种方法的缺点之二是:机器会学习到专家所有的行为,甚至是无关紧要的行为。总的来说,行为克隆本质上是一种有监督的学习,在现实应用中,很不靠谱。

逆向强化学习(Inverse Reinforcement Learning):可以去学习奖励函数。

传统的强化学习下方的箭头应该是从左到右的,基于奖励函数与环境交互,做出最大奖励的行为,但是在逆向强化学习算法中,这个过程却是从右向左进行,通过专家数据学习到奖励函数

注意:在逆向强化学习算法中从左到右也要走。

传统Reinforcement Learning:

逆强化学习的示意图如下:

算法原理如下:通过专家数据,学习一个奖励函数,再通过这个奖励函数去生成模型的轨迹。至于如何去学习这个奖励函数,我们给的指导就是要保证专家数据获得的奖励一定要比模型生成的数据的奖励要多。

这个过程和GAN类似:上图右下角生成Actor和Actor轨迹的行为就像是GAN中的Generator,而右上角的奖励函数,起到的就是Discriminator的作用,用来去区分这个网络是不是专家生成的。Generator尽可能去寻找奖励最大的行为,而Discriminator则不断优化奖励函数,让专家的行为和模型的行为区分开来。

李宏毅深度强化学习(国语)课程(2018) 笔记(八)Imitation Learning相关推荐

  1. 李宏毅深度强化学习(国语)课程(2018) 笔记(二)Proximal Policy Optimization(PPO)

    李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili on-policy:要learn的agent和环境互动的agent是同一个,即agent一边跟环境互动,一边学习: off-po ...

  2. 李宏毅深度强化学习(国语)课程(2018) 笔记(一)Policy Gradient (Review)

    李宏毅深度强化学习(国语)课程(2018) https://www.bilibili.com/video/BV1MW411w79n?spm_id_from=333.337.search-card.al ...

  3. 【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  4. 【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  5. 【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  6. UC伯克利出品,深度强化学习最新课程已上线

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 主题涵盖深度强化学习领域的方方面面,UC 伯克利 CS 285 2020 秋季课程视频放出. ...

  7. 台大李宏毅教授最新课程,深度强化学习国语版

    李宏毅的youtube主页: https://www.youtube.com/channel/UC2ggjtuuWvxrHHHiaDH1dlQ/videos 此外,李老师在youtube还有<机 ...

  8. 李宏毅深度强化学习笔记

    文章目录 增强学习(RL)的一些基本概念: RL的基本组成: 三者相互作用的过程: Policy: 轨迹的概率: Expected Reward: Policy gradient: On-policy ...

  9. 深度强化学习入门到精通--资料综述

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 人工智能是21世纪最激动人心的技术之一.人工智能,就是像人一样的智能,而人的智能包 ...

最新文章

  1. 最好的oracle笔记,Oracle学习笔记(一)
  2. Json.NET Deserialize时如何忽略$id等特殊属性
  3. gcc版本降级/升级
  4. 使用MaxCompute LOAD命令批量导入OSS数据最佳实践—STS方式LOAD开启KMS加密OSS数据
  5. mysqldump 导入导出数据
  6. HDU5701 中位数计数【中位数+水题】
  7. sql 查询关联字段 最好取别名 不然会被第一个覆盖
  8. 用css样式修改input控件和button控件
  9. Hyperledger fabric v2.3 交易流程 翻译
  10. 中国移动手机支付开放平台网站服务协议
  11. C 标准库 –stdio.h 简介
  12. 小程序中实现token过期重新登录再重新请求业务接口
  13. SRCNN-pytoch代码讲解
  14. JavaScript(Bom编程)
  15. Android之高仿墨迹天气桌面组件(AppWidgetProvider)
  16. Label-Specific Dual Graph Neural Network for Multi-Label Text Classification,ACL2021 finding
  17. mysql 建表 game_RPG游戏数据库设计
  18. 很好奇这个背景图片,盯着看能感受到裸眼3D有没有
  19. ES6-11数值扩展:二进制和八进制、数值分隔符、Number.isFinite()、Number.isNaN()等
  20. office:word在编辑内容时反应迟钝的解决办法

热门文章

  1. Rk3566 Rk3326s Android11 修改WLAN直连默认名称
  2. 电子货架标签------2.9寸无源电子墨水卡片
  3. 外网远程访问SQL Server数据库【无公网IP】
  4. 什么是P问题、 NP 问题、NPC问题 ?
  5. 我的CV算法岗上岸之路(2023届秋招)
  6. 音乐频谱显示小玩具——FFT在STM32中的实现与应用
  7. 基于stm32的通信系统,sim800c与服务器通信,无线通信监测,远程定位,服务器通信系统
  8. NKOI 3124 珍珠吊坠
  9. 啊哈~花一天快速上手Pytorch(可能是全网最全流程从0到部署)
  10. win10怎么关闭defender安全中心?Defender服务关闭方法详解