我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。

关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline 。我的强化学习资源仓库:
https://github.com/PiperLiu/Reinforcement-Learning-practice-zh
我的 CSDN 强化学习博客集合:
https://blog.csdn.net/weixin_42815609/category_9592110.html

本节内容综述

  1. 本节课是 B 站集合的最后一节课,由助教 林义圣 讲解。介绍些 RL 的新技术。
  2. 强化学习有许多难题:探索与开发间的平衡、采样效率。
  3. 首先介绍 Model-based RL 。其中讨论了 Alpha 系列(基于蒙特卡洛树搜索),以及 Dream to Control 。
  4. 接着,介绍了 Meta-RL 。
  5. 接下来讲一讲 Priors ,从之前学过的东西中抽取中有用的知识。
  6. Multi-agent RL 。

文章目录

  • 本节内容综述
  • 小细节
    • Model-based RL
      • AlphaGo to AlphaZero, MuZero
      • Dream to Control
      • Automatic Domain Randomization
    • Meta-RL
    • Prior
      • Goal-agnostic Prior Policy
      • Learn from Experts
    • Multi-agent RL
      • MADDPG
      • Social Influence as Intrinsic Motivation
    • AlphaStar

小细节

Model-based RL


从经验中学习一个 Model ,然后从 Model 上仿真学习。

AlphaGo to AlphaZero, MuZero

AlphaGo -> AlphaGo Zero -> AlphaZero -> MuZero

AlphaGo 可以理解为“很厉害的树搜索”,但是需要 pre-training 。

AlphaZero 不需要 pre-training ,在自我对弈时就引入蒙特卡洛树搜索。

MuZero 则可以自己学习环境模型。

如上,有三个网络,分工为:

  • 把环境抽象为某一状态空间(h);
  • 如何在这状态空间进行状态转换(a);
  • 使用什么动作最优(f)。

Dream to Control

这篇文章则没有使用蒙特卡洛树搜索。

完全去学习环境的建模,然后完全在自己想象的模型上去学习。

Automatic Domain Randomization


OpenAI 为了训练机械手臂,在自己建模中,加入了大量干扰信号,以让其在真实世界能够完成任务。

Meta-RL

at∼πθ(st)⟷at∼πθ(at−1,rt−1,st)a_{t} \sim \pi_{\theta}\left(s_{t}\right) \longleftrightarrow a_{t} \sim \pi_{\theta}\left(a_{t-1}, r_{t-1}, s_{t}\right)atπθ(st)atπθ(at1,rt1,st)

如上,Meta-RL 还要输入过去的信息。

可以用 Meta-RL 学习 RL 的超参数、Loss Functions 、Exploration Strategies 。

Prior

To obtain effective and fast-adapting agents, the agent can rely upon previously distilled knowledge in the form of a prior distribution.

The following two papers propose two distinct ways:

  • Simultaneous learning of a goal-agnostic default policy
  • Learning a dense embedding space to represent a large set of expert behaviors

Goal-agnostic Prior Policy


如上,两个网络,给第二个网络部分状态信息(比如没有目标位置,只有机器人身体姿势),然后其输出用 KL 与正常网络输出拉近。这样,第二个网络可以学到比较泛化的、与目标无关的特征。

Learn from Experts


比如机器人要学习人的后空翻,那先给机器人看专家的动作,让其学习。此外,还有很多细节,具体需要见原文。

Multi-agent RL

这是一个很复杂的问题。

也有很多可研究的思路。

MADDPG


如上,把别人的状态也输入到自己的状态中来。

Social Influence as Intrinsic Motivation

A mechanism for achieving coordination in multi-agent RL through rewarding agents for having causal Influence over other agents actions.

  • Actions that lead to bigger changes in other agents behavior are considered influential and are rewarded.
  • Influence is assessed using counterfactual reasoning.

in agent’s immediate reward is modified:

  • environmental reward + causal influence reward

ck=∑j=0,j≠kNDκL[p(aj∣ak,sj)∥∑a˙kp(aj∣a~k,sj)p(a~k∣sj)]=∑j=0,j≠kNDκL[p(aj∣ak,sj)∥p(aj∣sj)]\begin{aligned} c_{k} &=\sum_{j=0, j \neq k}^{N} D_{\kappa_{L}}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| \sum_{\dot{a}_{k}} p\left(a_{j} \mid \tilde{a}_{k}, s_{j}\right) p\left(\tilde{a}_{k} \mid s_{j}\right)\right] \\ &=\sum_{j=0, j \neq k}^{N} D_{\kappa L}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| p\left(a_{j} \mid s_{j}\right)\right] \end{aligned}ck=j=0,j=kNDκL[p(ajak,sj)a˙kp(aja~k,sj)p(a~ksj)]=j=0,j=kNDκL[p(ajak,sj)p(ajsj)]

AlphaStar


如上,左部先从人类经验中学习。在最顶上的一条,进行自我对弈。

但是,它把进化中的历史“自我”也存储起来,用来与自己对弈,防止进化方向错误。

此外,还保存了一些过去打败自己的“自己”,然后也用于与自己对弈。

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha相关推荐

  1. 【李宏毅2020 ML/DL】P97-98 More about Meta Learning

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 本节课由助教 陈建成 讲解. 本节 Outline 见小细节. 首先是 What is meta ...

  2. 【李宏毅2020 ML/DL】P1 introduction

    [李宏毅2020 ML/DL]P1 introduction 本节主要介绍了 DL 的15个作业 英文大意 Regression: 回归分析 Classification: 分类 RNN: 循环神经网 ...

  3. 【李宏毅2020 ML/DL】P15 Why Deep-

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐): https://github.com/Sakura-gh/ML-not ...

  4. 【李宏毅2020 ML/DL】P86-87 More about Domain Adaptation

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 本节课由助教 Chao Brian 讲解. 首先讲解些领域适配的基础内容,包括名词.定义等. 接 ...

  5. 【李宏毅2020 ML/DL】P59 Unsupervised Learning - Auto-encoder

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

  6. 【李宏毅2020 ML/DL】P58 Unsupervised Learning - Neighbor Embedding | LLE, t-SNE

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

  7. 【李宏毅2020 ML/DL】P14 Tips for training DNN | 激活函数、Maxout、正则、剪枝 Dropout

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐): https://github.com/Sakura-gh/ML-not ...

  8. 李宏毅svm_李宏毅2020 ML/DL补充Structured Learning Structured SVM

    李宏毅2020 ML/DL补充Structured Learning Structured SVM [李宏毅2020 ML/DL]补充:Structured Learning: Structured ...

  9. 【李宏毅2020 ML/DL】补充:Structured Learning: Introduction Structured Linear Model

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本次笔记补充视频 BV1JE411g7XF 的缺失部分.在另一个UP主上传的2017课程BV13x411v7U ...

最新文章

  1. Linux那些事儿 之 戏说USB(3)我是一棵树
  2. C#实现Web应用程序定时启动任务
  3. 致力推广Vim的那个程序员走了,Vim之父:我要把9.0版献给他
  4. java程序设计试题_《Java语言程序设计》期末考试模拟试题——填空题和编程题...
  5. HDU-2094 产生冠军
  6. 11月27号例会记录
  7. [译]HTMLCSS Lesson2: 了解HTML
  8. Deepin 15.7安装教程
  9. 正则提取字符串-python
  10. cas 单点登录_47 使用cas完成单点登录-02 搭建cas client完成单点登录
  11. Canvas 渐变特效
  12. .NET 指南:许可请求
  13. ListView的使用用ViewHolder提升效率
  14. 都说快递鸟接口好,对接快,可是为什么我搞了几个小时还没有搞完
  15. SAP License:一位在ERP行业从业九年的经验总结
  16. NGINX 发布影响LDAP 实现的0day 缓解措施
  17. Socket中常见的几个转换函数(htonl,htons,ntohl,ntohs,inet_addr,inet_ntoa)
  18. web app开发利器 - iscroll4 解决方案
  19. 换了马甲也能认出“你” | 有了这个数据集,AI有望揪出变种勒索软件
  20. java正则表达式yyyymmdd_java验证日期yyyyMMdd正则表达式,

热门文章

  1. 【Python-3.5】变量命名规范
  2. 安装centos后 启动mysqld显示mysqld: 未被识别的服务 解决方法
  3. Tomcat不能自动编译JSP文件问题的一种解决方法
  4. Win7/Win8/Win8.1下配置apache+php运行缓慢问题解决方法
  5. 解决utf8编码的php生成csv打开乱码的问题
  6. Integer.ParseInt()异常
  7. 处理quartz 异常 Couldn‘t retrieve trigger: No record found for selection of Trigger with key:
  8. 解决谷歌网站Your connection is not private问题
  9. 【LoadRunner】解决LR11无法录制Chrome浏览器脚本问题
  10. 解决telnet: connect to address 127.0.0.1: Connection refused的错误信息问题