我已经有两年 ML 经历，这系列课主要用来查缺补漏，会记录一些细节的、自己不知道的东西。

关于强化学习，我专门花半年时间学习实践过，因此这里笔记只记录李老师的 outline 。我的强化学习资源仓库：
https://github.com/PiperLiu/Reinforcement-Learning-practice-zh
我的 CSDN 强化学习博客集合：
https://blog.csdn.net/weixin_42815609/category_9592110.html

本节内容综述

本节课是 B 站集合的最后一节课，由助教 林义圣 讲解。介绍些 RL 的新技术。
强化学习有许多难题：探索与开发间的平衡、采样效率。
首先介绍 Model-based RL 。其中讨论了 Alpha 系列（基于蒙特卡洛树搜索），以及 Dream to Control 。
接着，介绍了 Meta-RL 。
接下来讲一讲 Priors ，从之前学过的东西中抽取中有用的知识。
Multi-agent RL 。

文章目录

本节内容综述
小细节
- Model-based RL
- - AlphaGo to AlphaZero, MuZero
  - Dream to Control
  - Automatic Domain Randomization
- Meta-RL
- Prior
- - Goal-agnostic Prior Policy
  - Learn from Experts
- Multi-agent RL
- - MADDPG
  - Social Influence as Intrinsic Motivation
- AlphaStar

小细节

Model-based RL

从经验中学习一个 Model ，然后从 Model 上仿真学习。

AlphaGo to AlphaZero, MuZero

AlphaGo -> AlphaGo Zero -> AlphaZero -> MuZero

AlphaGo 可以理解为“很厉害的树搜索”，但是需要 pre-training 。

AlphaZero 不需要 pre-training ，在自我对弈时就引入蒙特卡洛树搜索。

MuZero 则可以自己学习环境模型。

如上，有三个网络，分工为：

把环境抽象为某一状态空间（h）；
如何在这状态空间进行状态转换（a）；
使用什么动作最优（f）。

Dream to Control

这篇文章则没有使用蒙特卡洛树搜索。

完全去学习环境的建模，然后完全在自己想象的模型上去学习。

Automatic Domain Randomization

OpenAI 为了训练机械手臂，在自己建模中，加入了大量干扰信号，以让其在真实世界能够完成任务。

Meta-RL

$at∼πθ(st)⟷at∼πθ(at−1,rt−1,st)a_{t} \sim \pi_{\theta}\left(s_{t}\right) \longleftrightarrow a_{t} \sim \pi_{\theta}\left(a_{t-1}, r_{t-1}, s_{t}\right)$

如上，Meta-RL 还要输入过去的信息。

可以用 Meta-RL 学习 RL 的超参数、Loss Functions 、Exploration Strategies 。

Prior

To obtain effective and fast-adapting agents, the agent can rely upon previously distilled knowledge in the form of a prior distribution.

The following two papers propose two distinct ways:

Simultaneous learning of a goal-agnostic default policy
Learning a dense embedding space to represent a large set of expert behaviors

Goal-agnostic Prior Policy

如上，两个网络，给第二个网络部分状态信息（比如没有目标位置，只有机器人身体姿势），然后其输出用 KL 与正常网络输出拉近。这样，第二个网络可以学到比较泛化的、与目标无关的特征。

Learn from Experts

比如机器人要学习人的后空翻，那先给机器人看专家的动作，让其学习。此外，还有很多细节，具体需要见原文。

Multi-agent RL

这是一个很复杂的问题。

也有很多可研究的思路。

MADDPG

如上，把别人的状态也输入到自己的状态中来。

Social Influence as Intrinsic Motivation

A mechanism for achieving coordination in multi-agent RL through rewarding agents for having causal Influence over other agents actions.

Actions that lead to bigger changes in other agents behavior are considered influential and are rewarded.
Influence is assessed using counterfactual reasoning.

in agent’s immediate reward is modified:

environmental reward + causal influence reward

$ck=∑j=0,j≠kNDκL[p(aj∣ak,sj)∥∑a˙kp(aj∣a~k,sj)p(a~k∣sj)]=∑j=0,j≠kNDκL[p(aj∣ak,sj)∥p(aj∣sj)]\begin{aligned} c_{k} &=\sum_{j=0, j \neq k}^{N} D_{\kappa_{L}}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| \sum_{\dot{a}_{k}} p\left(a_{j} \mid \tilde{a}_{k}, s_{j}\right) p\left(\tilde{a}_{k} \mid s_{j}\right)\right] \\ &=\sum_{j=0, j \neq k}^{N} D_{\kappa L}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| p\left(a_{j} \mid s_{j}\right)\right] \end{aligned}$

AlphaStar

如上，左部先从人类经验中学习。在最顶上的一条，进行自我对弈。

但是，它把进化中的历史“自我”也存储起来，用来与自己对弈，防止进化方向错误。

此外，还保存了一些过去打败自己的“自己”，然后也用于与自己对弈。

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha相关推荐

【李宏毅2020 ML/DL】P97-98 More about Meta Learning
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述本节课由助教陈建成讲解. 本节 Outline 见小细节. 首先是 What is meta ...
【李宏毅2020 ML/DL】P1 introduction
[李宏毅2020 ML/DL]P1 introduction 本节主要介绍了 DL 的15个作业英文大意 Regression: 回归分析 Classification: 分类 RNN: 循环神经网 ...
【李宏毅2020 ML/DL】P15 Why Deep-
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐): https://github.com/Sakura-gh/ML-not ...
【李宏毅2020 ML/DL】P86-87 More about Domain Adaptation
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述本节课由助教 Chao Brian 讲解. 首先讲解些领域适配的基础内容,包括名词.定义等. 接 ...
【李宏毅2020 ML/DL】P59 Unsupervised Learning - Auto-encoder
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
【李宏毅2020 ML/DL】P58 Unsupervised Learning - Neighbor Embedding | LLE, t-SNE
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
【李宏毅2020 ML/DL】P14 Tips for training DNN | 激活函数、Maxout、正则、剪枝 Dropout
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐): https://github.com/Sakura-gh/ML-not ...
李宏毅svm_李宏毅2020 ML/DL补充Structured Learning Structured SVM
李宏毅2020 ML/DL补充Structured Learning Structured SVM [李宏毅2020 ML/DL]补充:Structured Learning: Structured ...
【李宏毅2020 ML/DL】补充：Structured Learning: Introduction Structured Linear Model
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本次笔记补充视频 BV1JE411g7XF 的缺失部分.在另一个UP主上传的2017课程BV13x411v7U ...

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha