【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。
关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline 。我的强化学习资源仓库:
https://github.com/PiperLiu/Reinforcement-Learning-practice-zh
我的 CSDN 强化学习博客集合:
https://blog.csdn.net/weixin_42815609/category_9592110.html
本节内容综述
- 本节课是 B 站集合的最后一节课,由助教
林义圣
讲解。介绍些 RL 的新技术。 - 强化学习有许多难题:探索与开发间的平衡、采样效率。
- 首先介绍 Model-based RL 。其中讨论了 Alpha 系列(基于蒙特卡洛树搜索),以及 Dream to Control 。
- 接着,介绍了 Meta-RL 。
- 接下来讲一讲 Priors ,从之前学过的东西中抽取中有用的知识。
- Multi-agent RL 。
文章目录
- 本节内容综述
- 小细节
- Model-based RL
- AlphaGo to AlphaZero, MuZero
- Dream to Control
- Automatic Domain Randomization
- Meta-RL
- Prior
- Goal-agnostic Prior Policy
- Learn from Experts
- Multi-agent RL
- MADDPG
- Social Influence as Intrinsic Motivation
- AlphaStar
小细节
Model-based RL
从经验中学习一个 Model ,然后从 Model 上仿真学习。
AlphaGo to AlphaZero, MuZero
AlphaGo -> AlphaGo Zero -> AlphaZero -> MuZero
AlphaGo 可以理解为“很厉害的树搜索”,但是需要 pre-training 。
AlphaZero 不需要 pre-training ,在自我对弈时就引入蒙特卡洛树搜索。
MuZero 则可以自己学习环境模型。
如上,有三个网络,分工为:
- 把环境抽象为某一状态空间(h);
- 如何在这状态空间进行状态转换(a);
- 使用什么动作最优(f)。
Dream to Control
这篇文章则没有使用蒙特卡洛树搜索。
完全去学习环境的建模,然后完全在自己想象的模型上去学习。
Automatic Domain Randomization
OpenAI 为了训练机械手臂,在自己建模中,加入了大量干扰信号,以让其在真实世界能够完成任务。
Meta-RL
at∼πθ(st)⟷at∼πθ(at−1,rt−1,st)a_{t} \sim \pi_{\theta}\left(s_{t}\right) \longleftrightarrow a_{t} \sim \pi_{\theta}\left(a_{t-1}, r_{t-1}, s_{t}\right)at∼πθ(st)⟷at∼πθ(at−1,rt−1,st)
如上,Meta-RL 还要输入过去的信息。
可以用 Meta-RL 学习 RL 的超参数、Loss Functions 、Exploration Strategies 。
Prior
To obtain effective and fast-adapting agents, the agent can rely upon previously distilled knowledge in the form of a prior distribution.
The following two papers propose two distinct ways:
- Simultaneous learning of a goal-agnostic default policy
- Learning a dense embedding space to represent a large set of expert behaviors
Goal-agnostic Prior Policy
如上,两个网络,给第二个网络部分状态信息(比如没有目标位置,只有机器人身体姿势),然后其输出用 KL 与正常网络输出拉近。这样,第二个网络可以学到比较泛化的、与目标无关的特征。
Learn from Experts
比如机器人要学习人的后空翻,那先给机器人看专家的动作,让其学习。此外,还有很多细节,具体需要见原文。
Multi-agent RL
这是一个很复杂的问题。
也有很多可研究的思路。
MADDPG
如上,把别人的状态也输入到自己的状态中来。
Social Influence as Intrinsic Motivation
A mechanism for achieving coordination in multi-agent RL through rewarding agents for having causal Influence over other agents actions.
- Actions that lead to bigger changes in other agents behavior are considered influential and are rewarded.
- Influence is assessed using counterfactual reasoning.
in agent’s immediate reward is modified:
- environmental reward + causal influence reward
ck=∑j=0,j≠kNDκL[p(aj∣ak,sj)∥∑a˙kp(aj∣a~k,sj)p(a~k∣sj)]=∑j=0,j≠kNDκL[p(aj∣ak,sj)∥p(aj∣sj)]\begin{aligned} c_{k} &=\sum_{j=0, j \neq k}^{N} D_{\kappa_{L}}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| \sum_{\dot{a}_{k}} p\left(a_{j} \mid \tilde{a}_{k}, s_{j}\right) p\left(\tilde{a}_{k} \mid s_{j}\right)\right] \\ &=\sum_{j=0, j \neq k}^{N} D_{\kappa L}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| p\left(a_{j} \mid s_{j}\right)\right] \end{aligned}ck=j=0,j=k∑NDκL[p(aj∣ak,sj)∥a˙k∑p(aj∣a~k,sj)p(a~k∣sj)]=j=0,j=k∑NDκL[p(aj∣ak,sj)∥p(aj∣sj)]
AlphaStar
如上,左部先从人类经验中学习。在最顶上的一条,进行自我对弈。
但是,它把进化中的历史“自我”也存储起来,用来与自己对弈,防止进化方向错误。
此外,还保存了一些过去打败自己的“自己”,然后也用于与自己对弈。
【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha相关推荐
- 【李宏毅2020 ML/DL】P97-98 More about Meta Learning
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 本节课由助教 陈建成 讲解. 本节 Outline 见小细节. 首先是 What is meta ...
- 【李宏毅2020 ML/DL】P1 introduction
[李宏毅2020 ML/DL]P1 introduction 本节主要介绍了 DL 的15个作业 英文大意 Regression: 回归分析 Classification: 分类 RNN: 循环神经网 ...
- 【李宏毅2020 ML/DL】P15 Why Deep-
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐): https://github.com/Sakura-gh/ML-not ...
- 【李宏毅2020 ML/DL】P86-87 More about Domain Adaptation
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 本节课由助教 Chao Brian 讲解. 首先讲解些领域适配的基础内容,包括名词.定义等. 接 ...
- 【李宏毅2020 ML/DL】P59 Unsupervised Learning - Auto-encoder
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 【李宏毅2020 ML/DL】P58 Unsupervised Learning - Neighbor Embedding | LLE, t-SNE
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 【李宏毅2020 ML/DL】P14 Tips for training DNN | 激活函数、Maxout、正则、剪枝 Dropout
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐): https://github.com/Sakura-gh/ML-not ...
- 李宏毅svm_李宏毅2020 ML/DL补充Structured Learning Structured SVM
李宏毅2020 ML/DL补充Structured Learning Structured SVM [李宏毅2020 ML/DL]补充:Structured Learning: Structured ...
- 【李宏毅2020 ML/DL】补充:Structured Learning: Introduction Structured Linear Model
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本次笔记补充视频 BV1JE411g7XF 的缺失部分.在另一个UP主上传的2017课程BV13x411v7U ...
最新文章
- Linux那些事儿 之 戏说USB(3)我是一棵树
- C#实现Web应用程序定时启动任务
- 致力推广Vim的那个程序员走了,Vim之父:我要把9.0版献给他
- java程序设计试题_《Java语言程序设计》期末考试模拟试题——填空题和编程题...
- HDU-2094 产生冠军
- 11月27号例会记录
- [译]HTMLCSS Lesson2: 了解HTML
- Deepin 15.7安装教程
- 正则提取字符串-python
- cas 单点登录_47 使用cas完成单点登录-02 搭建cas client完成单点登录
- Canvas 渐变特效
- .NET 指南:许可请求
- ListView的使用用ViewHolder提升效率
- 都说快递鸟接口好,对接快,可是为什么我搞了几个小时还没有搞完
- SAP License:一位在ERP行业从业九年的经验总结
- NGINX 发布影响LDAP 实现的0day 缓解措施
- Socket中常见的几个转换函数(htonl,htons,ntohl,ntohs,inet_addr,inet_ntoa)
- web app开发利器 - iscroll4 解决方案
- 换了马甲也能认出“你” | 有了这个数据集,AI有望揪出变种勒索软件
- java正则表达式yyyymmdd_java验证日期yyyyMMdd正则表达式,
热门文章
- 【Python-3.5】变量命名规范
- 安装centos后 启动mysqld显示mysqld: 未被识别的服务 解决方法
- Tomcat不能自动编译JSP文件问题的一种解决方法
- Win7/Win8/Win8.1下配置apache+php运行缓慢问题解决方法
- 解决utf8编码的php生成csv打开乱码的问题
- Integer.ParseInt()异常
- 处理quartz 异常 Couldn‘t retrieve trigger: No record found for selection of Trigger with key:
- 解决谷歌网站Your connection is not private问题
- 【LoadRunner】解决LR11无法录制Chrome浏览器脚本问题
- 解决telnet: connect to address 127.0.0.1: Connection refused的错误信息问题