ICLR 2022 不求甚解阅读笔记--强化学习类（1）

1. Model-augmented Prioritized Experience Replay

Youngmin Oh1, Jinwoo Shin2, Eunho Yang2,3, Sung Ju Hwang2,31Samsung Advanced Institute of Technology
2 Korea Advanced Institute of Science and Technology
3 AITRICS

本文是PER（ Prioritized Experience Replay）的改进，在进行优先级计算时，进一步考虑了对transition的评估，即称为模型增强（model- augment）的PER

– 2022.7.29

2. Learning Altruistic Behaviours in Reinforcement Learning without External Rewards

Tim Franzmeyer
University of Oxford
frtim@robots.ox.ac.uk
Mateusz Malinowski
DeepMind
mateuszm@google.com
Joao F. Henriques ˜
University of Oxford
joao@robots.ox.ac.uk

本文针对的是task-agnostic（任务不可知）场景，即reward可能是未知的，来促进智能体的利他行为，为此提出了他者选择（choice of others）这一概念，进而通过最大化他者选择达到利他行为涌现的目的。choice of others使用未来state的存在数量进行表示，最后可简化为action分布的香农熵。本文针对的是存在leader与followers的博弈场景，这个博弈的reward由leader决定，因此followers的利他行为是研究的重点。

–2022.8.2

3. Evolutionary Diversity Optimization with Clustering-based Selection for Reinforcement Learning

Yutong Wang∗, Ke Xue∗and Chao Qian†
State Key Laboratory for Novel Software Technology,
Nanjing University, Nanjing 210023, China
{wangyt, xuek, qianc}@lamda.nju.edu.cn

本文旨在解决high rewards和diverse behaviors问题，针对OD-RL算法在计算Pareto front时，可能会产生相似行为空间问题，本文提出了先分类再选择的Evolutionary Diversity Optimization algorithm with Clustering-based Selection (EDO-CS) 算法，其中分类使用了经典的K-means算法，在挑选算法时会采用reward（评价策略的好坏）与div（评价策略与其他策略的平均距离）的加权平均作为评价指标，然后使用Evolutionary Strategy（ES）优化所选的策略，即通过采用种群策略进行梯度下降。前面提到的加权参数，则通过UCB方法自适应更新。

–20220804

4. LIGS: Learnable Intrinsic-Reward Generation Selection for Multi-Agent Learning

David Mguni1∗, Taher Jafferjee1, Jianhong Wang2, Oliver Slumbers1,5, Nicolas Perez-Nieves2,
Feifei Tong1, Li Yang3, Jiangcheng Zhu1, Yaodong Yang4, Jun Wang5
1 Huawei Technologies, 2 Imperial College London, 3Shanghaitech University, 4 Institute for AI, Peking University & BIGAI, 5 University College London

本文旨在解决多智能体系统中的协同探索问题，提升joint收益。为此本文使用intrinsic reward来激励对位置state的探索，并且，本文引入一个generator神经网络来自适应地学习intrinsic reward，为了提高学习效率，最后引入了switching control来决定哪些状态会使用intrinsic reward。

–20220805

5. Dealing with Non-Stationarity in MARL via Trust-Region Decomposition

Wenhao Li, XiangfengWang* , Bo Jin*, Junjie Sheng
School of Computer Science and Technology
East China Normal University
Shanghai, China
f52194501026@stu, xfwang@cs, bjin@cs, 52194501003@stug.ecnu.edu.cn
Hongyuan Zha
School of Data Science, The Chinese University of Hong Kong (Shenzhen)
Shenzhen Institute of Artificial Intelligence and Robotics for Society
Shenzhen, China
zhahy@cuhk.edu.cn

粗粗过了遍这篇文章，没有看很懂，本文的核心议题是为了解决MARL中，智能体策略的非稳定性问题，为此，本文提出了δ\deltaδ稳定性指标，然后，提出TRD-Net网络来评估联合策略的散度，随后即，基于评估值，提出MAMT来自适应调整智能体的本地策略更新。

–20220815