ICLR 2022 不求甚解阅读笔记--强化学习类(1)
1. Model-augmented Prioritized Experience Replay
Youngmin Oh1, Jinwoo Shin2, Eunho Yang2,3, Sung Ju Hwang2,31Samsung Advanced Institute of Technology
2 Korea Advanced Institute of Science and Technology
3 AITRICS
本文是PER( Prioritized Experience Replay)的改进,在进行优先级计算时,进一步考虑了对transition的评估,即称为模型增强(model- augment)的PER
– 2022.7.29
2. Learning Altruistic Behaviours in Reinforcement Learning without External Rewards
Tim Franzmeyer
University of Oxford
frtim@robots.ox.ac.uk
Mateusz Malinowski
DeepMind
mateuszm@google.com
Joao F. Henriques ˜
University of Oxford
joao@robots.ox.ac.uk
本文针对的是task-agnostic(任务不可知)场景,即reward可能是未知的,来促进智能体的利他行为,为此提出了他者选择(choice of others)这一概念,进而通过最大化他者选择达到利他行为涌现的目的。choice of others使用未来state的存在数量进行表示,最后可简化为action分布的香农熵。本文针对的是存在leader与followers的博弈场景,这个博弈的reward由leader决定,因此followers的利他行为是研究的重点。
–2022.8.2
3. Evolutionary Diversity Optimization with Clustering-based Selection for Reinforcement Learning
Yutong Wang∗, Ke Xue∗and Chao Qian†
State Key Laboratory for Novel Software Technology,
Nanjing University, Nanjing 210023, China
{wangyt, xuek, qianc}@lamda.nju.edu.cn
本文旨在解决high rewards和diverse behaviors问题,针对OD-RL算法在计算Pareto front时,可能会产生相似行为空间问题,本文提出了先分类再选择的Evolutionary Diversity Optimization algorithm with Clustering-based Selection (EDO-CS) 算法,其中分类使用了经典的K-means算法,在挑选算法时会采用reward(评价策略的好坏)与div(评价策略与其他策略的平均距离)的加权平均作为评价指标,然后使用Evolutionary Strategy(ES)优化所选的策略,即通过采用种群策略进行梯度下降。前面提到的加权参数,则通过UCB方法自适应更新。
–20220804
4. LIGS: Learnable Intrinsic-Reward Generation Selection for Multi-Agent Learning
David Mguni1∗, Taher Jafferjee1, Jianhong Wang2, Oliver Slumbers1,5, Nicolas Perez-Nieves2,
Feifei Tong1, Li Yang3, Jiangcheng Zhu1, Yaodong Yang4, Jun Wang5
1 Huawei Technologies, 2 Imperial College London, 3Shanghaitech University, 4 Institute for AI, Peking University & BIGAI, 5 University College London
本文旨在解决多智能体系统中的协同探索问题,提升joint收益。为此本文使用intrinsic reward来激励对位置state的探索,并且,本文引入一个generator神经网络来自适应地学习intrinsic reward,为了提高学习效率,最后引入了switching control来决定哪些状态会使用intrinsic reward。
–20220805
5. Dealing with Non-Stationarity in MARL via Trust-Region Decomposition
Wenhao Li, XiangfengWang* , Bo Jin*, Junjie Sheng
School of Computer Science and Technology
East China Normal University
Shanghai, China
f52194501026@stu, xfwang@cs, bjin@cs, 52194501003@stug.ecnu.edu.cn
Hongyuan Zha
School of Data Science, The Chinese University of Hong Kong (Shenzhen)
Shenzhen Institute of Artificial Intelligence and Robotics for Society
Shenzhen, China
zhahy@cuhk.edu.cn
粗粗过了遍这篇文章,没有看很懂,本文的核心议题是为了解决MARL中,智能体策略的非稳定性问题,为此,本文提出了δ\deltaδ稳定性指标,然后,提出TRD-Net网络来评估联合策略的散度,随后即,基于评估值,提出MAMT来自适应调整智能体的本地策略更新。
–20220815
ICLR 2022 不求甚解阅读笔记--强化学习类(1)相关推荐
- 【阅读笔记】应用LRP,通过将相关性从模型的输出层反向传播到其输入层来解释基于RNN的DKT模型(一)
提示:Towards Interpretable Deep Learning Models for Knowledge Tracing将重点放在应用分层相关传播(LRP)方法,通过将相关性从模型的输出 ...
- 【论文阅读】ICLR 2022: Scene Transformer: A unified architecture for predicting future trajectories of ...
ICLR 2022: Scene Transformer: A unified architecture for predicting future trajectories of multiple ...
- 强化学习相关论文阅读笔记之稀疏奖励解决方法
注:该系列文章为强化学习相关论文的阅读笔记,欢迎指正! 论文题目:<深度强化学习中稀疏奖励问题研究综述> 文章目录 1. 论文介绍 2. 论文结构 3. 研究背景 3.1 解决稀疏奖励的必 ...
- 论文阅读笔记 1.《Open Flow: Enabling Innovation in Campus Networks》(2022.12.22)
论文阅读笔记 1.<Open Flow: Enabling Innovation in Campus Networks>(2022.12.22) 一.论文主要内容 二.对 OpenFlow ...
- 2022交通预测论文阅读笔记
前言 很久没有读交通预测的论文,突然发现工作后还是要读读最新的论文,关注学术界最新的工作和动向,保持学习.看了几篇22年会议上最新的论文,记录下笔记,因为是泛读的,全文不涉及公式,只描述了论文的大致思 ...
- ICLR 2022 | 在注意力中重新思考Softmax,商汤提出cosFormer实现多项SOTA
©作者 | 李文 单位 | 中南大学 研究方向 | 自然语言处理 最近读了一篇 ICLR 2022 的论文,对于 attention-softmax 的计算复杂度有了一定的了解,下面是对论文的翻译和笔 ...
- ICLR 2022入选论文线上分享预告:一作解读,不容错过
01 ICLR介绍 ICLR,全称为International Conference on Learning Representations(国际学习表征会议),自2013年成立至今仅九年的时间,它已 ...
- A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记
A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记 //2022.1.7 日下午16:00开始阅读 双阶段检测器示意图 单阶段检测器 ...
- ICLR 2022 | 绝艺学会打麻将,腾讯AI Lab提出全新策略优化算法ACH
感谢阅读腾讯AI Lab微信号第144篇文章.本文介绍「绝艺」在二人麻将游戏环境取得的进展,相关算法及benchmark已开源,论文被机器学习国际顶会 ICLR 2022 接收. 「绝艺」是腾讯AI ...
最新文章
- 走过2011,展望2012
- char、Varchar、nvarchar、ntext (转)
- APIO游记(5.19-5.23)
- JSON合并补丁程序:JSON-P 1.1概述系列
- linux下重新启动oracle
- 怎样用JS来添加CSS样式
- 企业最喜欢招聘什么样的Java程序员?谈谈我的看法
- tsp的理论和实践(10)tsp系列暂停一下
- python数组初始化_python怎么初始化数组
- 使用HighCharts实现实时数据展示
- OPNET14.5+WIN10+VS2010安装教程(附安装包)
- 用 Python 搭建解一元二次方程的计算器
- 逻辑架构和物理架构在架构设计中的应用
- 你的独立思考能力正在慢慢退化
- 文件加密共享防止转发-冷杉云盘
- python获取摄像头型号_python opencv设置摄像头分辨率以及各个参数的方法_python
- 【LWIP】初学STM32+LWIP+网络遇到的基础问题记录
- 几个好玩有趣的Python入门实例
- Android usb广播 ACTION_USB_DEVICE_ATTACHED流程源码分析
- “以换代充”两轮电动车换电柜引关注
热门文章
- S32K1xx系列MCU的Flash擦除与编程
- 【C++学习】类与对象(下)
- winform登陆功能案例
- Philosophy of life: growing flowers in your heart
- TP-LINK已经设置了端口映射但是外网还是访问不了服务器的问题解决
- Java从代理服务器中获取客户端真实IP的方法
- 数字孪生关键技术及标准
- 小度=Windows+Apple?
- make clean 和 make distclean区别-(转自秋水Leo)
- python关键字中文意思_中英文简单介绍Python关键字 -- Python Key Words