1. Model-augmented Prioritized Experience Replay

Youngmin Oh1, Jinwoo Shin2, Eunho Yang2,3, Sung Ju Hwang2,31Samsung Advanced Institute of Technology
2 Korea Advanced Institute of Science and Technology
3 AITRICS

本文是PER( Prioritized Experience Replay)的改进,在进行优先级计算时,进一步考虑了对transition的评估,即称为模型增强(model- augment)的PER

– 2022.7.29

2. Learning Altruistic Behaviours in Reinforcement Learning without External Rewards

Tim Franzmeyer
University of Oxford
frtim@robots.ox.ac.uk
Mateusz Malinowski
DeepMind
mateuszm@google.com
Joao F. Henriques ˜
University of Oxford
joao@robots.ox.ac.uk

本文针对的是task-agnostic(任务不可知)场景,即reward可能是未知的,来促进智能体的利他行为,为此提出了他者选择(choice of others)这一概念,进而通过最大化他者选择达到利他行为涌现的目的。choice of others使用未来state的存在数量进行表示,最后可简化为action分布的香农熵。本文针对的是存在leader与followers的博弈场景,这个博弈的reward由leader决定,因此followers的利他行为是研究的重点。

–2022.8.2

3. Evolutionary Diversity Optimization with Clustering-based Selection for Reinforcement Learning

Yutong Wang∗, Ke Xue∗and Chao Qian†
State Key Laboratory for Novel Software Technology,
Nanjing University, Nanjing 210023, China
{wangyt, xuek, qianc}@lamda.nju.edu.cn

本文旨在解决high rewards和diverse behaviors问题,针对OD-RL算法在计算Pareto front时,可能会产生相似行为空间问题,本文提出了先分类再选择的Evolutionary Diversity Optimization algorithm with Clustering-based Selection (EDO-CS) 算法,其中分类使用了经典的K-means算法,在挑选算法时会采用reward(评价策略的好坏)与div(评价策略与其他策略的平均距离)的加权平均作为评价指标,然后使用Evolutionary Strategy(ES)优化所选的策略,即通过采用种群策略进行梯度下降。前面提到的加权参数,则通过UCB方法自适应更新。

–20220804

4. LIGS: Learnable Intrinsic-Reward Generation Selection for Multi-Agent Learning

David Mguni1∗, Taher Jafferjee1, Jianhong Wang2, Oliver Slumbers1,5, Nicolas Perez-Nieves2,
Feifei Tong1, Li Yang3, Jiangcheng Zhu1, Yaodong Yang4, Jun Wang5
1 Huawei Technologies, 2 Imperial College London, 3Shanghaitech University, 4 Institute for AI, Peking University & BIGAI, 5 University College London

本文旨在解决多智能体系统中的协同探索问题,提升joint收益。为此本文使用intrinsic reward来激励对位置state的探索,并且,本文引入一个generator神经网络来自适应地学习intrinsic reward,为了提高学习效率,最后引入了switching control来决定哪些状态会使用intrinsic reward。

–20220805

5. Dealing with Non-Stationarity in MARL via Trust-Region Decomposition

Wenhao Li, XiangfengWang* , Bo Jin*, Junjie Sheng
School of Computer Science and Technology
East China Normal University
Shanghai, China
f52194501026@stu, xfwang@cs, bjin@cs, 52194501003@stug.ecnu.edu.cn
Hongyuan Zha
School of Data Science, The Chinese University of Hong Kong (Shenzhen)
Shenzhen Institute of Artificial Intelligence and Robotics for Society
Shenzhen, China
zhahy@cuhk.edu.cn

粗粗过了遍这篇文章,没有看很懂,本文的核心议题是为了解决MARL中,智能体策略的非稳定性问题,为此,本文提出了δ\deltaδ稳定性指标,然后,提出TRD-Net网络来评估联合策略的散度,随后即,基于评估值,提出MAMT来自适应调整智能体的本地策略更新。

–20220815

ICLR 2022 不求甚解阅读笔记--强化学习类(1)相关推荐

  1. 【阅读笔记】应用LRP,通过将相关性从模型的输出层反向传播到其输入层来解释基于RNN的DKT模型(一)

    提示:Towards Interpretable Deep Learning Models for Knowledge Tracing将重点放在应用分层相关传播(LRP)方法,通过将相关性从模型的输出 ...

  2. 【论文阅读】ICLR 2022: Scene Transformer: A unified architecture for predicting future trajectories of ...

    ICLR 2022: Scene Transformer: A unified architecture for predicting future trajectories of multiple ...

  3. 强化学习相关论文阅读笔记之稀疏奖励解决方法

    注:该系列文章为强化学习相关论文的阅读笔记,欢迎指正! 论文题目:<深度强化学习中稀疏奖励问题研究综述> 文章目录 1. 论文介绍 2. 论文结构 3. 研究背景 3.1 解决稀疏奖励的必 ...

  4. 论文阅读笔记 1.《Open Flow: Enabling Innovation in Campus Networks》(2022.12.22)

    论文阅读笔记 1.<Open Flow: Enabling Innovation in Campus Networks>(2022.12.22) 一.论文主要内容 二.对 OpenFlow ...

  5. 2022交通预测论文阅读笔记

    前言 很久没有读交通预测的论文,突然发现工作后还是要读读最新的论文,关注学术界最新的工作和动向,保持学习.看了几篇22年会议上最新的论文,记录下笔记,因为是泛读的,全文不涉及公式,只描述了论文的大致思 ...

  6. ICLR 2022 | 在注意力中重新思考Softmax,商汤提出cosFormer实现多项SOTA

    ©作者 | 李文 单位 | 中南大学 研究方向 | 自然语言处理 最近读了一篇 ICLR 2022 的论文,对于 attention-softmax 的计算复杂度有了一定的了解,下面是对论文的翻译和笔 ...

  7. ICLR 2022入选论文线上分享预告:一作解读,不容错过

    01 ICLR介绍 ICLR,全称为International Conference on Learning Representations(国际学习表征会议),自2013年成立至今仅九年的时间,它已 ...

  8. A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记

    A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记 //2022.1.7 日下午16:00开始阅读 双阶段检测器示意图 单阶段检测器 ...

  9. ICLR 2022 | 绝艺学会打麻将,腾讯AI Lab提出全新策略优化算法ACH

    感谢阅读腾讯AI Lab微信号第144篇文章.本文介绍「绝艺」在二人麻将游戏环境取得的进展,相关算法及benchmark已开源,论文被机器学习国际顶会 ICLR 2022 接收. 「绝艺」是腾讯AI ...

最新文章

  1. 走过2011,展望2012
  2. char、Varchar、nvarchar、ntext (转)
  3. APIO游记(5.19-5.23)
  4. JSON合并补丁程序:JSON-P 1.1概述系列
  5. linux下重新启动oracle
  6. 怎样用JS来添加CSS样式
  7. 企业最喜欢招聘什么样的Java程序员?谈谈我的看法
  8. tsp的理论和实践(10)tsp系列暂停一下
  9. python数组初始化_python怎么初始化数组
  10. 使用HighCharts实现实时数据展示
  11. OPNET14.5+WIN10+VS2010安装教程(附安装包)
  12. 用 Python 搭建解一元二次方程的计算器
  13. 逻辑架构和物理架构在架构设计中的应用
  14. 你的独立思考能力正在慢慢退化
  15. 文件加密共享防止转发-冷杉云盘
  16. python获取摄像头型号_python opencv设置摄像头分辨率以及各个参数的方法_python
  17. 【LWIP】初学STM32+LWIP+网络遇到的基础问题记录
  18. 几个好玩有趣的Python入门实例
  19. Android usb广播 ACTION_USB_DEVICE_ATTACHED流程源码分析
  20. “以换代充”两轮电动车换电柜引关注

热门文章

  1. S32K1xx系列MCU的Flash擦除与编程
  2. 【C++学习】类与对象(下)
  3. winform登陆功能案例
  4. Philosophy of life: growing flowers in your heart
  5. TP-LINK已经设置了端口映射但是外网还是访问不了服务器的问题解决
  6. Java从代理服务器中获取客户端真实IP的方法
  7. 数字孪生关键技术及标准
  8. 小度=Windows+Apple?
  9. make clean 和 make distclean区别-(转自秋水Leo)
  10. python关键字中文意思_中英文简单介绍Python关键字 -- Python Key Words