文章目录

  • 总结
  • 细节
  • 实验

总结

agent用的HDRQN,multi-agent实现通过同时存储agent的trajectory,multi-task实现通过学习一个distilled agent

p.s. 同时存储agent的trajectory图画得真好啊

细节

rl用在multi-task上,主要是相关的task,agents share characteristics
本文是multi-agent,cooperative,independent,joint reward。
agent是deep recurrent q-networks,multi-task通过concurrent experience replay trajectories来实现

每个agent做出动作ai∈Aia_i \in \mathcal{A}_iai​∈Ai​,joint action为a=[a1,a2,…,an]\bold{a} = [a_1, a_2, \dots, a_n]a=[a1​,a2​,…,an​]
环境从state s∈Ss \in \mathcal{S}s∈S进行转移,转移概率为P(s′∣s,a)=T(s,a,s′)P(s'|s, \bold{a}) = \mathcal{T}(s, \bold{a}, s')P(s′∣s,a)=T(s,a,s′)
在每个timestamp里,每个agent得到观测值oi∈Ωio_i \in \Omega_ioi​∈Ωi​,同时有joint obs为o=[o1,o2,…,on]\bold{o} = [o_1, o_2, \dots, o_n]o=[o1​,o2​,…,on​],其概率为P(o∣s′,a)=O(o,s′,a)P(\bold{o}|s', \bold{a}) = \mathcal{O}(\bold{o}, s', \bold{a})P(o∣s′,a)=O(o,s′,a)

CERTs/concurrent experience replay trajectoris,把每个agent的结果联合到一起存储起来。之前的MARL,不用replay buffer,是因为如果单独存agent的buffer,可能会让agent学到不同步的动作

HDRQN:Qi(oti,ht−1i,ai;θi)Q^i(o_t^i, h_{t-1}^i, a^i; \theta^i)Qi(oti​,ht−1i​,ai;θi),在DQN的基础上,用2个学习率α,β\alpha, \betaα,β,其中0<β<α<10 < \beta < \alpha < 10<β<α<1
用target网络计算误差:δtb=ytb−Qb(otb,ht−1b,ab;θi)\delta_t^b = y_t^b - Q^b(o_t^b, h_{t-1}^b, a^b; \theta^i)δtb​=ytb​−Qb(otb​,ht−1b​,ab;θi),当δ≥0\delta \geq 0δ≥0时,用α\alphaα,否则用β\betaβ

multi-agent实现方式
CERTs如下图,可以看到buffer里是存了所有agent同步的动作

每次学习时,从buffer里随机取t开始,t∈{−τ+1,…,He}t \in \{ -\tau + 1, \dots, H_e \}t∈{−τ+1,…,He​},其中τ\tauτ表示每次选的时长,HeH_eHe​是最后一个t,上图的(b),从上至下开始的时间分别是+1, -1, +2。对于超过有效的长度,用0在后面填充

multi-task实现方式
每个agent把sample出的结果以及q值保存下来(长度τ\tauτ),凑满batch个后,有一个minibatch的结果:B={<ot0b,Qt0b>,…,<ot0+τ−1b,Qt0+τ−1b>}b={1,…,B}\mathcal{B} = \{ <o_{t_0}^b, Q_{t_0}^b>, \dots, <o_{t_0+\tau - 1}^b, Q_{t_0 + \tau - 1}^b> \}_{b = \{1, \dots, B\}}B={<ot0​b​,Qt0​b​>,…,<ot0​+τ−1b​,Qt0​+τ−1b​>}b={1,…,B}​。训练1个distilled DQRN,其损失函数为KL散度:
LKL=E∑a=1Aisoftmaxa(QtbT)ln⁡softmaxa(QtbT)softmax(Qt,Rb)L_{KL} = \mathbb{E} \sum_{a=1}^{A^i}softmax_a(\frac{Q_t^b}{T})\ln \frac{softmax_a(\frac{Q_t^b}{T})}{softmax(Q^b_{t,R})} LKL​=Ea=1∑Ai​softmaxa​(TQtb​​)lnsoftmax(Qt,Rb​)softmaxa​(TQtb​​)​
其中:

  1. Qt,RbQ^b_{t,R}Qt,Rb​是distilled HDRQN输入与分任务agent相同的输入时的输出
  2. TTT是softmax temperature

这个损失函数实际上就是希望能让distilled HDRQN在specific task上的输出和specific agent的输出相近

实验

single-task实验
baseline:Dec-DRQN,分开比较了single-agent和multi-agent
multi-task实验

Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability相关推荐

  1. 【论文阅读】Deep Transformer Q-Networks for Partially Observable Reinforcement Learning

    Deep Transformer Q-Networks for Partially Observable Reinforcement Learning 1 本文解决了什么问题? 近年来,以 DQN 为 ...

  2. DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

    CONTINOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文地址 https://arxiv.org/abs/1509.02971 个人翻译,并不权威 T ...

  3. Inverse Reinforcement Learning 总结

    目录​​​​​​​ 文献 Imitation Learning IRL Maximum Entropy Inverse Reinforcement Learning Generative Advers ...

  4. 多智能体强化学习Multi agent,多任务强化学习Multi task以及多智能体多任务强化学习Multi agent Multi task概述

    概述 在我之前的工作中,我自己总结了一些多智能体强化学习的算法和通俗的理解. 首先,关于题目中提到的这三个家伙,大家首先想到的就是强化学习的五件套: 状态:s 奖励:r 动作值:Q 状态值:V 策略: ...

  5. human-UAVs teamwork: task planning and deep reinforcement learning

    最近在看human-UAV协作的文章,找到了一篇相关文章2020-Chinese Journal of Aeronautics- Coactive design of explainable agen ...

  6. 《Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning》译文

    原文链接 https://arxiv.org/pdf/1709.10082v1.pdf Towards Optimally Decentralized Multi-Robot Collision Av ...

  7. Multi task learning多任务学习背景简介

    2020-06-16 23:22:33 本篇文章将介绍在机器学习中效果比较好的一种模式,多任务学习(Multi task Learning,MTL).已经有一篇机器之心翻译的很好的博文介绍多任务学习了 ...

  8. Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems

    Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems 移动边缘计算系统中任务卸载的深度强化学 ...

  9. 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

    A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...

最新文章

  1. ARM CPU神经网络自动调度
  2. 数据结构四——散列表(下)
  3. 1 WM配置-企业结构-定义-创建仓库号(Warehouse Number)
  4. mac mysql 的lb_简单Mysql的lb集群
  5. 量子计算机退相干问题怎么办,量子退相干
  6. 力扣-5773(243周赛)插入后的最大值
  7. windows定时自动运行R脚本的正确姿势
  8. MVVM设计模式和在WPF中的实现(四) 事件绑定
  9. 线性时间选择(TOP K)
  10. python3_实现BP神经网络 + BP神经网络应用实例
  11. redis雪崩和穿透、击穿的解决方法
  12. Magento给Newsletter Subscribers添加状态选项(默认只有Not Activated,Subscribed,Unsubscribed,Unconfirmed)
  13. edp和edt哪个好_香水edp和edt的区别
  14. Chi-squared 卡方检验
  15. 在虚幻引擎中使用Python批处理4_:贴图参数设置
  16. 【Games104-现代游戏引擎0102】引擎架构分层个人笔记
  17. 请求因HTTP状态401失败:Unauthorized 的原因?
  18. 蓝牙遥控器获取电量GATT
  19. 什么是模糊神经网络结构,模糊神经网络应用实例
  20. 方法----解决win10笔记本电脑连接电源无法休眠只是黑屏,使用电池可以正常休眠。

热门文章

  1. 编程c语言庄子天下篇,庄子天下篇.doc
  2. Mysql高13位ISBN转9位_C#ISBN10位编号转换13位
  3. 腾讯开放平台认领应用 遇到的问题
  4. 【榜单公布】新星计划·第三季获奖名单出炉(第一批)
  5. php编写分页接口步骤
  6. 深度学习MEMC插帧论文列表paper list
  7. 第八章 Python计算生态
  8. java.lang.IllegalArgumentException: Result Maps collection does not contain value for com.sjm.emp.da
  9. mysql卜耀华电子书_PHP+MYSQL网站开发与实践教程/卜耀华
  10. Introduction to 3D Object Detection with Lidar