总结

agent用的HDRQN，multi-agent实现通过同时存储agent的trajectory，multi-task实现通过学习一个distilled agent

p.s. 同时存储agent的trajectory图画得真好啊

细节

rl用在multi-task上，主要是相关的task，agents share characteristics
本文是multi-agent，cooperative，independent，joint reward。
agent是deep recurrent q-networks，multi-task通过concurrent experience replay trajectories来实现

每个agent做出动作ai∈Aia_i \in \mathcal{A}_iai∈Ai，joint action为a=[a1,a2,…,an]\bold{a} = [a_1, a_2, \dots, a_n]a=[a1,a2,…,an]
环境从state s∈Ss \in \mathcal{S}s∈S进行转移，转移概率为P(s′∣s,a)=T(s,a,s′)P(s'|s, \bold{a}) = \mathcal{T}(s, \bold{a}, s')P(s′∣s,a)=T(s,a,s′)
在每个timestamp里，每个agent得到观测值oi∈Ωio_i \in \Omega_ioi∈Ωi，同时有joint obs为o=[o1,o2,…,on]\bold{o} = [o_1, o_2, \dots, o_n]o=[o1,o2,…,on]，其概率为P(o∣s′,a)=O(o,s′,a)P(\bold{o}|s', \bold{a}) = \mathcal{O}(\bold{o}, s', \bold{a})P(o∣s′,a)=O(o,s′,a)

CERTs/concurrent experience replay trajectoris，把每个agent的结果联合到一起存储起来。之前的MARL，不用replay buffer，是因为如果单独存agent的buffer，可能会让agent学到不同步的动作

HDRQN：Qi(oti,ht−1i,ai;θi)Q^i(o_t^i, h_{t-1}^i, a^i; \theta^i)Qi(oti,ht−1i,ai;θi)，在DQN的基础上，用2个学习率α,β\alpha, \betaα,β，其中0<β<α<10 < \beta < \alpha < 10<β<α<1
用target网络计算误差：δtb=ytb−Qb(otb,ht−1b,ab;θi)\delta_t^b = y_t^b - Q^b(o_t^b, h_{t-1}^b, a^b; \theta^i)δtb=ytb−Qb(otb,ht−1b,ab;θi)，当δ≥0\delta \geq 0δ≥0时，用α\alphaα，否则用β\betaβ

multi-agent实现方式
CERTs如下图，可以看到buffer里是存了所有agent同步的动作

每次学习时，从buffer里随机取t开始，t∈{−τ+1,…,He}t \in \{ -\tau + 1, \dots, H_e \}t∈{−τ+1,…,He}，其中τ\tauτ表示每次选的时长，HeH_eHe是最后一个t，上图的(b)，从上至下开始的时间分别是+1, -1, +2。对于超过有效的长度，用0在后面填充

multi-task实现方式
每个agent把sample出的结果以及q值保存下来（长度τ\tauτ），凑满batch个后，有一个minibatch的结果：B={<ot0b,Qt0b>,…,<ot0+τ−1b,Qt0+τ−1b>}b={1,…,B}\mathcal{B} = \{ <o_{t_0}^b, Q_{t_0}^b>, \dots, <o_{t_0+\tau - 1}^b, Q_{t_0 + \tau - 1}^b> \}_{b = \{1, \dots, B\}}B={<ot0b,Qt0b>,…,<ot0+τ−1b,Qt0+τ−1b>}b={1,…,B}。训练1个distilled DQRN，其损失函数为KL散度：
LKL=E∑a=1Aisoftmaxa(QtbT)ln⁡softmaxa(QtbT)softmax(Qt,Rb)L_{KL} = \mathbb{E} \sum_{a=1}^{A^i}softmax_a(\frac{Q_t^b}{T})\ln \frac{softmax_a(\frac{Q_t^b}{T})}{softmax(Q^b_{t,R})} LKL=Ea=1∑Aisoftmaxa(TQtb)lnsoftmax(Qt,Rb)softmaxa(TQtb)
其中：

Qt,RbQ^b_{t,R}Qt,Rb是distilled HDRQN输入与分任务agent相同的输入时的输出
TTT是softmax temperature

这个损失函数实际上就是希望能让distilled HDRQN在specific task上的输出和specific agent的输出相近

实验

single-task实验
baseline：Dec-DRQN，分开比较了single-agent和multi-agent
multi-task实验

Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability相关推荐

【论文阅读】Deep Transformer Q-Networks for Partially Observable Reinforcement Learning
Deep Transformer Q-Networks for Partially Observable Reinforcement Learning 1 本文解决了什么问题? 近年来,以 DQN 为 ...
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
CONTINOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文地址 https://arxiv.org/abs/1509.02971 个人翻译,并不权威 T ...
Inverse Reinforcement Learning 总结
目录文献 Imitation Learning IRL Maximum Entropy Inverse Reinforcement Learning Generative Advers ...
多智能体强化学习Multi agent，多任务强化学习Multi task以及多智能体多任务强化学习Multi agent Multi task概述
概述在我之前的工作中,我自己总结了一些多智能体强化学习的算法和通俗的理解. 首先,关于题目中提到的这三个家伙,大家首先想到的就是强化学习的五件套: 状态:s 奖励:r 动作值:Q 状态值:V 策略: ...
human-UAVs teamwork: task planning and deep reinforcement learning
最近在看human-UAV协作的文章,找到了一篇相关文章2020-Chinese Journal of Aeronautics- Coactive design of explainable agen ...
《Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning》译文
原文链接 https://arxiv.org/pdf/1709.10082v1.pdf Towards Optimally Decentralized Multi-Robot Collision Av ...
Multi task learning多任务学习背景简介
2020-06-16 23:22:33 本篇文章将介绍在机器学习中效果比较好的一种模式,多任务学习(Multi task Learning,MTL).已经有一篇机器之心翻译的很好的博文介绍多任务学习了 ...
Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems
Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems 移动边缘计算系统中任务卸载的深度强化学 ...
深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述作者: Kai Arulkumaran, Marc Peter Deisenroth ...

Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability

文章目录

总结

细节

实验

Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability相关推荐

最新文章

热门文章