Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability
文章目录
- 总结
- 细节
- 实验
总结
agent用的HDRQN,multi-agent实现通过同时存储agent的trajectory,multi-task实现通过学习一个distilled agent
p.s. 同时存储agent的trajectory图画得真好啊
细节
rl用在multi-task上,主要是相关的task,agents share characteristics
本文是multi-agent,cooperative,independent,joint reward。
agent是deep recurrent q-networks,multi-task通过concurrent experience replay trajectories来实现
每个agent做出动作ai∈Aia_i \in \mathcal{A}_iai∈Ai,joint action为a=[a1,a2,…,an]\bold{a} = [a_1, a_2, \dots, a_n]a=[a1,a2,…,an]
环境从state s∈Ss \in \mathcal{S}s∈S进行转移,转移概率为P(s′∣s,a)=T(s,a,s′)P(s'|s, \bold{a}) = \mathcal{T}(s, \bold{a}, s')P(s′∣s,a)=T(s,a,s′)
在每个timestamp里,每个agent得到观测值oi∈Ωio_i \in \Omega_ioi∈Ωi,同时有joint obs为o=[o1,o2,…,on]\bold{o} = [o_1, o_2, \dots, o_n]o=[o1,o2,…,on],其概率为P(o∣s′,a)=O(o,s′,a)P(\bold{o}|s', \bold{a}) = \mathcal{O}(\bold{o}, s', \bold{a})P(o∣s′,a)=O(o,s′,a)
CERTs/concurrent experience replay trajectoris,把每个agent的结果联合到一起存储起来。之前的MARL,不用replay buffer,是因为如果单独存agent的buffer,可能会让agent学到不同步的动作
HDRQN:Qi(oti,ht−1i,ai;θi)Q^i(o_t^i, h_{t-1}^i, a^i; \theta^i)Qi(oti,ht−1i,ai;θi),在DQN的基础上,用2个学习率α,β\alpha, \betaα,β,其中0<β<α<10 < \beta < \alpha < 10<β<α<1
用target网络计算误差:δtb=ytb−Qb(otb,ht−1b,ab;θi)\delta_t^b = y_t^b - Q^b(o_t^b, h_{t-1}^b, a^b; \theta^i)δtb=ytb−Qb(otb,ht−1b,ab;θi),当δ≥0\delta \geq 0δ≥0时,用α\alphaα,否则用β\betaβ
multi-agent实现方式
CERTs如下图,可以看到buffer里是存了所有agent同步的动作
每次学习时,从buffer里随机取t开始,t∈{−τ+1,…,He}t \in \{ -\tau + 1, \dots, H_e \}t∈{−τ+1,…,He},其中τ\tauτ表示每次选的时长,HeH_eHe是最后一个t,上图的(b)
,从上至下开始的时间分别是+1, -1, +2
。对于超过有效的长度,用0在后面填充
multi-task实现方式
每个agent把sample出的结果以及q值保存下来(长度τ\tauτ),凑满batch个后,有一个minibatch的结果:B={<ot0b,Qt0b>,…,<ot0+τ−1b,Qt0+τ−1b>}b={1,…,B}\mathcal{B} = \{ <o_{t_0}^b, Q_{t_0}^b>, \dots, <o_{t_0+\tau - 1}^b, Q_{t_0 + \tau - 1}^b> \}_{b = \{1, \dots, B\}}B={<ot0b,Qt0b>,…,<ot0+τ−1b,Qt0+τ−1b>}b={1,…,B}。训练1个distilled DQRN,其损失函数为KL散度:
LKL=E∑a=1Aisoftmaxa(QtbT)lnsoftmaxa(QtbT)softmax(Qt,Rb)L_{KL} = \mathbb{E} \sum_{a=1}^{A^i}softmax_a(\frac{Q_t^b}{T})\ln \frac{softmax_a(\frac{Q_t^b}{T})}{softmax(Q^b_{t,R})} LKL=Ea=1∑Aisoftmaxa(TQtb)lnsoftmax(Qt,Rb)softmaxa(TQtb)
其中:
- Qt,RbQ^b_{t,R}Qt,Rb是distilled HDRQN输入与分任务agent相同的输入时的输出
- TTT是softmax temperature
这个损失函数实际上就是希望能让distilled HDRQN在specific task上的输出和specific agent的输出相近
实验
single-task实验
baseline:Dec-DRQN,分开比较了single-agent和multi-agent
multi-task实验
Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability相关推荐
- 【论文阅读】Deep Transformer Q-Networks for Partially Observable Reinforcement Learning
Deep Transformer Q-Networks for Partially Observable Reinforcement Learning 1 本文解决了什么问题? 近年来,以 DQN 为 ...
- DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
CONTINOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文地址 https://arxiv.org/abs/1509.02971 个人翻译,并不权威 T ...
- Inverse Reinforcement Learning 总结
目录 文献 Imitation Learning IRL Maximum Entropy Inverse Reinforcement Learning Generative Advers ...
- 多智能体强化学习Multi agent,多任务强化学习Multi task以及多智能体多任务强化学习Multi agent Multi task概述
概述 在我之前的工作中,我自己总结了一些多智能体强化学习的算法和通俗的理解. 首先,关于题目中提到的这三个家伙,大家首先想到的就是强化学习的五件套: 状态:s 奖励:r 动作值:Q 状态值:V 策略: ...
- human-UAVs teamwork: task planning and deep reinforcement learning
最近在看human-UAV协作的文章,找到了一篇相关文章2020-Chinese Journal of Aeronautics- Coactive design of explainable agen ...
- 《Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning》译文
原文链接 https://arxiv.org/pdf/1709.10082v1.pdf Towards Optimally Decentralized Multi-Robot Collision Av ...
- Multi task learning多任务学习背景简介
2020-06-16 23:22:33 本篇文章将介绍在机器学习中效果比较好的一种模式,多任务学习(Multi task Learning,MTL).已经有一篇机器之心翻译的很好的博文介绍多任务学习了 ...
- Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems
Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems 移动边缘计算系统中任务卸载的深度强化学 ...
- 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...
最新文章
- ARM CPU神经网络自动调度
- 数据结构四——散列表(下)
- 1 WM配置-企业结构-定义-创建仓库号(Warehouse Number)
- mac mysql 的lb_简单Mysql的lb集群
- 量子计算机退相干问题怎么办,量子退相干
- 力扣-5773(243周赛)插入后的最大值
- windows定时自动运行R脚本的正确姿势
- MVVM设计模式和在WPF中的实现(四) 事件绑定
- 线性时间选择(TOP K)
- python3_实现BP神经网络 + BP神经网络应用实例
- redis雪崩和穿透、击穿的解决方法
- Magento给Newsletter Subscribers添加状态选项(默认只有Not Activated,Subscribed,Unsubscribed,Unconfirmed)
- edp和edt哪个好_香水edp和edt的区别
- Chi-squared 卡方检验
- 在虚幻引擎中使用Python批处理4_:贴图参数设置
- 【Games104-现代游戏引擎0102】引擎架构分层个人笔记
- 请求因HTTP状态401失败:Unauthorized 的原因?
- 蓝牙遥控器获取电量GATT
- 什么是模糊神经网络结构,模糊神经网络应用实例
- 方法----解决win10笔记本电脑连接电源无法休眠只是黑屏,使用电池可以正常休眠。
热门文章
- 编程c语言庄子天下篇,庄子天下篇.doc
- Mysql高13位ISBN转9位_C#ISBN10位编号转换13位
- 腾讯开放平台认领应用 遇到的问题
- 【榜单公布】新星计划·第三季获奖名单出炉(第一批)
- php编写分页接口步骤
- 深度学习MEMC插帧论文列表paper list
- 第八章 Python计算生态
- java.lang.IllegalArgumentException: Result Maps collection does not contain value for com.sjm.emp.da
- mysql卜耀华电子书_PHP+MYSQL网站开发与实践教程/卜耀华
- Introduction to 3D Object Detection with Lidar