human-UAVs teamwork: task planning and deep reinforcement learning

最近在看human-UAV协作的文章，找到了一篇相关文章2020-Chinese Journal of Aeronautics- Coactive design of explainable agent-based task planning and deep reinforcement learning for human-uavs teamwork

1. 主要内容：文章中采用协同设计的方法来分析任务所需的认知能力，并设计UAV或human的异质队友之间的相互依赖关系，以实现协调一致的协作

2. Contributions

面向human-UAV透明协作的混合自主协同框架，以团队工作为中心的框架；

基于可解释的agent的任务规划期→自主生成human-UAV协同计划；

深度学习方法→学习动态环境中考虑敌方威胁的种群行为和路径规划的最优策略。

3. human-UAV协作的可解释框架

1）协同设计模块

该模块分析human或UAV在联合活动中队友之间的相互依赖关系

Q1：该依赖关系是否包括UAV与human之间的依赖关系

2）基于agent的任务规划模块HATP

使用面向对象的编程语言

实体，代理，属性，method，action

将问题细化为计划树，并对计划树进行计算与修建

Q2：如何分解任务以及每个代理的行动的时间线

3）深度学习模块

通过深度强化学习解决固定翼UAV的leader-follower集群问题

a. 群体行为的深度学习CACER

MDP→CACER Continuous Actor-Critic algorithm with Experience Replay

CACER→3个Dense层→每个Dense层后面是一个ReLu函数激活函数

MLP MultiLayer Perceptron→表示状态空间映射到动作空间的actor

critic更新规则→TD预测

总结：确认基于强化学习的群体行为的模型

b. 一种无人机路径规划的深度强化学习→避免潜在威胁

情况评估SA→UAV路径规划器的前端功能

RGB模型→提出SA模型的结果，并根据RGB模型构建态势图

Q3：为什么使用RGB模型？

MDP模型在离散空间中构造

Dueling Double Deep Q-network D3QN→评估UAVstate-action价值函数

深度强化学习→惩罚或奖励→塑造代理行为：优先获得生存率or提前完成任务

c. Mixed-initiactive action selection

提出了一种结合符号任务规划和深度强化学习的混合主动行为选择模式

human-UAV控制界面对MAV进行人工控制，UAV可以跟随MAV成群飞行，也可以做出合理的决策

利用基于智能体的规划和深度学习的结合，设计了一种混合主动的人机协同任务选择范式

human-UAV协同的模式：

自治模式：每个代理都遵循HATP计划以及学习到的群集和路径规划政策；

跟随模式：人工监督任务的执行过程。UAV只需遵循human的指令即可；

混合启动模式：UAV评估潜在的威胁并提醒human注意潜在的威胁。

4. 实验

a. 任务环境

Unity实时开发平台

两架单任务侦查UAV+两架多任务UAV+一架多任务MAV

默认情况下，任务以自主模式启动，通过点击相应的按钮，可以激活多种模式

b. 基于agent的任务规划

UAV任务：search，surveillance，execution，BDA战斗区域毁坏评估

MAV任务：assignment，route planning，locate，confirm

Q：对于locate行为，不可通过UAV进行执行，然后借由通信模式，传递给MAV？

注：leader行为是由其操作者决定的，leader通过无线通信广播与follower进行通信

在整个任务中MAV具有监视任务执行过程的核心作用

c. 深度强化学习和混合主动行为选择

CACER测试学习到的群集行为

根据任务要求生成leader的动作，follower使用学习到的策略跟随leader

实验对比：CACER群集算法，基于DRL算法的DDPG，贪婪算法，模仿策略

D3QN算法训练UAV路径规划器

三、总结

1）文章中提出了一种可解释的human-UAV透明协作的框架

2）基于agent的任务规划器，一个复杂任务可以被分解成一系列可执行的子任务，规划结果以图形形式显示出来，以显示任务是如何分解的以及每个代理动作的时间线

3）设计一种深度强化学习来学习动态环境中考虑敌人威胁的群体行为和路径规划的最优路径

对这篇文章，作者使用human作为操作员，对MAV与UAV之间的协作进行描述，这种方式中，实际上human是作为leader，MAV与UAV作为follower，其二者皆由human进行决策

本文为个人阅读笔记，部分内容不完善，也有可能有误

human-UAVs teamwork: task planning and deep reinforcement learning相关推荐

Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems
Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems 移动边缘计算系统中任务卸载的深度强化学 ...
Path Planning for UAV Ground Target Tracking via Deep Reinforcement Learning(IEEE Access-2020)
论文阅读看文章我觉得,先看摘要,摘要基本能够让你了解这篇文章做了什么,但做论文笔记我先会从介绍写起,最终回到摘要 Path Planning for UAV Ground Target Tracki ...
2018 Automatic View Planning with Multi-scale Deep Reinforcement Learning Agents具有多尺度深度的自动视图规划
目录摘要相关工作方法状态State 动作Action 奖励Reward 终端状态Terminal State 多尺度代理实验数据集训练结果条件接下来的工作 References 摘 ...
深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述作者: Kai Arulkumaran, Marc Peter Deisenroth ...
Deep Reinforcement Learning: Pong from Pixels翻译和简单理解
原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...
【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...
Deep Reinforcement Learning 深度增强学习资源
http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料增强学习课程 David Silver (有视频和ppt): http:/ ...
【论】A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems
A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems 摘要自行车共享为旅行提供了 ...
深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)
深度强化学习--概述翻译说明综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...

human-UAVs teamwork: task planning and deep reinforcement learning

human-UAVs teamwork: task planning and deep reinforcement learning相关推荐

最新文章

热门文章