human-UAVs teamwork: task planning and deep reinforcement learning
最近在看human-UAV协作的文章,找到了一篇相关文章2020-Chinese Journal of Aeronautics- Coactive design of explainable agent-based task planning and deep reinforcement learning for human-uavs teamwork
1. 主要内容:文章中采用协同设计的方法来分析任务所需的认知能力,并设计UAV或human的异质队友之间的相互依赖关系,以实现协调一致的协作
2. Contributions
面向human-UAV透明协作的混合自主协同框架,以团队工作为中心的框架;
基于可解释的agent的任务规划期→自主生成human-UAV协同计划;
深度学习方法→学习动态环境中考虑敌方威胁的种群行为和路径规划的最优策略。
3. human-UAV协作的可解释框架
1)协同设计模块
该模块分析human或UAV在联合活动中队友之间的相互依赖关系
Q1:该依赖关系是否包括UAV与human之间的依赖关系
2)基于agent的任务规划模块HATP
使用面向对象的编程语言
实体,代理,属性,method,action
将问题细化为计划树,并对计划树进行计算与修建
Q2:如何分解任务以及每个代理的行动的时间线
3)深度学习模块
通过深度强化学习解决固定翼UAV的leader-follower集群问题
a. 群体行为的深度学习CACER
MDP→CACER Continuous Actor-Critic algorithm with Experience Replay
CACER→3个Dense层→每个Dense层后面是一个ReLu函数激活函数
MLP MultiLayer Perceptron→表示状态空间映射到动作空间的actor
critic更新规则→TD预测
总结:确认基于强化学习的群体行为的模型
b. 一种无人机路径规划的深度强化学习→避免潜在威胁
情况评估SA→UAV路径规划器的前端功能
RGB模型→提出SA模型的结果,并根据RGB模型构建态势图
Q3:为什么使用RGB模型?
MDP模型在离散空间中构造
Dueling Double Deep Q-network D3QN→评估UAVstate-action价值函数
深度强化学习→惩罚或奖励→塑造代理行为:优先获得生存率or提前完成任务
c. Mixed-initiactive action selection
提出了一种结合符号任务规划和深度强化学习的混合主动行为选择模式
human-UAV控制界面对MAV进行人工控制,UAV可以跟随MAV成群飞行,也可以做出合理的决策
利用基于智能体的规划和深度学习的结合,设计了一种混合主动的人机协同任务选择范式
human-UAV协同的模式:
自治模式:每个代理都遵循HATP计划以及学习到的群集和路径规划政策;
跟随模式:人工监督任务的执行过程。UAV只需遵循human的指令即可;
混合启动模式:UAV评估潜在的威胁并提醒human注意潜在的威胁。
4. 实验
a. 任务环境
Unity实时开发平台
两架单任务侦查UAV+两架多任务UAV+一架多任务MAV
默认情况下,任务以自主模式启动,通过点击相应的按钮,可以激活多种模式
b. 基于agent的任务规划
UAV任务:search,surveillance,execution,BDA战斗区域毁坏评估
MAV任务:assignment,route planning,locate,confirm
Q:对于locate行为,不可通过UAV进行执行,然后借由通信模式,传递给MAV?
注:leader行为是由其操作者决定的,leader通过无线通信广播与follower进行通信
在整个任务中MAV具有监视任务执行过程的核心作用
c. 深度强化学习和混合主动行为选择
CACER测试学习到的群集行为
根据任务要求生成leader的动作,follower使用学习到的策略跟随leader
实验对比:CACER群集算法,基于DRL算法的DDPG,贪婪算法,模仿策略
D3QN算法训练UAV路径规划器
三、总结
1)文章中提出了一种可解释的human-UAV透明协作的框架
2)基于agent的任务规划器,一个复杂任务可以被分解成一系列可执行的子任务,规划结果以图形形式显示出来,以显示任务是如何分解的以及每个代理动作的时间线
3)设计一种深度强化学习来学习动态环境中考虑敌人威胁的群体行为和路径规划的最优路径
对这篇文章,作者使用human作为操作员,对MAV与UAV之间的协作进行描述,这种方式中,实际上human是作为leader,MAV与UAV作为follower,其二者皆由human进行决策
本文为个人阅读笔记,部分内容不完善,也有可能有误
human-UAVs teamwork: task planning and deep reinforcement learning相关推荐
- Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems
Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems 移动边缘计算系统中任务卸载的深度强化学 ...
- Path Planning for UAV Ground Target Tracking via Deep Reinforcement Learning(IEEE Access-2020)
论文阅读 看文章我觉得,先看摘要,摘要基本能够让你了解这篇文章做了什么,但做论文笔记我先会从介绍写起,最终回到摘要 Path Planning for UAV Ground Target Tracki ...
- 2018 Automatic View Planning with Multi-scale Deep Reinforcement Learning Agents具有多尺度深度的自动视图规划
目录 摘要 相关工作 方法 状态State 动作Action 奖励Reward 终端状态Terminal State 多尺度代理 实验 数据集 训练 结果 条件 接下来的工作 References 摘 ...
- 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...
- Deep Reinforcement Learning: Pong from Pixels翻译和简单理解
原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录 原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...
- 【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...
- Deep Reinforcement Learning 深度增强学习资源
http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...
- 【论】A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems
A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems 摘要 自行车共享为旅行提供了 ...
- 深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)
深度强化学习--概述 翻译说明 综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...
最新文章
- 如何选择分布式事务解决方案?
- seata分布式事务协调管理器是如何实现的
- java stream groupingBy
- php无框架开发web项目,web.framework
- Elasticsearch添加拼音搜索支持
- 优化算法|蚁群算法的理解及实现
- 雷云驱动2从云服务器,雷蛇云驱动 2 for mac(Mac雷蛇鼠标驱动设置工具)V1.88 官方版...
- C语言编程入门训练(一)
- directive-自定义指令
- 手写实现一个HashMap
- python 编码 乱码问题
- layui实现导出全部数据Excel
- 5.2 C语言练习(电报加密:输入一行电报文字,将字母变成其下一字母(如’a’变成’b’……’z’变成’a’其它字符不变)。)
- 杠铃策略--极稳极浪不内卷
- 009. 我在尼泊尔看雪山
- 武汉理工大学计算机科学导论 复习
- php操作rtf,是否可以使用PHP在网页内显示RTF文件? - php
- PCB电路设计规范细节
- 你在职场里是一个聪明人吗?装笨才是真聪明!
- SpringMVC——对Ajax的处理(包含 JSON )