Drones Chasing Drones: Reinforcement Learning and Deep Search Area Proposal

Abstract:
- 1.Introduction
- 2. Proposed Framework(提出的结构框架)
- - 2.1使用强化学习方法
  - - 2.1.1监督学习的运用(如何训练强化学习)
    - 2.1.2强化学习
  - 2.2深度学习目标检测和跟踪
  - 2.3无人机控制（深度学习目标检测和跟踪算法）

该论文是蒙克顿大学Moulay A.Akhloufi教授2019年发表的一篇利用深度学习和强化学习两种算法进行无人机追踪无人机的论文。这里我们对于模型做一个总结。

Abstract:

无人驾驶飞行器(UAV)目前十分流行，多无人机群也是研究的热门，本文主要研究一个无人机（追踪无人机）对另一个无人机（目标无人机）的追踪。第一种方法使用深度强化学习来预测应用于跟随无人机的动作，以跟踪目标无人机。第二种方法使用深度目标检测器和搜索区域建议(SAP)来预测目标无人机在下一帧中的位置，以用于跟踪目的（其实是使用了强化学习的方法）。两种方法的有效性在室外实验中得到了验证。

1.Introduction

目标：使用深度学习和从其中一个无人机捕获的图像来检测和跟踪第二个移动无人机。

在这里对于之前一些经典的方法进行了回顾

论文名称	所作工作简述
[1] Multi-UAV collaborative monocular SLAM. 2017 (ICRA)	建议使用多个小型无人机作为代理，并在单目同时定位和映射(SLAM)应用程序中协作
[2] Monocular Vision based Collaborative Localization for Micro Aerial Vehicle Swarms. 2018 (ICUAS)	提出了一种基于视觉的多微飞行器协作定位框架(MAVS), 他们使用 MAVS 相机拍摄的图像来估计姿态
[3] Search and Rescue under the Forest Canopyusing Multiple UAS 2018(ISER)	在茂密的森林峡谷下使用 GPS 是不可靠的地区使用机载计算和无线通信
[4] A Survey on Aerial Swarm Robotics 2018 IEEE Trans. Robot	回顾航空群机器人的方法和技术(最先进的理论工具，开发和应用于空中蜂群的工具)
[5] A pursuit-evasion game between unmanned aerial vehicles. 2014 (ICINCO)	在三维环境下用无人机模拟两人追逃游戏的方法，提出了用两个完全相同的四转子来解决寻踪问题的博弈论框架
[6] Minimum time UAV pursuit of a moving ground target using partial information. 2015 (ICUAS)	使用无人机搜索在道路上移动的目标
[7] Realization of pursuit-evasion games with unmanned aerialvehicles. 2017 (ICUAS)	使用无人机搜索在道路上移动的目标。地面传感器被用来触发无人机的搜索
[8] Realization of pursuit-evasion games with unmanned aerialvehicles.2017 (ICUAS)	提出了一种与无人机合作的追逃博弈。他们提出了一个游戏理论解决方案，并显示了它的适用性，使用多个实际的户外飞行实验与六旋翼无人机。
[9] Cooperative Surveillance and Pursuit Using Unmanned AerialVehicles and Unattended Ground Sensors 2015（Sensor）	分析了无人机团队进行监视和追求的路径规划问题。无人机依靠与地面传感器通信来检测潜在的入侵者。
[10] UAV Mobile Ground Target Pursuit Algorithm.	提出了一种使用固定翼无人机的地面目标寻踪算法。他们提出了一种生成航路点并将无人机引导到最新航路点的方法。
[11] Game of Drones: UAV Pursuit-Evasion Game with Type-2 Fuzzy Logic Controllers tuned by Reinforcement Learning.	作者对四翼飞机在追逃场景中的控制感兴趣。他们建议使用强化学习来调整 2 型 Takagi-Sugeno-Kang 模糊逻辑控制器 (TSK-FLCs)。
[12] UAV pursuit using reinforcement learning.	使用深度卷积神经网络(CNN)根据先前的姿态和当前帧提取目标姿态。
[13] Learning from Delayed Rewards.	强化学习Qlearning算法
[14] Vision-based deep learning for UAVs collaboration.	深度目标检测方法使用无人机捕获的图像来检测和跟踪另一架无人机
[15]UAV Pursuit-Evasion using Deep Learning and Search Area Proposal.	深度目标检测方法使用无人机捕获的图像来检测和跟踪另一架无人机

2. Proposed Framework(提出的结构框架)

检测到的目标无人机（检测到的包围盒）的位置被发送到一个高级控制器，该控制器决定发送给跟随者无人机的控制，以保持目标接近其图像帧的中心。

2.1使用强化学习方法

该体系结构基于 ADNet（动作决策网络）。该体系结构中使用的核心网络是基于 VGG-M 的第一层（三个卷积层(Conv)和两个完全连接层(FCS)组成）。
三个卷积层：使用预先训练的 VGG-M。每个层都有一个局部响应归一化和最大池化。
全连接层：使用drouout进行正则化。用 ReLU 作为激活。完全连接的层 FC5与动作历史连接。
Softmax层：最后一层（动作层），用于获取每个预测动作的概率。

强化学习部分
**action：**可能的目标运动，我们定义了三种类型的操作：平移、调整大小和停止，每个动作都被编写成一个one-hot向量。
**state：**由目标包围框和动作历史形成的对。
**reward：**IOU（between the bounding box and the ground truth.）这里我们设置的阈值时0.7.
在迭代期间，奖励设置为零。当预测的动作是“停止”或当我们陷入振荡模式，如“左，右，左”，奖励更新如下：

s_t ：当前状态
b_t：当前检测到的边界框
G：ground truth

2.1.1监督学习的运用(如何训练强化学习)

我们捕获了多个视频序列，并标记了我们的目标的位置（GT），作为数据集。对GT加高斯噪声来获得（带噪声的边界框和动作）对。
训练网络包括估计使用噪声盒预测的最佳动作。我们优化了一个目标函数，其目的是在检测到的（噪声）边界框和相应的GT的IOU最大化。

action_i：预测的动作
f_b(b_i，a)：应用于边界框的动作集，以使其更接近地面真相包围盒 GT

2.1.2强化学习

在强化学习中，最重要的部分是制定最优策略policy，使reward最大化。它允许考虑action历史。在本工作中，我们使用蒙特卡罗策略差分算法（一种强化学习方法），它直接根据policy梯度更新策略权重，以优化获得的reward。这个策略规则是由一下方程给出

$\theta：权重
$\alpha：学习速率
$\pi(s_t,a_t)：将action映射到概率的策略

2.2深度学习目标检测和跟踪

检测用 YOLOv2（YOLO9000）进行一种用于目标检测的深卷积神经网络。为了跟踪无人机，我们开发了一种基于检测到的边界框坐标的高级控制算法。即目标检测+控制算法。这种方法能够以每秒 30 帧(FPS)的速度处理视频，同时将目标检测的平均精度(MAP)保持在 50%以上。
YOLOv2：它是一种流行的 24 层深卷积神经网络，用于目标检测。YOLOv2从大小为 224x224 像素的图像开始进行分类器训练，然后用 448x448 图像调整这个分类器。使用anchor，对象检测器以我们的类置信度输出张量。在这种情况下，我们训练它识别无人机和非无人机（这里进仅仅只有一个类别，加上背景的话是2个）。
使用搜索区域建议（SAP)：使用粒子滤波算法，这里简要介绍粒子滤波算法。粒子过滤器是一组用于解决概率滤波问题的算法。目标是估计动态系统的状态，只有部分信息和噪声应用于捕获这些信息的传感器。生成一组粒子，每个粒子都有一个权重。最好的粒子是最接近系统下一个状态的粒子。这样，我们就可以很容易地预测给定以前状态的系统的下一个状态。当运动可以经历非线性轨迹时，这些算法在目标跟踪应用中非常流行。
粒子滤波算法预测目标无人机（Target）的下一个位置。将 YOLO（目标边界框）的输出作为粒子滤波器算法的输入，并预测下一个目标位置。有了这些预测，我们可以减少搜索区域（预测位置周围的兴趣区域）。通过这种SAP方法，改进了目标（Target）在远离跟随者（Follower）（超过 5 米）时的检测。没有 SAP，深度CNN很难在目标位于很远的地方发现目标，因为图像中的无人机尺寸很小。
带有搜索区域建议的深度目标检测器结构如下

预测的结果demo如下

重量较高的粒子（红色）用于检测感兴趣的区域。我们可以看到预测的区域（左边的小图像），其中粒子滤波器估计无人机的位置。绿色包围框是该区域检测的结果。白色包围框是与投射到整个框架上的绿色框相对应的框。

2.3无人机控制（深度学习目标检测和跟踪算法）

当跟随者无人机（Follower）检测到目标无人机（Target）时，需要控制其运动以跟随目标。我们使用深度神经网络返回的包围盒来估计目标无人机的相对位置，并计算必要的控制。我们根据得到的数据建立了一个视觉伺服。发送给无人机的控制是为了使目标靠近图像的中心。有了这种高水平的控制，我们可以跟随无人机在以下方向飞行：右，左，上，下，前进。无人机内置控制器负责剩余的调整，以保持轨迹和运动平稳。对于强化学习算法，这些控件是从生成的动作集来预测的。

图 6 显示图像的中心（视频帧）、目标位置、用于估计控件的向量以及发送给无人机机载控制器的高级控件。

虽然无人机控制的四个方向的估计是直接向前的，但在没有三维数据的情况下估计前向运动可能是具有挑战性的。为了解决这个问题，我们开发了一个基于无人机大小的简单估计。 YOLOv2深卷积神经网络很好地估计了最接近目标的包围盒。得到的坐标给出了无人机尺寸的良好估计。此大小与参考大小进行比较，当刻度低于定义的阈值时，将生成向前移动控制。这样，跟随者无人机向前移动，接近目标无人机，直到估计的目标无人机大小在定义的公差范围内。
这种方法需要在飞行之前进行初始化步骤。在我们的实验中，我们使用了定位在30厘米处的无人机的大小作为参考。

Drones Chasing Drones: Reinforcement Learning and Deep Search Area Proposal（无人机追逐无人机：强化学习和深度搜索区域建议）相关推荐

论文笔记（十六）：Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning
Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning 文章概括摘要 1 介绍 2 大规模并 ...
RLHF：基于人类反馈（Human Feedback）对语言模型进行强化学习【Reinforcement Learning from Human Feedback】
HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理--RLHF. 笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带 ...
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 来源背景 Motivation 强化学习训练过程实 ...
Proximal Distilled Evolutionary Reinforcement Learning
论文链接:论文传送门官方pytorch的代码实现:代码传送门介绍上一篇讲的进化强化学习ERL(evolutionary reinforcement learning)是简单的将进化算法和强化学习 ...
[论文翻译]Actor-Attention-Critic for Multi-Agent Reinforcement Learning
Hi,论文翻译仅供参考,想了解细节还是建议阅读原文论文链接:Actor-Attention-Critic for Multi-Agent Reinforcement Learning 引入注意力机制 ...
《强化学习周刊》第42期：DPIN、鲁棒元强化学习、Deep dispatching
No.42 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)
深度强化学习--概述翻译说明综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...
18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...

Drones Chasing Drones: Reinforcement Learning and Deep Search Area Proposal（无人机追逐无人机：强化学习和深度搜索区域建议）