Application of Deep Reinforcement Learning in Maneuver Planning of Beyond-Visual-Range Air Combat

构建基本作战环境：飞行运动模型、相对运动模型和导弹攻击模型
智能体与环境交互的机动决策框架
设计agent训练的奖励函数
提出了感知情境层和值拟合层来取代DQN中的策略网络

超视距空战难点

导弹作战战术机制依靠专业飞行员经验
真实训练数据少

针对导弹攻击区域，提出导弹杀伤范围
提出基本奖励值和态势奖励值
改进的DQN，利用LSTM单元构建感知情境网络

2 空战环境设计

飞行运动模型

x ˙ , y ˙ , z ˙ \dot{x}, \dot{y}, \dot{z} x˙,y˙,z˙ 是速度在每个轴上的分量。
γ , ψ \gamma, \psi γ,ψ 分别表示飞机的俯仰角和偏航角。

机体坐标系
原点O取在飞机质心处, X轴指向机头, Y轴指向机身上方, Z指向机身右方
飞行轨迹坐标系
X轴指向速度方向，Y轴垂直于地平面

（1）俯仰角 γ \gamma γ：机体轴与地平面（水平面）之间的夹角，飞机抬头为正。
（2）偏航角（方位角） ψ \psi ψ：机体x轴在水平面上的投影与地x轴之间的夹角，以机头右偏为正。
（3）滚转角（倾斜角） μ \mu μ：飞机对称面绕机体轴转过的角度，右滚为正。

相对运动模型

红蓝两机相对向量
方位角：相对向量与自身速度（地面坐标系）的夹角
目标入射角：相对向量与敌机速度（地面坐标系）的夹角

导弹攻击模型

描述导弹攻击区域的两种方式

attack envelope

限制条件：

导弹最大和最小飞行高度
导弹在遇到目标前的最小速度
安全距离极限
导弹的最大飞行时间

划分：

最大攻击范围
不可逃脱范围
安全范围（最小攻击范围）
attack envelope的划分是飞行状态、导弹发射角度、目标进入角度、目标飞机飞行状态等的函数。

killing envelope

当攻击机在可攻击范围内发射导弹时，目标机一般采取一系列过载机动以避免导弹跟踪，因此为了降低击中概率，我们根据不同的过载机动提出了四种killing envelope。

最大击中范围
敌机90°侧转时能击中的范围
敌机180°侧转时能击中的范围
最小安全发射范围

3 空战模型

空战决策框架

强化学习通常被建模成一个马尔可夫决策过程（Markov decision process，MDP）的问题
agent：独立训练
环境：状态转换模型、空战奖励模型、终止判断模型(是否到达终止条件)

agent构造自己的感知变量 s t R , s t B s^{R}_{t}, s^{B}_{t} stR,stB

状态空间

agent state由以下三种状态表示：

独立状态：位置和速度
相对状态：相对距离、相对速度和相对角度
能量状态：动能、势能、影响导弹杀伤距离的参数表示

对状态进行归一化处理

最小-最大规范化对原始数据进行线性变换。
z-score规范化也称零-均值规范化。属性A的值是基于A的平均值与标准差规范化。

动作空间

离散动作空间：扩展动作

奖惩

蒙特卡洛搜索确定root node的奖励值
当前状态奖励分为：

边界奖励：当临近边界时，由蒙特卡洛搜索确定。对所有N步的搜索算出出界的概率，通过该概率计算出奖励。
角度奖励：鼓励交战
距离奖励：D1小于导弹的最小攻击距离，D2大于导弹的最大攻击距离。
导弹攻击奖励：通过仿真获得击败敌方的概率和被敌方击中的概率，从而得到导弹攻击奖励。

4 LSTM-DQN算法

使用参数 θ \theta θ近似动作价值函数
policy网络使用 ϵ − g r e e d y \epsilon - greedy ϵ−greedy方法，用于计算agent的当前动作。
target网络：target函数，用于训练参数。更新：间隔一段时间进行更新。目的：保持算法稳定性。

DQN的损失函数定义为目标值与预测值的均方差，同时通过更新权重 θ \theta θ使损失最小化。

采用自适应梯度下降法对策略网络参数进行训练，经过一定次数的训练集后，应用参数对目标网络进行更新。
在训练过程中，agent容易产生大量无价值的样本。针对这一问题，我们根据超视距空战的经验设计了一个专家过滤器，进行初步的判断和选择。将过滤后的样本与原始样本按一定比例整合到体验回放池中进行训练。

policy network

感知情境层：
对于采样的所有数据，由运动模型获得后续T个连续状态变量
价值函数拟合层：
输入为LSTM的输出，输出为9个动作的概率

空战仿真

数据分析

5 比较与结论

有效性比较

通过奖励和获胜概率两个标准来衡量，决策方案的有效性。奖励是对智能体当前状态和机动动作的评价，反映了与对手的相对优势。另一个是获胜概率，它可以从测试实验的结果中计算出来。
与AC方法和DDPG方法比较。

[论文]深度强化学习在超视距空战机动规划的应用相关推荐

【医疗人工智能论文】使用深度强化学习的腹腔镜机器人辅助训练
Article 作者:Xiaoyu Tan , Chin-Boon Chng, Ye Su, Kah-Bin Lim, and Chee-Kong Chui 文献题目:Robot-Assisted T ...
中科院自动化所介绍深度强化学习进展：从AlphaGo到AlphaGo Zero
来源:德先生概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展: 从AlphaGo ...
ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
通过图注意力神经网络进行多智能体游戏抽象_[读论文] AttnPath: 将图注意力机制融入基于深度强化学习的知识图谱推理中...
论文原文:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcem ...
论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理
论文笔记整理:陈名杨,浙江大学直博生. Introduction 知识图谱(KGs)在很多NLP的下游应用中起着越来越重要的作用.但是知识图谱常常是不完整的,所以解决知识图谱补全的任务也非常重要.主要 ...
【ICML2021】 9篇RL论文作者汪昭然：构建“元宇宙”和理论基础，让深度强化学习从虚拟走进现实...
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:转载自AI科技评论作者 | 陈彩娴深度强 ...
基于深度强化学习的车道线检测和定位（Deep reinforcement learning based lane detection and localization）论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位官方源码下载:https://github.co ...
【重磅整理】提前看287篇ICLR-2021 深度强化学习领域论文得分汇总列表
深度强化学习实验室来源:ICLR2021 编辑:DeepRL [1]. What Matters for On-Policy Deep Actor-Critic Methods? A Large-S ...
QUANT[14]强化学习RL论文1：通过深度强化学习实现人的层次控制
论文<通过深度强化学习实现人的层次控制>解读目录 1. 摘要 2.模型 3. 实验设置 4. 结果 5. 结论 6.正文翻译 1. 摘要 The theory of reinforcem ...

[论文]深度强化学习在超视距空战机动规划的应用