【论文阅读】基于强化学习的上下文感知的自适应路由变异方案

Context-Aware Adaptive Route Mutation Scheme:A Reinforcement Learning Approach

1. 摘要

1.1 问题背景

移动目标防御（MTD）是一种新兴的主动防御技术，可以降低漏洞被攻击的风险。
MTD技术介绍: 使攻击面动态化，而不是通过监测，预防，监视，跟踪或补救威胁来防御不变的基础设施。主要技术包括系统随机化，受生物启发的MTD，动态网络配置等。
存在的问题： 路由变异（RM）作为MTD的重要组成部分，在防御DDos攻击方面面临着几个问题：1）学习攻击行为不足，无法进行最优的变异选择；2）网络环境是时变的，RM在变异参数上也缺乏自适应能力

1.2 解决方法

提出了上下文感知Q学习算法（CQ-RM），通过学习攻击策略赖优化变异路径的选择，具体方法：

将四种具有代表性的攻击策略整合成一个统一的数学模型，并将多个网络约束形式化；
考虑网络限制，将RM建模为了马尔可夫过程（MDP），为了寻找MDP的最优策略，开发了一种上下文估计机制，进一步提出了能够自适应调整学习速率和突变周期的CQ-RM方案，同时理论证明了CQ-RM算法的最优收敛性；
最后，实验证明方法的有效性。

1.3 主要贡献

作者总结了文章的主要贡献在以下几方面：

考虑了实际情况，对多网络需求进行建模，将需求转换为多个网络约束，以保证路由变化的可行性；同时也将四种有代表性的攻击策略整合成统一的数学模型。
将RM过程建模为多约束的马尔可夫过程，将当前流分布定位为状态，选择突变路径为动作；将选择最优突变路径的问题转化为MDP的最优策略，将攻击者的恶意行为作为环境的一部分。
创新地提出了一个智能CQ-RM方法，设计了一种上下文估计机制准确地描述和分析网络情况，不同于直接运用Q学习算法，CQ-RM能够自适应地调节变异周期和学习速率减少网络负荷、加速学习收敛。
从理论上分析了CQ-RM算法的复杂度和最优收敛性，并进行了仿真验证。

2. 模型及实验

本文中的MDP建模过程和一些细节就不多加叙述了，主要介绍重点几点，感兴趣的阅读原文https://ieeexplore.ieee.org/document/9377451

2.1 基于上下文感知的强化学习路由变异方案

CQ-RM方案存在两个循环，分别是学习周期和感知周期。在每个时点，防御者选择一个可行的突变动作，然后根据攻击者的行为决定，将奖励和状态转换返回给防御者进行迭代学习，称为学习周期。上下文估计机制从防御者和环境中收集信息，然后输出威胁值来帮助调整学习速率和变异周期，称为感知周期。

1、上下文估计机制

上下文估计机制的目的是分析上下文的可靠性，这取决于所选路由是否被攻击者破坏。在本文中上下文被视为当前网络情况，形式为四元组⟨Cta,Gta,Ctd,Gtd⟩\left\langle C_{t}^{a}, G_{t}^{a}, C_{t}^{d}, G_{t}^{d}\right\rangle⟨Cta,Gta,Ctd,Gtd⟩，分别代表着攻击成本和效益、防御成本和效益。
上下文值被描述为：
Ω(T)≜1T∑t=1T(∑i=1nϕt,i+∑i=1nc^t,ia−Ctd)(1)\Omega(T) \triangleq \frac{1}{T} \sum_{t=1}^{T}\left(\sum_{i=1}^{n} \phi_{t, i}+\sum_{i=1}^{n} \widehat{c}_{t, i}^{a}-C_{t}^{d}\right) \tag{1}Ω(T)≜T1t=1∑T(i=1∑nϕt,i+i=1∑nct,ia−Ctd)(1)
其中，ϕt,i\phi_{t, i}ϕt,i为iii节点在ttt时刻攻防效益，c^t,i\widehat{c}_{t, i}ct,i为iii节点在ttt时刻估计攻击代价。CtdC_{t}^{d}Ctd为路由变换的代价。为了在不受不完整信息影响的情况下提高上下文感知的准确性，我们将威胁值定义为上下文值的负导数：
K(t0)≜−Ω′(t0)=−lim⁡Δt→0Ω(t0+Δt)−Ω(t0)Δt(2)\mathcal{K}\left(t_{0}\right) \triangleq-\Omega^{\prime}\left(t_{0}\right)=-\lim _{\Delta t \rightarrow 0} \frac{\Omega\left(t_{0}+\Delta t\right)-\Omega\left(t_{0}\right)}{\Delta t} \tag{2}K(t0)≜−Ω′(t0)=−Δt→0limΔtΩ(t0+Δt)−Ω(t0)(2)
威胁值利用上下文值得趋势来表示上下文的可靠性。 当K>0\mathcal{K} > 0K>0时，由于攻击者在攻击防御对抗中获利较大，可靠性较低。反之，当K<0\mathcal{K} < 0K<0时，由于防御者在攻防对抗中获利较大，可靠性较高。上下文估计机制的伪代码如算法1所示：

2、优化问题的扩展Q学习算法

与直接应用q学习不同，文中提出了一种扩展q学习算法，可以自适应地调整学习速率和变异周期。

动态学习率模块
为了加快q学习的收敛速度，通过上下文估计机制调整学习速率。状态转换后的状态-动作价值函数更新过程可以如下表示:
Qt+1(S(t),A(t))=Qt(S(t),A(t))+αt(K)δ=(1−αt(K))Qt(S(t),A(t))+αt(K)[R(t)+γmax⁡A′Qt(S(t),A′)](3)\begin{aligned} Q_{t+1}(S(t), A(t))=& Q_{t}(S(t), A(t))+\alpha_{t}(\mathcal{K}) \delta \\ =&\left(1-\alpha_{t}(\mathcal{K})\right) Q_{t}(S(t), A(t))+\alpha_{t}(\mathcal{K})\left[\mathcal{R}(t)+\gamma \max _{A^{\prime}} Q_{t}\left(S(t), A^{\prime}\right)\right] \end{aligned} \tag{3}Qt+1(S(t),A(t))==Qt(S(t),A(t))+αt(K)δ(1−αt(K))Qt(S(t),A(t))+αt(K)[R(t)+γA′maxQt(S(t),A′)](3)
其中，αt(K)\alpha_{t}(\mathcal{K})αt(K)代表着动态学习率，取决于威胁值：αt(K)≜1/(1+e−K)τ\alpha_{t}(\mathcal{K}) \triangleq 1 /\left(1+e^{-\mathcal{K}}\right) \tauαt(K)≜1/(1+e−K)τ，其中τ\tauτ是由多个时隙组成的时间持续时间。学习率α\alphaα确定新信息覆盖旧信息的速度，当路线上大部分的节点被攻击，学习率接近1，这指出防御者更关注于新信息。当路由中的大多数节点避免攻击时，α\alphaα应该更接近于0。这表明防御者将更关注旧信息。
自适应突变周期模块
变异周期是影响防御表现的重要特征，短变异周期导致高额的网络负载，长周期将减少RM的影响。因此，确定突变周期的长度是在防御性能和网络开销之间的权衡。自适应突变周期模块的原理描述如下:
Np={τm,when K>φlth Clτm,when K≤φlth and K>φhth Chτm,when K≤φhth (4)N_{p}= \begin{cases}\tau_{m}, & \text { when } \mathcal{K}>\varphi_{l}^{\text {th }} \\ \mathcal{C}_{l} \tau_{m}, & \text { when } \mathcal{K} \leq \varphi_{l}^{\text {th }} \text { and } \mathcal{K}>\varphi_{h}^{\text {th }} \\ \mathcal{C}_{h} \tau_{m}, & \text { when } \mathcal{K} \leq \varphi_{h}^{\text {th }}\end{cases} \tag{4}Np=⎩⎪⎨⎪⎧τm,Clτm,Chτm, when K>φlth when K≤φlth and K>φhth when K≤φhth (4)
其中，Cl\mathcal{C}_{l}Cl和Cm\mathcal{C}_{m}Cm为固定值。当威胁值较高时，突变周期变短。反之，当威胁值较低时，突变周期变长。文中是设计一个自适应突变周期模块，以减少网络开销。该自适应规则可根据实际实验数据设置多个参数。
RM的扩展q学习伪代码如图所示:

2.2 实验分析

防御表现
进行了一系列仿真，并将CQ-RM与I-RRM和Mutipath进行了比较：

虽然在刚开始CQ-RM防御效果较弱，但随着自适应的学习防御效果明显好于其他两种防御方法。CQ-RM能够学习攻击策略，避免被攻击。

环境感知分析
上下文值是攻击-防御对抗过程中所有利润和成本的总和。
如下图红色虚线表示利润与成本之和为零。与红色虚线的对比可以间接反映出谁在攻防对抗中具有优势。

可以看出，攻击策略的上下文值都是先下降后上升的。这是由于进攻成功率的下降，使防守方在对抗中逐渐获得更多的利益。由于路由在很大程度上避免了攻击，节点攻击的上下文值只下降了一点点，然后迅速增加。在此基础上，用上下文价值的负导数来定义威胁值是合理的。
突变的性能开销
RM的成本主要包括网络开销和管理开销。因此，增加的网络性能开销是导致RM方案可用性较差的关键因素。考虑到每个时隙的突变会造成大量的资源消耗，提出的自适应突变周期模块可以减少学习过程中的资源消耗。

结果表明，自适应变异周期模块不会显著降低CQ-RM的防御性能，同时对CQ-RM的收敛时间影响较小。原因是上下文估计机制可以保证在相对安全的环境中不发生突变。
此外，如下图所示，突变的数量大幅减少，这意味着突变开销可以在很大程度上减少。

结果表明，节点攻击下突变数减少最多，经验攻击下突变数减少最少。由于经验攻击依赖于攻击历史，所以防御者必须多次采取变异动作使攻击者的知识背景无效。
网络表现
收敛表现

✔️ 网络安全研究小白，如有问题和建议，欢迎指正

【论文阅读】基于强化学习的上下文感知的自适应路由变异方案相关推荐

华为诺亚ICLR 2020满分论文：基于强化学习的因果发现算法
2019-12-30 13:04:12 人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文 ...
深度学习——day36 读论文：基于深度学习的海洋环境感知
基于深度学习的海洋环境感知(2022 IEEE Transactions on Intelligent Transportation Systems) 名词解释: 研究背景: 研究方法: 训练数据和真 ...
【论文阅读】强化学习-Other Directions for Combining Policy-Learning and Q-Learning专题4篇
文章目录 Combining Policy Gradient and Q-learning, O'Donoghue et al, 2016. Algorithm: PGQL. The Reactor: ...
【论文阅读】强化学习与知识图谱关系路径发现
论文标题:DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 中文标题:深度路径:知识图谱推理的强化学习方法 ...
论文阅读——基于深度学习智能垃圾分类
B. Fu, S. Li, J. Wei, Q. Li, Q. Wang and J. Tu, "A Novel Intelligent Garbage Classification Sys ...
论文浅尝-综述 | 基于强化学习的知识图谱综述
转载公众号 | 人工智能前沿讲习论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...
论文阅读|Nash Q-Learning for General-Sum Stochastic Games基于强化学习的多智能体研究（附代码）
论文:Nash Q-learning for general-sum stochastic games 链接:http://www.jmlr.org/papers/volume4/hu03a/hu03 ...
【强化学习与机器人控制论文 2】基于强化学习的五指灵巧手操作
基于强化学习的五指灵巧手操作 1. 引言 2. 论文解读 2.1 背景 2.2 论文中所用到的强化学习方法 2.3 实验任务和系统 2.4 仿真到实物的迁移 2.5 分布式RL训练--从状态中学到控制 ...
【强化学习与机器人控制论文 3】基于强化学习的五指灵巧手玩转魔方
这里写目录标题 1. 引言 2. 论文解读 2.1 背景 2.2 硬件平台和仿真平台的搭建 2.3 主要算法框架 2.4 自动域随机化ADR 2.5 实验结果 3. 总结 1. 引言本文介绍一篇Op ...