【论文阅读】基于强化学习的上下文感知的自适应路由变异方案

Context-Aware Adaptive Route Mutation Scheme:A Reinforcement Learning Approach

1. 摘要

1.1 问题背景

移动目标防御(MTD)是一种新兴的主动防御技术,可以降低漏洞被攻击的风险。
MTD技术介绍: 使攻击面动态化,而不是通过监测,预防,监视,跟踪或补救威胁来防御不变的基础设施。主要技术包括系统随机化,受生物启发的MTD,动态网络配置等。
存在的问题: 路由变异(RM)作为MTD的重要组成部分,在防御DDos攻击方面面临着几个问题:1)学习攻击行为不足,无法进行最优的变异选择;2)网络环境是时变的,RM在变异参数上也缺乏自适应能力

1.2 解决方法

提出了上下文感知Q学习算法(CQ-RM),通过学习攻击策略赖优化变异路径的选择,具体方法:

  1. 将四种具有代表性的攻击策略整合成一个统一的数学模型,并将多个网络约束形式化;
  2. 考虑网络限制,将RM建模为了马尔可夫过程(MDP),为了寻找MDP的最优策略,开发了一种上下文估计机制,进一步提出了能够自适应调整学习速率和突变周期的CQ-RM方案,同时理论证明了CQ-RM算法的最优收敛性
  3. 最后,实验证明方法的有效性。

1.3 主要贡献

作者总结了文章的主要贡献在以下几方面:

  1. 考虑了实际情况,对多网络需求进行建模,将需求转换为多个网络约束,以保证路由变化的可行性;同时也将四种有代表性的攻击策略整合成统一的数学模型。
  2. 将RM过程建模为多约束的马尔可夫过程,将当前流分布定位为状态,选择突变路径为动作;将选择最优突变路径的问题转化为MDP的最优策略,将攻击者的恶意行为作为环境的一部分。
  3. 创新地提出了一个智能CQ-RM方法,设计了一种上下文估计机制准确地描述和分析网络情况,不同于直接运用Q学习算法,CQ-RM能够自适应地调节变异周期和学习速率减少网络负荷、加速学习收敛。
  4. 从理论上分析了CQ-RM算法的复杂度和最优收敛性,并进行了仿真验证。

2. 模型及实验

本文中的MDP建模过程和一些细节就不多加叙述了,主要介绍重点几点,感兴趣的阅读原文https://ieeexplore.ieee.org/document/9377451

2.1 基于上下文感知的强化学习路由变异方案

CQ-RM方案存在两个循环,分别是学习周期感知周期。在每个时点,防御者选择一个可行的突变动作,然后根据攻击者的行为决定,将奖励和状态转换返回给防御者进行迭代学习,称为学习周期。上下文估计机制从防御者和环境中收集信息,然后输出威胁值来帮助调整学习速率和变异周期,称为感知周期

1、上下文估计机制

上下文估计机制的目的是分析上下文的可靠性,这取决于所选路由是否被攻击者破坏。在本文中上下文被视为当前网络情况,形式为四元组⟨Cta,Gta,Ctd,Gtd⟩\left\langle C_{t}^{a}, G_{t}^{a}, C_{t}^{d}, G_{t}^{d}\right\rangle⟨Cta​,Gta​,Ctd​,Gtd​⟩,分别代表着攻击成本和效益、防御成本和效益。
上下文值被描述为:
Ω(T)≜1T∑t=1T(∑i=1nϕt,i+∑i=1nc^t,ia−Ctd)(1)\Omega(T) \triangleq \frac{1}{T} \sum_{t=1}^{T}\left(\sum_{i=1}^{n} \phi_{t, i}+\sum_{i=1}^{n} \widehat{c}_{t, i}^{a}-C_{t}^{d}\right) \tag{1}Ω(T)≜T1​t=1∑T​(i=1∑n​ϕt,i​+i=1∑n​ct,ia​−Ctd​)(1)
其中,ϕt,i\phi_{t, i}ϕt,i​为iii节点在ttt时刻攻防效益,c^t,i\widehat{c}_{t, i}ct,i​为iii节点在ttt时刻估计攻击代价。CtdC_{t}^{d}Ctd​为路由变换的代价。为了在不受不完整信息影响的情况下提高上下文感知的准确性,我们将威胁值定义为上下文值的负导数:
K(t0)≜−Ω′(t0)=−lim⁡Δt→0Ω(t0+Δt)−Ω(t0)Δt(2)\mathcal{K}\left(t_{0}\right) \triangleq-\Omega^{\prime}\left(t_{0}\right)=-\lim _{\Delta t \rightarrow 0} \frac{\Omega\left(t_{0}+\Delta t\right)-\Omega\left(t_{0}\right)}{\Delta t} \tag{2}K(t0​)≜−Ω′(t0​)=−Δt→0lim​ΔtΩ(t0​+Δt)−Ω(t0​)​(2)
威胁值利用上下文值得趋势来表示上下文的可靠性。 当K>0\mathcal{K} > 0K>0时,由于攻击者在攻击防御对抗中获利较大,可靠性较低。反之,当K<0\mathcal{K} < 0K<0时,由于防御者在攻防对抗中获利较大,可靠性较高。上下文估计机制的伪代码如算法1所示:

2、优化问题的扩展Q学习算法

与直接应用q学习不同,文中提出了一种扩展q学习算法,可以自适应地调整学习速率和变异周期

  • 动态学习率模块
    为了加快q学习的收敛速度,通过上下文估计机制调整学习速率。状态转换后的状态-动作价值函数更新过程可以如下表示:
    Qt+1(S(t),A(t))=Qt(S(t),A(t))+αt(K)δ=(1−αt(K))Qt(S(t),A(t))+αt(K)[R(t)+γmax⁡A′Qt(S(t),A′)](3)\begin{aligned} Q_{t+1}(S(t), A(t))=& Q_{t}(S(t), A(t))+\alpha_{t}(\mathcal{K}) \delta \\ =&\left(1-\alpha_{t}(\mathcal{K})\right) Q_{t}(S(t), A(t))+\alpha_{t}(\mathcal{K})\left[\mathcal{R}(t)+\gamma \max _{A^{\prime}} Q_{t}\left(S(t), A^{\prime}\right)\right] \end{aligned} \tag{3}Qt+1​(S(t),A(t))==​Qt​(S(t),A(t))+αt​(K)δ(1−αt​(K))Qt​(S(t),A(t))+αt​(K)[R(t)+γA′max​Qt​(S(t),A′)]​(3)
    其中,αt(K)\alpha_{t}(\mathcal{K})αt​(K)代表着动态学习率,取决于威胁值:αt(K)≜1/(1+e−K)τ\alpha_{t}(\mathcal{K}) \triangleq 1 /\left(1+e^{-\mathcal{K}}\right) \tauαt​(K)≜1/(1+e−K)τ,其中τ\tauτ是由多个时隙组成的时间持续时间。学习率α\alphaα确定新信息覆盖旧信息的速度,当路线上大部分的节点被攻击,学习率接近1,这指出防御者更关注于新信息。当路由中的大多数节点避免攻击时,α\alphaα应该更接近于0。这表明防御者将更关注旧信息。
  • 自适应突变周期模块
    变异周期是影响防御表现的重要特征,短变异周期导致高额的网络负载,长周期将减少RM的影响。因此,确定突变周期的长度是在防御性能和网络开销之间的权衡。自适应突变周期模块的原理描述如下:
    Np={τm,when K>φlth Clτm,when K≤φlth and K>φhth Chτm,when K≤φhth (4)N_{p}= \begin{cases}\tau_{m}, & \text { when } \mathcal{K}>\varphi_{l}^{\text {th }} \\ \mathcal{C}_{l} \tau_{m}, & \text { when } \mathcal{K} \leq \varphi_{l}^{\text {th }} \text { and } \mathcal{K}>\varphi_{h}^{\text {th }} \\ \mathcal{C}_{h} \tau_{m}, & \text { when } \mathcal{K} \leq \varphi_{h}^{\text {th }}\end{cases} \tag{4}Np​=⎩⎪⎨⎪⎧​τm​,Cl​τm​,Ch​τm​,​ when K>φlth ​ when K≤φlth ​ and K>φhth ​ when K≤φhth ​​(4)
    其中,Cl\mathcal{C}_{l}Cl​和Cm\mathcal{C}_{m}Cm​为固定值。当威胁值较高时,突变周期变短。反之,当威胁值较低时,突变周期变长。文中是设计一个自适应突变周期模块,以减少网络开销。该自适应规则可根据实际实验数据设置多个参数。
    RM的扩展q学习伪代码如图所示:

2.2 实验分析

  • 防御表现
    进行了一系列仿真,并将CQ-RM与I-RRM和Mutipath进行了比较:

虽然在刚开始CQ-RM防御效果较弱,但随着自适应的学习防御效果明显好于其他两种防御方法。CQ-RM能够学习攻击策略,避免被攻击。

  • 环境感知分析
    上下文值是攻击-防御对抗过程中所有利润和成本的总和。
    如下图红色虚线表示利润与成本之和为零。与红色虚线的对比可以间接反映出谁在攻防对抗中具有优势。

    可以看出,攻击策略的上下文值都是先下降后上升的。这是由于进攻成功率的下降,使防守方在对抗中逐渐获得更多的利益。由于路由在很大程度上避免了攻击,节点攻击的上下文值只下降了一点点,然后迅速增加。在此基础上,用上下文价值的负导数来定义威胁值是合理的。

  • 突变的性能开销
    RM的成本主要包括网络开销和管理开销。因此,增加的网络性能开销是导致RM方案可用性较差的关键因素。考虑到每个时隙的突变会造成大量的资源消耗,提出的自适应突变周期模块可以减少学习过程中的资源消耗。

    结果表明,自适应变异周期模块不会显著降低CQ-RM的防御性能,同时对CQ-RM的收敛时间影响较小。原因是上下文估计机制可以保证在相对安全的环境中不发生突变。
    此外,如下图所示,突变的数量大幅减少,这意味着突变开销可以在很大程度上减少。

    结果表明,节点攻击下突变数减少最多,经验攻击下突变数减少最少。由于经验攻击依赖于攻击历史,所以防御者必须多次采取变异动作使攻击者的知识背景无效。

  • 网络表现

  • 收敛表现


✔️ 网络安全研究小白,如有问题和建议,欢迎指正

【论文阅读】基于强化学习的上下文感知的自适应路由变异方案相关推荐

  1. 华为诺亚ICLR 2020满分论文:基于强化学习的因果发现算法

    2019-12-30 13:04:12 人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文 ...

  2. 深度学习——day36 读论文:基于深度学习的海洋环境感知

    基于深度学习的海洋环境感知(2022 IEEE Transactions on Intelligent Transportation Systems) 名词解释: 研究背景: 研究方法: 训练数据和真 ...

  3. 【论文阅读】强化学习-Other Directions for Combining Policy-Learning and Q-Learning专题4篇

    文章目录 Combining Policy Gradient and Q-learning, O'Donoghue et al, 2016. Algorithm: PGQL. The Reactor: ...

  4. 【论文阅读】强化学习与知识图谱关系路径发现

    论文标题:DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 中文标题:深度路径:知识图谱推理的强化学习方法 ...

  5. 论文阅读——基于深度学习智能垃圾分类

    B. Fu, S. Li, J. Wei, Q. Li, Q. Wang and J. Tu, "A Novel Intelligent Garbage Classification Sys ...

  6. 论文浅尝-综述 | 基于强化学习的知识图谱综述

    转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...

  7. 论文阅读|Nash Q-Learning for General-Sum Stochastic Games基于强化学习的多智能体研究(附代码)

    论文:Nash Q-learning for general-sum stochastic games 链接:http://www.jmlr.org/papers/volume4/hu03a/hu03 ...

  8. 【强化学习与机器人控制论文 2】基于强化学习的五指灵巧手操作

    基于强化学习的五指灵巧手操作 1. 引言 2. 论文解读 2.1 背景 2.2 论文中所用到的强化学习方法 2.3 实验任务和系统 2.4 仿真到实物的迁移 2.5 分布式RL训练--从状态中学到控制 ...

  9. 【强化学习与机器人控制论文 3】基于强化学习的五指灵巧手玩转魔方

    这里写目录标题 1. 引言 2. 论文解读 2.1 背景 2.2 硬件平台和仿真平台的搭建 2.3 主要算法框架 2.4 自动域随机化ADR 2.5 实验结果 3. 总结 1. 引言 本文介绍一篇Op ...

最新文章

  1. Nexus Repository Manager 3.0 发布
  2. easyui数据表格重置_Python办公自动化,自动更新表格,告别繁琐
  3. EventBus设计之禅
  4. 编辑器制作的一些资源
  5. JavaScriptSerializer类 对象序列化为JSON,JSON反序列化为对象
  6. 两台文件服务器共享文件同步,如何实现两台或多台电脑远程修改文件同步更新?...
  7. 软件测试面试题:设计系统测试计划需要参考的项目文档?
  8. 可以嵌入ppt的课堂点名器_利用Python实现课堂点名器!辅导员大大的夸赞了我!...
  9. 火狐浏览器自动安装xpi扩展
  10. POJ 3388 Japanese Puzzle(二分法)
  11. windows安装时提醒“缺少所需要的CD/DVD驱动器设备驱动程序”的解决办法
  12. Win7+Ubuntu16.04双系统安装方法
  13. Python爬取、可视化分析B站大司马视频40W+弹幕
  14. 千亿雅虎确认48亿贱卖,其实这些巨头比它更惨
  15. 儿童的31个“敏感期”特点及建议(转载)
  16. 计算机共享文件误删怎么恢复,在电脑上不小心把共享里的EXCEL表格数据给删除了,该怎么恢复这个文件的数据啊?,excel表格里误删数据恢复...
  17. Macbook删除苹果系统,装单系统win10系统
  18. Xilinx ISE 出现 Bitgen:342 - This design contains pins which have locations (LOC)...解决办法
  19. 零知识证明的硬件加速
  20. 盘点2018年这些黑科技的发展趋势

热门文章

  1. Jina AI 受邀出席 WAIC 2023「科技无障碍」论坛,与行业专家共话 AI 普惠未来
  2. Comparing Dynamics: Deep Neural Networks versus Glassy Systems 读书笔记
  3. 安装完原版win7后遭遇连USB都没法使用的窘境
  4. 调用 SSPI 失败,请参见内部异常
  5. Ckeditor 首行缩进
  6. 自定义函数内可以使用全局变量吗?答案是不可以,需要关键字global
  7. java之全文索引搜索lucene之增删改查文档与中文分词搜索
  8. 非诚勿扰2经典台词,告诉你不一样的人生!
  9. Apple ID密码忘记了,怎么办?
  10. 2022-2028年全球与中国电力电子变压器产业市场前瞻与投资战略规划分析