【论文阅读】基于强化学习的上下文感知的自适应路由变异方案
【论文阅读】基于强化学习的上下文感知的自适应路由变异方案
Context-Aware Adaptive Route Mutation Scheme:A Reinforcement Learning Approach
1. 摘要
1.1 问题背景
移动目标防御(MTD)是一种新兴的主动防御技术,可以降低漏洞被攻击的风险。
MTD技术介绍: 使攻击面动态化,而不是通过监测,预防,监视,跟踪或补救威胁来防御不变的基础设施。主要技术包括系统随机化,受生物启发的MTD,动态网络配置等。
存在的问题: 路由变异(RM)作为MTD的重要组成部分,在防御DDos攻击方面面临着几个问题:1)学习攻击行为不足,无法进行最优的变异选择;2)网络环境是时变的,RM在变异参数上也缺乏自适应能力
1.2 解决方法
提出了上下文感知Q学习算法(CQ-RM),通过学习攻击策略赖优化变异路径的选择,具体方法:
- 将四种具有代表性的攻击策略整合成一个统一的数学模型,并将多个网络约束形式化;
- 考虑网络限制,将RM建模为了马尔可夫过程(MDP),为了寻找MDP的最优策略,开发了一种上下文估计机制,进一步提出了能够自适应调整学习速率和突变周期的CQ-RM方案,同时理论证明了CQ-RM算法的最优收敛性;
- 最后,实验证明方法的有效性。
1.3 主要贡献
作者总结了文章的主要贡献在以下几方面:
- 考虑了实际情况,对多网络需求进行建模,将需求转换为多个网络约束,以保证路由变化的可行性;同时也将四种有代表性的攻击策略整合成统一的数学模型。
- 将RM过程建模为多约束的马尔可夫过程,将当前流分布定位为状态,选择突变路径为动作;将选择最优突变路径的问题转化为MDP的最优策略,将攻击者的恶意行为作为环境的一部分。
- 创新地提出了一个智能CQ-RM方法,设计了一种上下文估计机制准确地描述和分析网络情况,不同于直接运用Q学习算法,CQ-RM能够自适应地调节变异周期和学习速率减少网络负荷、加速学习收敛。
- 从理论上分析了CQ-RM算法的复杂度和最优收敛性,并进行了仿真验证。
2. 模型及实验
本文中的MDP建模过程和一些细节就不多加叙述了,主要介绍重点几点,感兴趣的阅读原文https://ieeexplore.ieee.org/document/9377451
2.1 基于上下文感知的强化学习路由变异方案
CQ-RM方案存在两个循环,分别是学习周期和感知周期。在每个时点,防御者选择一个可行的突变动作,然后根据攻击者的行为决定,将奖励和状态转换返回给防御者进行迭代学习,称为学习周期。上下文估计机制从防御者和环境中收集信息,然后输出威胁值来帮助调整学习速率和变异周期,称为感知周期。
1、上下文估计机制
上下文估计机制的目的是分析上下文的可靠性,这取决于所选路由是否被攻击者破坏。在本文中上下文被视为当前网络情况,形式为四元组⟨Cta,Gta,Ctd,Gtd⟩\left\langle C_{t}^{a}, G_{t}^{a}, C_{t}^{d}, G_{t}^{d}\right\rangle⟨Cta,Gta,Ctd,Gtd⟩,分别代表着攻击成本和效益、防御成本和效益。
上下文值被描述为:
Ω(T)≜1T∑t=1T(∑i=1nϕt,i+∑i=1nc^t,ia−Ctd)(1)\Omega(T) \triangleq \frac{1}{T} \sum_{t=1}^{T}\left(\sum_{i=1}^{n} \phi_{t, i}+\sum_{i=1}^{n} \widehat{c}_{t, i}^{a}-C_{t}^{d}\right) \tag{1}Ω(T)≜T1t=1∑T(i=1∑nϕt,i+i=1∑nct,ia−Ctd)(1)
其中,ϕt,i\phi_{t, i}ϕt,i为iii节点在ttt时刻攻防效益,c^t,i\widehat{c}_{t, i}ct,i为iii节点在ttt时刻估计攻击代价。CtdC_{t}^{d}Ctd为路由变换的代价。为了在不受不完整信息影响的情况下提高上下文感知的准确性,我们将威胁值定义为上下文值的负导数:
K(t0)≜−Ω′(t0)=−limΔt→0Ω(t0+Δt)−Ω(t0)Δt(2)\mathcal{K}\left(t_{0}\right) \triangleq-\Omega^{\prime}\left(t_{0}\right)=-\lim _{\Delta t \rightarrow 0} \frac{\Omega\left(t_{0}+\Delta t\right)-\Omega\left(t_{0}\right)}{\Delta t} \tag{2}K(t0)≜−Ω′(t0)=−Δt→0limΔtΩ(t0+Δt)−Ω(t0)(2)
威胁值利用上下文值得趋势来表示上下文的可靠性。 当K>0\mathcal{K} > 0K>0时,由于攻击者在攻击防御对抗中获利较大,可靠性较低。反之,当K<0\mathcal{K} < 0K<0时,由于防御者在攻防对抗中获利较大,可靠性较高。上下文估计机制的伪代码如算法1所示:
2、优化问题的扩展Q学习算法
与直接应用q学习不同,文中提出了一种扩展q学习算法,可以自适应地调整学习速率和变异周期。
- 动态学习率模块
为了加快q学习的收敛速度,通过上下文估计机制调整学习速率。状态转换后的状态-动作价值函数更新过程可以如下表示:
Qt+1(S(t),A(t))=Qt(S(t),A(t))+αt(K)δ=(1−αt(K))Qt(S(t),A(t))+αt(K)[R(t)+γmaxA′Qt(S(t),A′)](3)\begin{aligned} Q_{t+1}(S(t), A(t))=& Q_{t}(S(t), A(t))+\alpha_{t}(\mathcal{K}) \delta \\ =&\left(1-\alpha_{t}(\mathcal{K})\right) Q_{t}(S(t), A(t))+\alpha_{t}(\mathcal{K})\left[\mathcal{R}(t)+\gamma \max _{A^{\prime}} Q_{t}\left(S(t), A^{\prime}\right)\right] \end{aligned} \tag{3}Qt+1(S(t),A(t))==Qt(S(t),A(t))+αt(K)δ(1−αt(K))Qt(S(t),A(t))+αt(K)[R(t)+γA′maxQt(S(t),A′)](3)
其中,αt(K)\alpha_{t}(\mathcal{K})αt(K)代表着动态学习率,取决于威胁值:αt(K)≜1/(1+e−K)τ\alpha_{t}(\mathcal{K}) \triangleq 1 /\left(1+e^{-\mathcal{K}}\right) \tauαt(K)≜1/(1+e−K)τ,其中τ\tauτ是由多个时隙组成的时间持续时间。学习率α\alphaα确定新信息覆盖旧信息的速度,当路线上大部分的节点被攻击,学习率接近1,这指出防御者更关注于新信息。当路由中的大多数节点避免攻击时,α\alphaα应该更接近于0。这表明防御者将更关注旧信息。 - 自适应突变周期模块
变异周期是影响防御表现的重要特征,短变异周期导致高额的网络负载,长周期将减少RM的影响。因此,确定突变周期的长度是在防御性能和网络开销之间的权衡。自适应突变周期模块的原理描述如下:
Np={τm,when K>φlth Clτm,when K≤φlth and K>φhth Chτm,when K≤φhth (4)N_{p}= \begin{cases}\tau_{m}, & \text { when } \mathcal{K}>\varphi_{l}^{\text {th }} \\ \mathcal{C}_{l} \tau_{m}, & \text { when } \mathcal{K} \leq \varphi_{l}^{\text {th }} \text { and } \mathcal{K}>\varphi_{h}^{\text {th }} \\ \mathcal{C}_{h} \tau_{m}, & \text { when } \mathcal{K} \leq \varphi_{h}^{\text {th }}\end{cases} \tag{4}Np=⎩⎪⎨⎪⎧τm,Clτm,Chτm, when K>φlth when K≤φlth and K>φhth when K≤φhth (4)
其中,Cl\mathcal{C}_{l}Cl和Cm\mathcal{C}_{m}Cm为固定值。当威胁值较高时,突变周期变短。反之,当威胁值较低时,突变周期变长。文中是设计一个自适应突变周期模块,以减少网络开销。该自适应规则可根据实际实验数据设置多个参数。
RM的扩展q学习伪代码如图所示:
2.2 实验分析
- 防御表现
进行了一系列仿真,并将CQ-RM与I-RRM和Mutipath进行了比较:
虽然在刚开始CQ-RM防御效果较弱,但随着自适应的学习防御效果明显好于其他两种防御方法。CQ-RM能够学习攻击策略,避免被攻击。
环境感知分析
上下文值是攻击-防御对抗过程中所有利润和成本的总和。
如下图红色虚线表示利润与成本之和为零。与红色虚线的对比可以间接反映出谁在攻防对抗中具有优势。
可以看出,攻击策略的上下文值都是先下降后上升的。这是由于进攻成功率的下降,使防守方在对抗中逐渐获得更多的利益。由于路由在很大程度上避免了攻击,节点攻击的上下文值只下降了一点点,然后迅速增加。在此基础上,用上下文价值的负导数来定义威胁值是合理的。突变的性能开销
RM的成本主要包括网络开销和管理开销。因此,增加的网络性能开销是导致RM方案可用性较差的关键因素。考虑到每个时隙的突变会造成大量的资源消耗,提出的自适应突变周期模块可以减少学习过程中的资源消耗。
结果表明,自适应变异周期模块不会显著降低CQ-RM的防御性能,同时对CQ-RM的收敛时间影响较小。原因是上下文估计机制可以保证在相对安全的环境中不发生突变。
此外,如下图所示,突变的数量大幅减少,这意味着突变开销可以在很大程度上减少。
结果表明,节点攻击下突变数减少最多,经验攻击下突变数减少最少。由于经验攻击依赖于攻击历史,所以防御者必须多次采取变异动作使攻击者的知识背景无效。网络表现
收敛表现
✔️ 网络安全研究小白,如有问题和建议,欢迎指正
【论文阅读】基于强化学习的上下文感知的自适应路由变异方案相关推荐
- 华为诺亚ICLR 2020满分论文:基于强化学习的因果发现算法
2019-12-30 13:04:12 人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文 ...
- 深度学习——day36 读论文:基于深度学习的海洋环境感知
基于深度学习的海洋环境感知(2022 IEEE Transactions on Intelligent Transportation Systems) 名词解释: 研究背景: 研究方法: 训练数据和真 ...
- 【论文阅读】强化学习-Other Directions for Combining Policy-Learning and Q-Learning专题4篇
文章目录 Combining Policy Gradient and Q-learning, O'Donoghue et al, 2016. Algorithm: PGQL. The Reactor: ...
- 【论文阅读】强化学习与知识图谱关系路径发现
论文标题:DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 中文标题:深度路径:知识图谱推理的强化学习方法 ...
- 论文阅读——基于深度学习智能垃圾分类
B. Fu, S. Li, J. Wei, Q. Li, Q. Wang and J. Tu, "A Novel Intelligent Garbage Classification Sys ...
- 论文浅尝-综述 | 基于强化学习的知识图谱综述
转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...
- 论文阅读|Nash Q-Learning for General-Sum Stochastic Games基于强化学习的多智能体研究(附代码)
论文:Nash Q-learning for general-sum stochastic games 链接:http://www.jmlr.org/papers/volume4/hu03a/hu03 ...
- 【强化学习与机器人控制论文 2】基于强化学习的五指灵巧手操作
基于强化学习的五指灵巧手操作 1. 引言 2. 论文解读 2.1 背景 2.2 论文中所用到的强化学习方法 2.3 实验任务和系统 2.4 仿真到实物的迁移 2.5 分布式RL训练--从状态中学到控制 ...
- 【强化学习与机器人控制论文 3】基于强化学习的五指灵巧手玩转魔方
这里写目录标题 1. 引言 2. 论文解读 2.1 背景 2.2 硬件平台和仿真平台的搭建 2.3 主要算法框架 2.4 自动域随机化ADR 2.5 实验结果 3. 总结 1. 引言 本文介绍一篇Op ...
最新文章
- Nexus Repository Manager 3.0 发布
- easyui数据表格重置_Python办公自动化,自动更新表格,告别繁琐
- EventBus设计之禅
- 编辑器制作的一些资源
- JavaScriptSerializer类 对象序列化为JSON,JSON反序列化为对象
- 两台文件服务器共享文件同步,如何实现两台或多台电脑远程修改文件同步更新?...
- 软件测试面试题:设计系统测试计划需要参考的项目文档?
- 可以嵌入ppt的课堂点名器_利用Python实现课堂点名器!辅导员大大的夸赞了我!...
- 火狐浏览器自动安装xpi扩展
- POJ 3388 Japanese Puzzle(二分法)
- windows安装时提醒“缺少所需要的CD/DVD驱动器设备驱动程序”的解决办法
- Win7+Ubuntu16.04双系统安装方法
- Python爬取、可视化分析B站大司马视频40W+弹幕
- 千亿雅虎确认48亿贱卖,其实这些巨头比它更惨
- 儿童的31个“敏感期”特点及建议(转载)
- 计算机共享文件误删怎么恢复,在电脑上不小心把共享里的EXCEL表格数据给删除了,该怎么恢复这个文件的数据啊?,excel表格里误删数据恢复...
- Macbook删除苹果系统,装单系统win10系统
- Xilinx ISE 出现 Bitgen:342 - This design contains pins which have locations (LOC)...解决办法
- 零知识证明的硬件加速
- 盘点2018年这些黑科技的发展趋势
热门文章
- Jina AI 受邀出席 WAIC 2023「科技无障碍」论坛,与行业专家共话 AI 普惠未来
- Comparing Dynamics: Deep Neural Networks versus Glassy Systems 读书笔记
- 安装完原版win7后遭遇连USB都没法使用的窘境
- 调用 SSPI 失败,请参见内部异常
- Ckeditor 首行缩进
- 自定义函数内可以使用全局变量吗?答案是不可以,需要关键字global
- java之全文索引搜索lucene之增删改查文档与中文分词搜索
- 非诚勿扰2经典台词,告诉你不一样的人生!
- Apple ID密码忘记了,怎么办?
- 2022-2028年全球与中国电力电子变压器产业市场前瞻与投资战略规划分析