【论文阅读】基于强化学习的网络安全防护策略

本篇文章将介绍一篇针对网络安全问题，运用强化学习方法寻找最优的网络防御策略。

Finding Effective Security Strategies through Reinforcement Learning and Self-Play

前言
通过强化学习和 自对弈(self-play) 寻找有效的安全策略
- 主要思想
  提出一种针对入侵防御案例的安全策略自动查找方法，将攻击者和防御者之间的交互建模为一个马尔可夫博弈过程，让攻击和防御过程在没有人干预的情况下通过强化学习和自对弈进行
- 创新点
  建立了安全策略的自对弈模型，并解决了强化学习一直存在的问题：1、利用建立模型的结构来减小动作空间的额大小，将动作分解为两个动作，首先选择哪个节点进行攻击或防御，接着选择对该点采用什么攻击或防御策略，将动作空间 N×(m+1) 变成了 N+(m+1) 2、避免过拟合情况，在训练期间从策略池中抽取对手策略，增加了策略的多样性
- 存在的问题
  与所有自对弈问题一样，存在 训练难以收敛 的情况，在基础防御较弱时结果容易发生震荡，震荡表明防御者对对手策略的变化做出了应对，并且出现了过拟合情况。

												

											
【论文阅读】基于强化学习的网络安全防护策略相关推荐	

						华为诺亚ICLR 2020满分论文：基于强化学习的因果发现算法
		2019-12-30 13:04:12 人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文 ...
		
						【论文阅读】强化学习-Other Directions for Combining Policy-Learning and Q-Learning专题4篇
		文章目录 Combining Policy Gradient and Q-learning, O'Donoghue et al, 2016. Algorithm: PGQL. The Reactor: ...
		
						【论文阅读】强化学习与知识图谱关系路径发现
		论文标题:DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 中文标题:深度路径:知识图谱推理的强化学习方法 ...
		
						论文阅读——基于深度学习智能垃圾分类
		B. Fu, S. Li, J. Wei, Q. Li, Q. Wang and J. Tu, "A Novel Intelligent Garbage Classification Sys ...
		
						论文浅尝-综述 | 基于强化学习的知识图谱综述
		转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...
		
						【论文阅读】基于强化学习的上下文感知的自适应路由变异方案
		[论文阅读]基于强化学习的上下文感知的自适应路由变异方案 Context-Aware Adaptive Route Mutation Scheme:A Reinforcement Learning A ...
		
						论文阅读|Nash Q-Learning for General-Sum Stochastic Games基于强化学习的多智能体研究（附代码）
		论文:Nash Q-learning for general-sum stochastic games 链接:http://www.jmlr.org/papers/volume4/hu03a/hu03 ...
		
						智能城市dqn算法交通信号灯调度_博客 | 滴滴 KDD 2018 论文详解：基于强化学习技术的智能派单模型...
		原标题:博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型 国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共 ...
		
						滴滴 KDD 2018 论文详解：基于强化学习技术的智能派单模型
		国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共收录 293 篇,录取率不足 20%.其中滴滴共有四篇论文入选 KDD 2018,涵 ...
		
						【论文笔记】基于强化学习的机器人手臂仿人运动规划方法
		文章目录 摘要 关键词 0 引言 学者研究 阶段一:采集运动数据,分析运动过程特征 阶段二:设计仿人变量.建立仿人标准和约束 阶段三:用智能算法提升仿人运动机器人性能 本文工作 1 问题描述及方法架构 ...
		
		

					
最新文章	

						windows串口控制linux,linux及windows下串口的使用.doc
		
						vue中引用js_从JS中的内存管理说起 —— JS中的弱引用
		
						2020研究生数学建模结果_关于举办2020年全国研究生数学建模大赛的通知
		
						【MongoDB for Java】Java操作MongoDB
		
						java+switch语句+枚举_Java：在子类下使用带有枚举的switch语句
		
						赵雅智：js知识点汇总
		
						功夫小子实践开发-英雄实体类的基本分析和实现
		
						群智能算法(遗传算法, 粒子群算法, 蚁群算法原理与实例分析)
		
						time stamp convert
		
						第一次vscode 推送已有代码 到gitee新仓库
		
						vscode远程连接服务器操作方法
		
						洞泾智能机器人产业基地_松江洞泾加快布局人工智能全产业链 腾讯优图创新基地揭牌...
		
						Low Poly Epic City的脚本研究日志(2)（2022.3.1）
		
						手机屏幕弹幕纵向滚动，添加弹幕实时滚动html demo
		
						前端设计-css网格布局的最佳实践
		
						java中日志的级别说明
		
						FastAdmin自定义搜索，通用搜索失效
		
						DevOps Master课程总结：招聘DevOps工程师必问的12个问题
		
						科学的固定资产管理让企业实现降本增效
		
						新版unity toggle组件汉化名字
		
		
	

热门文章	

									mysql rpm mar_Centos7.3离线(rpm方式)安装mysql服务
			
						架构系列---QR二维码和扫描二维码登陆原理
			
						linux ext4 格式化工具,ext4格式化软件 mkfs.ext4 快速格式化
			
						python实现随机森林
			
						随机森林和多元线性回归R语言实现代码
			
						如何清理卸下应用的残余文件_怎么清理手机卸载残留 需要技巧
			
						2016.11.16回顾
			
						浅谈交换机和路由器的区别
			
						DAO层和Service层的究极理解--这波我在大气层
			
						计算机专业研究生读研规划,关于一个计算机研究生人生规划的迷惑