来自IEEE的文章:网络安全网络流量功能的模糊聚类。

链接:安全|网络流量功能的模糊聚类IEEE 会议出版物|伊 · X普洛尔

目录

摘要

第一节:introduction

第二节:模糊C均值聚类法(FCM)

2.1 网络流量数据集

2.2 功能子集选择

2.3 模糊C均值聚类

2.4 使用模糊聚类进行入侵检测

第三节:测试和结果

总结


摘要

许多当前的入侵检测系统(IDS)无法识别未知或者变异的攻击模式,或无法在移动网络所需的动态环境中运行。因此,寻找合适的管理入侵检测系统的新方法变得尤为重要。

本文采用TCP数据包属性的模糊聚类,提出了一种新型的入侵检测方法。并且此方法比其他的模糊聚类技术相比,也具有很好的稳健性。

第一节:introduction

IDS(入侵检测系统)能够识别网络入侵,包括恶意攻击,未经授权的访问和其他异常行为。网络巨大流量带来的大数据分析为识别入侵提供了一种很有希望的方法。

大多数IDS使用监督或者无监督模式识别技术来构建分类器,然后用于入侵检测。这些方法包括统计模型、免疫系统方法、神经网络、状态过渡分析和遗传算法。这些技术不能识别复杂或未知的攻击,也无法适应移动网络等动态环境。聚类提供了一种分类技术,但其中许多方法仅识别基本攻击,无法识别复杂攻击和未知攻击。

模糊聚类已证明优于传统聚类,克服了未知攻击模式和动态环境的限制。改进的模糊均值c聚类法已尝试纳入径向基函数(RBF)、模拟退火(SA)和粒子群优化(PSO)。所有这些方法均受到识别率低、误报率高和无法识别未知攻击模式的影响。

本文提出新方法,将遗传算法维度降低技术经过修改的模糊C均值聚类(FCM)相结合,将TCP数据包分为正常和入侵包。测试表明,其具有优秀的识别率和稳健性,并且没有假阳性率。

第二节:模糊C均值聚类法(FCM)

2.1 网络流量数据集

KDDCup1999数据集已成为测试入侵检测安全系统的实际标准。

数据集由4GB压缩TCP转储数据组成,包括在网络流量收集的500万条连接记录。每个记录都包含从TCP连接数据中提取的41个特征。这些功能包括三个类别:单个TCP 连接的基本功能、连接中的内容功能以及使用两秒时间窗口的误差率功能。每个记录还包括一个标志,指示它是正常的还是入侵的。异常连接标记为模拟攻击类型。

KDD数据集包含24种已知类型的模拟攻击。此外,还包括14种未知类型的攻击,以测试检测以前未知或变异的攻击模式的能力。

2.2 功能子集选择

模糊C均值聚类算法(FCM)计算每个数据项到每个聚类中心点的距离。数据和中心都在D维空间中,d是用于聚类的TCP包中的功能数。因此,为了减少聚类的复杂性,最好减少功能数量。由于基于统计和基因聚类的传统尺寸减少技术具有局限性。因此,基因算法(GA)用于特征子集选择,每个染色体对应于候选的特征子集。每个染色体被编码为0和1的字符串,位数等于功能总数,每个位代表特定功能A,GA确定用于训练规则集的最佳功能集。

2.3 模糊C均值聚类

与传统聚类方法不同,模糊C均值聚类(FCM)允许一个数据项属于多个聚类,属于聚类的数量表示为一个模糊集。

本文提出的方法将数据划分为 c 个类Z是一个包含数据的向量,例如,每个元素z(k)都是挑选出来的特征子集中的d维特征数据包的第k个元素。向量是Z的模糊c-划分,是包含于第 i 个簇中每个数据项 zk 对应的模糊隶属度函数。此向量随机初始化为以开始该过程,模糊分区矩阵U是迭次调整,直到U变得小于预定阈值。V是聚类中心或者中心向量,例如

任何数据项zk和聚类中心vi之间的平方距离使用A-范数作为内积距离确定:

A-范数是一个标准化数据集的矩阵。在实践中,A-范数可以是欧几里德范数、对角范数或马氏范数。

与每个平方误差相关的权重是,这里的权重是加权指数,或者模糊参数。m控制平方误差的权重,从而确定聚类的模糊性。m的值越大,成员身份越模糊。m可能是大于等于1的任意值。测试表明,m介于[1.5, 3]之间会产生良好的效果。

模糊聚类通过对目标函数的优化迭代完成。在每次迭代中,成员函数和聚类中心使用下式更新:

2.4 使用模糊聚类进行入侵检测

一旦模糊集群被建立并标记为正常或恶意,所构建的入侵检测系统就已准备好识别传入的 TCP 数据包。对于每个传入的数据包,系统将确定其在每个簇中的成员身份。如果成员超过了预定阈值,对于任何被标记为恶意的聚类簇,该包都会被阻止,并且发出警报,识别该包和攻击类型。

第三节:测试和结果

本文的入侵检测方法使用KDDCup1999数据集进行测试,基因算法子集使用由大概500,000个连接记录的10%数据组成的数据集子集。特征子集的选择将原来的41个特征减少到8个的特征子集。FCM算法使用8个特征来创建5个模糊集群4个用于攻击类别的识别,1个用于正常包

该系统使用 KDD 数据集中的全部500万个连接记录进行了测试。数据集包含培训数据中未存在的 14 种入侵攻击类型,以测试识别未知攻击模式的能力。新的 IDS 成功识别了大多数入侵攻击,成功率为 98%,误报率仅为 2%

运行了第二个测试,其中创建了 26 个组集:24 种已知类型的模拟攻击各一个,未知类型的攻击一个,普通数据包一个。这导致了 99% 的成功率和只有 1.5% 的误报。虽然此测试显示了更好的准确性,但在确定 26 个组集中每个组中每个数据包的模糊成员数时,计算过多

下表提供了模糊遗传IDS与其他方法的比较,也使用 KDD 数据集。拟议的FCM系统具有最佳的入侵检测率和误报率,此外,新系统能够正确识别培训数据中未出现的14种入侵。这显示了 FCM 方法的稳健性。

总结

本文采用遗传算法降低维度技术模糊C均值聚类(FCM)相结合的方法(前者用于特征子集的选择,后者用于聚类),以KDDCup1999数据集作为数据来源,对恶意数据包进行识别。实验结果证明,使用5个簇无法识别2%具有真实环境性能的恶意数据包;将集群数量增加到26个时,可以改进方法对于攻击的识别,但计算时间花费巨大。

文中提出的方法可以识别大多数攻击,而且能够确定未知的攻击模式。

需要进一步研究:

(1)确定集群的最佳数量,以及如何划分他们以提高性能而不影响计算时间;

(2)测试特征子集;

(3)减少特征数量将降低FCM算法的复杂性;

(4)进一步测试簇中的成员阈值,以确定识别恶意数据包的最佳方法。

【网络流量识别】【聚类】【一】模糊聚类FCS和GA—网络安全网络流量功能的模糊聚类相关推荐

  1. P2P流量识别技术汇总(原理、优缺点介绍)

    随着P2P技术不断地发展演进,P2P技术及架构的演进经历了集中式.全分布式.混合式三个阶段.P2P常规流量检测一般通过常用的端口来进行识别,然而随着架构的演进,P2P流量识别也因此从简单的端口匹配到复 ...

  2. 《基于深度学习的加密流量识别研究》-2022毕设笔记

    参考文献: 基于深度学习的网络流量分类及异常检测方法研究_王伟 基于深度学习的加密流量分类技术研究与实现_马梦叠 基于深度学习的加密流量识别研究综述及展望_郭宇斌 基于深度学习的加密流量算法识别研究_ ...

  3. 【网络流量识别】【聚类】【二】FCM和GMM—使用聚类技术和性能比较进行网络流量异常检测

    本文介绍采用高斯混合模型(GMM)和模糊C均值聚类(FCM)来进行网络流量异常检测的方法. 原文来自IEEE,发表日期2013年. 原文链接:使用聚类技术和性能比较进行网络流量异常检测|IEEE 会议 ...

  4. 【网络流量识别】【聚类】【三】自适应密度FCM和自适应权重K-Means

    目录 第一篇:自适应密度的模糊聚类 (一)文章内容概述 (二)自适应密度FCM 第二篇:自适应权重的K-Means聚类分析 (一)文章内容概述 (二)自适应权重的K-Means聚类方法 (三)实验结果 ...

  5. 【网络流量识别】【深度学习】【一】IRNN和LSTM—网络入侵检测系统深度学习方法的比较分析(N-IDS):N-IDS 的深度学习

    说在前面:由于博主刚入门学习网络流量识别和检测这块,所以对于一些介绍里面的理论知识可能会全部摘抄下来,不过本系列写着写着基础知识就会少了.然后写方法,简单写一下方法的原理和原理图,最后说一下数据集和结 ...

  6. 洋葱网络流量识别方案

    洋葱网络Tor流量检测方案 1.Tor简介 Tor通过连接一系列虚拟隧道从而允许组织和个人通过公共网络共享信息而不会损害隐私.同样,Tor是一种有效的审查规避工具,允许其用户访问其他被阻止的目的地或内 ...

  7. 【网络流量识别】【深度学习】【二】RNN和ANN—深度学习入侵检测方法:ANN和RNN在NSL-KDD上的新性能

    方法:本文采用两种方法, (1)采用ANN和RNN作为特征选择方法: (2)使用RNN信息增益(IG).粒比 (GR) 和相关属性 (CA) 作为特征选择方法: 数据集为NSL-KDD 数据集.结果表 ...

  8. 网络空间搜索引擎流量识别

    网络空间搜索引擎流量识别 知名网络空间搜索引擎 总结shodan.zoomeye.censys运行模式可概述为下 应用流量识别思路 知名网络空间搜索引擎 shodan.zoomeye.censys. ...

  9. matlab 神经网络dpi,基于DPI和BP神经网络的P2P流量识别研究

    研究与开发 现代计算机 2019.04 上 文章编号:1007-1423(2019)10-0031-05 DOI:10.3969/j.issn.1007-1423.2019.10.007 基于 DPI ...

  10. DNS攻击流量识别思考

    DNS攻击流量识别思考 分析思路 考察DNS安全问题,因此首先寻找都有哪些DNS安全问题. 主要思路: 攻击者思路:搜索搜集对应的攻击类型,依据特征进行检测. Google Nmap dns攻击插件 ...

最新文章

  1. hitchhiker部署_Hitchhiker的React Router v4指南:无限远的递归路径!
  2. AIの幕后人:探秘“硬核英雄”的超级武器
  3. Linux 的无障碍设置如何操作?
  4. MySQL主主(双主)数据同步
  5. 自相关矩阵和互相关矩阵的matlab实现
  6. 主梁弹性模量计算_如何用梁格法计算曲线梁桥?
  7. lucene3.0_IndexSearcher排序
  8. 你还在做描述性数据分析吗?卡方检验案例实操
  9. [PyTorch] 神经网络处理图像
  10. 30天打造专业红客二
  11. PHP正则获取HTML里需要的数据
  12. yum 安装 sz与rz(上传、下载)
  13. 云计算示范项目_“云计算和大数据”重点专项2018年度项目申报指南
  14. php后端技术 有哪些,web后端开发技术有哪些 ?
  15. python3修改文件的编码格式_python批量修改文件编码格式的方法
  16. 查词根词缀特别好的网站
  17. uniapp h5 腾讯地图根据经纬度显示位置,并打开手机导航
  18. 吴军老师的《计算之魂》部分重点摘要
  19. Android 节操视频播放器jiecaovideoplayer使用
  20. 返回ajax有几种方式,java ajax返回 Json 的 几种方式

热门文章

  1. 编码浅析 ASCII EASCII GBK系列 Uincode UTF-8/16/32
  2. 用摄动法证明fibs的一个公式(继续变形)
  3. 苹果id是什么格式的_苹果用户福利 | 史上最简利用itunes抓包教程只需4步!!!...
  4. 无法打开包括文件: “SDKDDKVer.h”问题解决办法
  5. C++ 无法打开包括文件“mysql.h“: No such file or directory
  6. OPENCV Linux 显示中文 arm64
  7. 转载:微信抢红包算法
  8. 第六章 SDRAM控制器的设计
  9. 大地测量学基础(复习)第三部分
  10. java3d读取3ds文件,基于Java3D与3DSMAX的虚拟校园设计