本文介绍采用高斯混合模型(GMM)和模糊C均值聚类(FCM)来进行网络流量异常检测的方法。

原文来自IEEE,发表日期2013年。

原文链接:使用聚类技术和性能比较进行网络流量异常检测|IEEE 会议出版物|伊 · X普洛尔

目录

摘要

第一节:介绍

第二节:异常检测方法

第三节:特征选择和简化

3.1 非负矩阵分解(NMF)

3.2 主成分分析(PCA)

第四节:聚类方法和改进

4.1 模糊高斯混合模型(GMM)

总结:


摘要

K-means聚类高斯混合模型(GMM)是有效的聚类技术,模糊聚类比硬聚类更加灵活,并且由于使用模型聚类对数据进行自然处理,因此在入侵检测方面非常实用。模糊c均值聚类法(FCM)是一种迭代的最佳算法,通常基于最小二乘法来划分数据集,具有较高的计算开销。本文建议修改目标函数和距离函数,在保持聚类精度的同时降低FCM的计算复杂性

本文提出了FCM聚类、GMM和特征变换相结合的方法,并且介绍了相关的测试方法和聚类方法的比较。

第一节:介绍

不同的异常以不同的方式出现在网络中,因此设计一个有效的异常检测系统需要从大量嘈杂、高维数据中提取相关信息,区别正常和异常的网络行为的一般模型是困难的。基于模型的算法在应用程序中也不可移植,网络流量的性质发生细微变化,模型也会不合适。因此,基于机器学习原理的非参数学习算法是可取的,因此它们可以学习正常测量的性质,并自主的适应正常结构的变化。

异常数据检测非常重要。因为数据中的异常转化为各种应用领域中重要(且通常至关重要)可操作的信息。例如,计算机网络中的异常流量模式可能意味着被黑客攻击的计算机正在向未经授权的目的地发送敏感数据。异常 MRI 图像可能表示存在恶性肿瘤。信用卡交易数据中的异常可能表明信用卡或身份盗窃航天器传感器的异常读数可能表示航天器某些部件存在故障。

异常数据检测有很多技术,比如统计学,机器学习,数据挖掘和免疫启发技术。聚类是用于异常检测的机器学习技术之一。它基于这样的假设:正常数据实例属于大型和密集的聚类,而异常不属于任何聚类或形成非常小或独特的聚类。模糊聚类比硬聚类更灵活,对于离群值检测非常实用,因为它考虑到了数据的性质。传统的FCM聚类技术的优点是可以量化元素对检测到的聚类的隶属度GK-FCM (古斯塔夫森-凯塞尔 FCM)可以生成适合数据形状和位置的聚类。但是二者的计算复杂性很高。本文提出的对目标函数和距离函数的修改降低了计算复杂性,同时保持了分类的准确性。高斯混合模型(GMM)将数据分类具有指定平均值、协方差和混合比例的子类。它对簇大小的区分具有鲁棒性,并且是FCM将数据实例分类为具有高斯分布的簇的一种实用方法

第二节:异常检测方法

异常检测的方法大概有三种:分类、光谱分析聚类

聚类根据数据相似性对数据进行分类,这些相似性可通过距离函数(如欧几里得函数,切比雪夫函数)来测量。好的集群应该具有内部相似性相互差异性

聚类可分为两种类型:分层聚类使用以前建立的聚类来查找连续的聚类分区聚类根据迭代程序同时确定所有聚类基于密度的算法,如DBSCAN(基于密度的噪声应用空间聚类),以及基于概率模型的技术,如AutoClass和K-means聚类也逐渐流行起来。

第三节:特征选择和简化

通常来说,数据集中许多维度(即特征)在生成模型时没用,为了减少算法复杂性,缩小尺寸很重要。当特征的原始单位和意义很重要且建模目标是识别有影响的子集时特征选择优于特征转换。当存在绝对特征且特征转换不恰当时,特征选择成为减少尺寸的主要手段。

非负矩阵分解(NMF)主成分分析(PCA)是广泛应用的特征变换技术。

3.1 非负矩阵分解(NMF)

许多维度(特征)的原始数据所包含的实际信息可能是重叠和相互关联的。在大多数情况下,需要进行特征选择选择独立且不相关的变量,进行特征约简以获得其低阶近似值并降低大型数据库的计算复杂度,以及进行特征转换以通过线性或非线性转换组合不同的变量并形成显著的特征

给定一个非负m*n矩阵X和正整数k<min(m, n),NMF找到非负m*k矩阵W和k*n矩阵H,使X–WH的范数最小化,因此W和H是X的近似非负因子。W的k列表示X中变量的变换;H的k行表示X中原始n个变量的线性组合的系数,这些线性组合产生W中的转换变量。由于k<X的秩,乘积WH提供X中数据的压缩近似值。k的可能值通常由建模的上下文决定。

3.2 主成分分析(PCA)

主成分分析使用正交变换一组可能相关变量的观测值转换为一组称为主成分的线性不相关变量值。每个主成分都是原始变量的线性组合。所有主成分相互正交,因此没有冗余信息。主成分的数量小于或等于原始变量的数量。此转换的定义方式如下:主分量是空间中的单轴。将每个观察投影到该轴上时,结果值将形成一个新变量。第二个主分量是空间中的另一个轴,垂直于第一个主分量。将观测值投影到此轴上会生成另一个新变量。主成分分析对原始变量的相对比例敏感。

定义一个经验平均值为零的数据矩阵XT,其中n行中的每一行表示实验的不同重复,m列中的每一列表示特定的特征。X的奇异值分解为X=W∑VT,其中m×m矩阵W是协方差矩阵XXT的特征向量矩阵,矩阵∑是对角线上有非负实数的m×n矩形对角矩阵,n×n矩阵V是XTX的特征向量矩阵。PCA变换由:YT=XTW给出。如果我们想要一个降维表示,我们可以将X投影到仅由前L个奇异向量定义的降维空间中,∑L是一个矩形单位矩阵。X的奇异向量的矩阵W等价于观测协方差C=X XT的矩阵的特征向量的矩阵W。

第四节:聚类方法和改进

传统聚类方法将每个数据点分到一个簇,但模糊聚类可以分类为多个不同归属性的聚类。模糊聚类会生成精确的解决方案,并从某个或者一组输入信息中产生结果,其更加灵活。

本节介绍K-means聚类,高斯混合模型,FCM和GKFCM聚类方法。FCM和GKFCM都可以有效的生成集群,但开销较大。然后建议对FCM进行修改(目标函数和距离函数),以简化计算复杂性。还讨论了通过非负矩阵因子化进行特征约简和特征转化的问题。

4.1 模糊高斯混合模型(GMM)

高斯混合模型是通过组合多变异正常密度组件而形成的。它们通常用于数据聚类。通过选择最大化后概率的组件来分配组集。与 K 型聚类一样,高斯混合建模使用迭次算法,该算法会收敛到本地最佳值。当聚类内部具有不同的大小和相关性时,高斯混合物建模可能比 k 型聚类更合适。

对于具有C聚类结构的D维数据集 x,每个聚类是高斯分布,参数μ(i),聚类 i 的密度为:

簇k的优先概率为a(k),混合密度是:

其中 x 和 μ 是 I-D 向量,Σ是一个D-D对称的正定矩阵。我们可以根据混合密度定义新的距离函数,具体如下:

它像FCM 聚类中的物理距离一样,具有相同的特征。因此,在距离转换后,我们可以使用FCM程序实现基于聚类的高斯混合模型。聚类过程是一个迭次过程,以最小化目标函数,

这里m:[1, ∞]是一个权重指数,决定集群的模糊性(模糊参数);值越大,模糊性越强。如果m=1,说明数据集是不模糊的。d是在上上式子定义过的。

迭次过程与传统 FCM 相同,使用三次重复,直到满足标准:通常达到预先配置的阈值。

总结:

本文的方法:FCM是灵活的聚类方法,可以量化元素对检测到的聚类的隶属度;GK-FCM可以生成适合数据形状和位置的聚类;二者计算复杂性很高,所以改变目标函数和距离函数降低复杂性GMM将数据分成子类,帮助FCM将数据分为具有高斯分布的簇。

有以下需要注意的知识:

(1)明白异常检测(数据)的重要性。不仅是在计算机网络异常流量检测,还有异常MRI图像检测恶性肿瘤信用卡交易数据异常表明身份盗窃航天器传感器数据异常表明部件损坏等等。

(2)聚类的假设:正常数据属于大型和密集的聚类异常不属于或者属于小而独特的聚类。模糊聚类更加灵活,对于离群值检测很实用,因为考虑到了数据的性质。

(3)聚类原理:根据数据的相似性,采用距离函数来度量。

(4)聚类方法分类:分层聚类和分区聚类。

——分层聚类使用根据以前建立的聚类查找连续的聚类;

——分区聚类根据迭代程序同时确定所有聚类;

【网络流量识别】【聚类】【二】FCM和GMM—使用聚类技术和性能比较进行网络流量异常检测相关推荐

  1. 《基于深度学习的加密流量识别研究》-2022毕设笔记

    参考文献: 基于深度学习的网络流量分类及异常检测方法研究_王伟 基于深度学习的加密流量分类技术研究与实现_马梦叠 基于深度学习的加密流量识别研究综述及展望_郭宇斌 基于深度学习的加密流量算法识别研究_ ...

  2. 网络切片技术缺点_什么是网络切片?

    什么是网络切片 第一次听到网络切片的时候,你小小的眼睛里面一定充满了大大的疑惑.现在给自己三分钟的时间,简单的先想象一下网络的切片到底是什么,然后欢迎你把大脑里有趣生动活泼的画面分享留言的哦! 一.来 ...

  3. 【网络流量识别】【聚类】【三】自适应密度FCM和自适应权重K-Means

    目录 第一篇:自适应密度的模糊聚类 (一)文章内容概述 (二)自适应密度FCM 第二篇:自适应权重的K-Means聚类分析 (一)文章内容概述 (二)自适应权重的K-Means聚类方法 (三)实验结果 ...

  4. 【网络流量识别】【深度学习】【二】RNN和ANN—深度学习入侵检测方法:ANN和RNN在NSL-KDD上的新性能

    方法:本文采用两种方法, (1)采用ANN和RNN作为特征选择方法: (2)使用RNN信息增益(IG).粒比 (GR) 和相关属性 (CA) 作为特征选择方法: 数据集为NSL-KDD 数据集.结果表 ...

  5. Kali Linux 网络扫描秘籍 第四章 指纹识别(二)

    第四章 指纹识别(二) 作者:Justin Hutchens 译者:飞龙 协议:CC BY-NC-SA 4.0 4.6 Nmap 服务识别 虽然特征抓取是非常有利的信息来源,服务特征中的版本发现越来越 ...

  6. 【网络流量识别】【深度学习】【四】DNN、GBT和RF—利用大数据和深度学习技术进行入侵检测

    本文发表于2019年4月,ACM东南会议纪要,作者为奥萨马·费克等人,现收录于ACM网站. 原文题目:使用大数据和深度学习技术进行入侵检测 原文链接:使用大数据和深度学习技术进行入侵检测|2019年A ...

  7. 洋葱网络流量识别方案

    洋葱网络Tor流量检测方案 1.Tor简介 Tor通过连接一系列虚拟隧道从而允许组织和个人通过公共网络共享信息而不会损害隐私.同样,Tor是一种有效的审查规避工具,允许其用户访问其他被阻止的目的地或内 ...

  8. 【网络流量识别】【深度学习】【三】CNN和LSTM—基于信息获取和深度学习的网络流量异常检测

    本文是北京大学陆祥林等人,2019年四月发表于ICISDM的一篇文章,收录于ACM网站. 文章题目:基于信息获取和深度学习的网络流量异常检测 原文网址:基于信息获取和深度学习的网络流量异常检测|201 ...

  9. 【计算机视觉(CV)】基于图像分类网络VGG实现中草药识别(二)

    [计算机视觉(CV)]基于图像分类网络VGG实现中草药识别(二) 作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践 ...

最新文章

  1. cython安装、使用
  2. 传统网站性能优化的三种手段
  3. mysql 最长字符串_那些年的Mysql
  4. 测试跟踪工具Bugzilla介绍
  5. 事件监听机制——鼠标事件MouseEvent
  6. Eclipse代码自动补全的颜色修改
  7. tomcat启动报错:Bean name 'XXX' is already used in this beans element
  8. 借助Fargate和EKS,AWS甚至可以实现Cloud-ier和Kuberneties-ier
  9. canvas笔记-二次贝塞尔曲线与三次贝塞尔曲线的用法
  10. python就业方向-连小学生都在学的Python,究竟就业方向有哪些?
  11. 设计模式 -- 解释器模式(Interpreter Pattern)
  12. 【华为认证】HCIA-DATACOM史上最全精选题库(附答案解析)
  13. SQL注入原理,啊D明小子高手必看! 明小子4.1我已上传 可以下载
  14. 如何用idftp遍历整个目录----下载、删除_delphi教程
  15. async function
  16. 离了加多宝 第三季好声音将“变味”
  17. 针式 PKM 个人知识管理软件 视频简介
  18. 十一届蓝桥杯省赛C语言B组——B: 既约分数
  19. 新iPhone9月登场, 5大特色浮出水!
  20. TM1621数码管驱动

热门文章

  1. 燕山大学2019年计算机全国排名,燕山大学2019年排名第90位 较2018年下降6名
  2. 爪哇国新游记之六----抽象类
  3. SANY北京地区笔试题(研发类岗位)
  4. 55--mvc:annotation-driven标签解析
  5. 网易云课程:深度学习与PyTorch入门实战
  6. 电脑彻底删除的文件如何恢复?
  7. 测试人员如何管理项目与风险预警
  8. 为 RSSBus Connect™ 管理界面配置多用户登录
  9. IRPT_TAS用户协议
  10. linux磁盘坏块 cp报错,Linux磁盘坏道的检测及修复