消失的网络-基于图流的异常检测算法SpotLight
今天给大家介绍一个非常牛逼的图异常检测方法,今天只开个头,抛砖引玉,介绍下基本原理,后续有时间了,慢慢讲细节和实战。
我们如何从电子邮件或运输日志中发现有趣的事件?我们如何从IP-IP通信数据中检测端口扫描或拒绝服务攻击?通常,给定一系列加权图,有向图或二部图,每个图都汇总了一个时间窗口中的活动快照,我们如何才能发现异常图,其中包含大的密集子图(例如,双斜度)的突然出现或消失,而该图又在真实附近 使用次线性记忆的时间?为此,我们提出了一种基于随机草图绘制的方法,称为SpotLight,该方法可确保在适当选择参数的情况下,以高概率将异常图形与草图空间中的“正常”实例“相距很远”。
这篇文章的核心是将整个图结构嵌入为一个vector,然后进行图级别的异常检测,我读完的感受是:simple but effective!简直牛逼大发了。
这个二部图表示,密集异常出现在了t=3这一时刻,可以发现是s3和s4之间可能发生了故障。
今天要给大家介绍的论文的题目是《SpotLight: Detecting Anomalies in Streaming Graphs》,这是一篇2018年kdd上的文章,主要介绍了如何在动态二部图中进行异常检测。
论文地址:https://dl.acm.org/doi/abs/10.1145/3219819.3220040
PDF地址:https://dl.acm.org/doi/pdf/10.1145/3219819.3220040
一、算法概述
问题1: 给定一系列加权有向/二部图,{G1,G2,…},使用亚线性存储器接近实时地检测Gt是否包含突然消失的大密集有向子图。
基于该问题,本文提出了一种基于随机草图绘制的方法----SpotLight。该方法可确保在选择适当参数的情况下,以高概率将异常图形与草图空间中的“正常”图形相距很远。
1、SpotLight的应用场景有哪些?
SpotLight专注于检测涉及大的有向子图的突然出现或消失的异常,可应用于
a)检测网络通信日志中的攻击(端口扫描,拒绝服务)
b)有趣的/ 欺诈行为会在用户-用户通信日志中造成活动高峰
c)重要事件导致流入/流出某些位置的流量异常
2、spotLight与以前的方法相比有哪些优势?
在现实世界的数据集上进行的大量实验表明,SpotLight
a)与以前的方法相比,至少提高了8.4%的精度
b)速度快,可以在几分钟内处理数百万条边
c)与 边缘和草图尺寸
d)在实践中带来有趣的发现
检测大型密集有向子图的突然消失或者出现,技术挑战是在计算上,新的边缘和节点不断到达,只有限的时间和空间来处理更改。采用的方法是设计图表的简短摘要或草图,这些摘要或草图可以揭示新发现的异常,并且可以在高速移动数据流上快速进行更新和维护。
二、本文贡献
1、算法
提出了SpotLight,这是一种简单的基于随机草图的简单方法来解决问题。
2、保证
证明SpotLight在预期中具有焦点意识,即将焦点集中在边缘的添加或删除上
3、有效性
对真实数据的大量实验表明,SpotLight在性能方面优于以前的方法精确度和召回率,快速且可扩展。
三、算法细节
1、定义:图流
每个Gt=(St,Dt,εt),边缘集合Et中的每个边缘*(s,d,w)都源自源s ∈St*,终止于目标d∈Dt,权重为w∈R 。At = [At,sd]是Gt的邻接关系,其中每个A t,sd表示将源s连接到目的地d的边缘权重之和。
我们根据节点采样概率,将从源头的采样概率定为p,将从目标的采样概率定为q的,组成一个草图,其中包含K个特定的查询子图的总边缘权重,这些查询子图是独立且随机选择的。
2、步 骤
步骤1:它为每个图提取一个K维SpotLight草图v(G),以使包含大型密集子图的突然出现(消失)的图距离草图空间中的“正常”图很“远”。
步骤2:它利用草图空间中的距离间隙来检测产生异常的草图作为异常图
SpotLight图草绘制:
举例:具有单位重量边缘的图G的 (K = 3,p = 0.5,q = 0.33)-SpotLight草图v(G):
具体算法:
分析
假设:G始终是拥有Ns个源和Ns个目标的任意加权有向图或者二分图,且Ns = Nd = N,p = q。
定义SL-distance:SL-distance是它们的SpotLight草图之间的期望平方欧几里得距离
G1,G2代表SpotLight空间中图形G1和G2之间 SL-distance
Focus-awareness:如下图,稠密星图的添加比稀疏匹配图的添加更异常,即d¯(G, GS ) > d¯(G, GM )。同时距离间隙甚至随着边数m和草图尺寸K的增加而增加
*ϵ-SL-Farness:如果 G1 和 G2满足下图的要求,则认为与G2相比,G1是ϵ-SL-Farness。
异常检测标准:
其中ξ满足
四、实验内容
1、数据集
1)Darpa dataset
包含450万个IP-IP通信,这些通信在9484个源IP和23398个目标IP之间进行,时间间隔为87.7K(分钟)。每种通信都是有向边。通过汇总每个小时持续时间内出现的边,本文获得了1463个图的流。数据集包含89种已知的网络攻击。
2)Enron dataset
包含约50000封电子邮件,这些电子邮件在Enron公司的151名员工中,围绕着著名的Enron丑闻在3年时间内进行了交换。每封电子邮件都是有向边的(发件人,收件人,时间戳)。通过将每天视为自己的图,得出1139张图的流。
3)NycTaxi dataset
包含从纽约市出租车委员会获得的3个月(2015年11月至2016年1月)期间的出租车乘客数据。每次出租车旅行都配备有上车(PU)/下车(DO)时间和PU / DO位置的(经纬度)坐标,本文将按下列步骤处理:根据地图上的常识(包括公园,机场,体育场,桥梁,居民区,岛屿)手动选择57个在地理上或概念上可区分的纽约市区域的中心,并记下其(经度,纬度)坐标。然后将每个PU / DO位置分配到最近的区域。因此,为每个出租车行程创建了一个有向边(srcZone,dstZone,时间戳),这些被进一步汇总为2208个图表。
2、试验结果
SpotLight(SL)与基线(EW,RHSS,STA)的precision(精确度),recall(召回率),运行时间的结果对比
SL的可扩展性以及边的数量和草图尺寸
1)Darpa dataset的异常检测结果
2)Enron dataset的SL异常检测结果
3)NycTaxi dataset的SL异常检测结果
推荐阅读:
我的2022届互联网校招分享
我的2021总结
浅谈算法岗和开发岗的区别
互联网校招研发薪资汇总
2022届互联网求职现状,金9银10快变成铜9铁10!!
公众号:AI蜗牛车
保持谦逊、保持自律、保持进步
发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)
发送【1222】获取一份不错的leetcode刷题笔记
发送【AI四大名著】获取四本经典AI电子书
消失的网络-基于图流的异常检测算法SpotLight相关推荐
- SynchroTrap:基于相似度的异常检测算法
SynchroTrap简介 什么是SynchroTrap 顾名思义,SynchroTrap即在同步情况下的欺诈.黑产通过控制大量的账号,需要在有限的时间里获取最大的利益,那不可避免的就会产生多个黑产账 ...
- 《异常检测——从经典算法到深度学习》16 基于VAE和LOF的无监督KPI异常检测算法
<异常检测--从经典算法到深度学习> 0 概论 1 基于隔离森林的异常检测算法 2 基于LOF的异常检测算法 3 基于One-Class SVM的异常检测算法 4 基于高斯概率密度异常检测 ...
- 基于用户行为建模和异常检测算法的内部威胁检测
Insider Threat Detection Based on User Behavior Modeling and Anomaly Detection Algorithms 内部威胁是授权用户的 ...
- 带你读论文丨异常检测算法及发展趋势分析
摘要:本文根据对现有基于深度学习的异常检测算法的调研,介绍现有的深度异常检测算法,并对深度异常检测算法的未来发展趋势进行大致的预测. 本文分享自华为云社区<[论文阅读]异常检测算法及发展趋势分析 ...
- 震惊!(竟有这么好的)时序数据异常检测算法简述与分类
时序数据异常检测算法简述与分类 摘要:异常检测是目前时序数据分析最成熟的应用之一,有效的异常检测被广泛用于现实世界的很多领域,例如量化交易,网络安全检测.自动驾驶 ...
- 异常检测算法:Isolation Forest
iForest (Isolation Forest)是由Liu et al. [1] 提出来的基于二叉树的ensemble异常检测算法,具有效果好.训练快(线性复杂度)等特点. 1. 前言 iFore ...
- 基于图的异常检测算法——概述
正在调研基于图的异常检测算法,先出个概述,后面再慢慢填坑 基于图的异常检测 给定一个图数据库,找到其中罕见不同于其他数据对象的点/边/子结构 静态图的异常检测 普通静态图 基于结构 基于特征:利用图结 ...
- 论文阅读_基于深度学习的异常检测综述
英文题目:Deep Learning for Anomaly Detection: A Review 中文题目:基于深度学习的异常检测综述 论文地址:https://arxiv.org/pdf/200 ...
- 【轩说AI】基于GAN模型的异常检测
文章目录 基于GAN模型的异常检测 AnoGAN 基本思想 工作流程 在迭代z时的损失函数 问题 Conditional GAN 简单回顾. Info GAN 基本思想 网络结构 实验结果 VAE-G ...
最新文章
- 多目标跟踪FairMOT笔记
- 为什么我的vc6.0建立工程时显示不能访问类查文件类信息,类查看信息不可用
- Python之一行代码
- DIB位图(Bitmap)的读取和保存
- 【机器学习基础】9 大主题!机器学习算法理论面试题大汇总
- Spark RDD解密
- .net 垃圾回收机制
- 如何使用Python处理丢失的数据
- 【操作系统复习】进程的状态与转换
- 设计模式速查手册-创建型
- 业界分享 | 百度图神经网络实践
- Django框架配置
- 笨猪猪:“暹粒游记”(下)
- 自检、开机故障及主板厂商资料
- 如何更改PDF文件中的字体?
- ASP.NET Core 和 EF Core 系列教程——迁移
- html页面内容不可复制粘贴,教你如何解决网页不能复制粘贴的问题
- lxqt lxde_面向极简主义者的Linux桌面:LXQt和LXDE入门
- [ 重 新 预 习 ] Node.js搭建服务
- 在Parcharm中看一场浪漫的爱情电影(代码实现)
热门文章
- 如何用mysql创建数据仓库_数据仓库入门(实验1)创建数据源
- mmap(内存映射)和shm(共享存储)
- C++中istringstream、ostringstream、stringstream详细介绍和使用
- 解决所有浏览器被“hao 123”拦截的终极大法,试过很多很多方法都不管用,最终这个管用。
- 2021年建筑电工(建筑特殊工种)报名考试及建筑电工(建筑特殊工种)考试报名
- hdu 4063 Aircraft
- Perl 数组和列表
- Error: getaddrinfo ENOENT报错解决
- 苹果手机自动聚焦并弹出软键盘
- .aspx.cs不存在,问题原因