今天给大家介绍一个非常牛逼的图异常检测方法,今天只开个头,抛砖引玉,介绍下基本原理,后续有时间了,慢慢讲细节和实战。

我们如何从电子邮件或运输日志中发现有趣的事件?我们如何从IP-IP通信数据中检测端口扫描或拒绝服务攻击?通常,给定一系列加权图,有向图或二部图,每个图都汇总了一个时间窗口中的活动快照,我们如何才能发现异常图,其中包含大的密集子图(例如,双斜度)的突然出现或消失,而该图又在真实附近 使用次线性记忆的时间?为此,我们提出了一种基于随机草图绘制的方法,称为SpotLight,该方法可确保在适当选择参数的情况下,以高概率将异常图形与草图空间中的“正常”实例“相距很远”。

这篇文章的核心是将整个图结构嵌入为一个vector,然后进行图级别的异常检测,我读完的感受是:simple but effective!简直牛逼大发了。

这个二部图表示,密集异常出现在了t=3这一时刻,可以发现是s3和s4之间可能发生了故障。

今天要给大家介绍的论文的题目是《SpotLight: Detecting Anomalies in Streaming Graphs》,这是一篇2018年kdd上的文章,主要介绍了如何在动态二部图中进行异常检测。

论文地址:https://dl.acm.org/doi/abs/10.1145/3219819.3220040

PDF地址:https://dl.acm.org/doi/pdf/10.1145/3219819.3220040

一、算法概述

问题1: 给定一系列加权有向/二部图,{G1,G2,…},使用亚线性存储器接近实时地检测Gt是否包含突然消失的大密集有向子图。

基于该问题,本文提出了一种基于随机草图绘制的方法----SpotLight。该方法可确保在选择适当参数的情况下,以高概率将异常图形与草图空间中的“正常”图形相距很远。

1、SpotLight的应用场景有哪些?

SpotLight专注于检测涉及大的有向子图的突然出现或消失的异常,可应用于

a)检测网络通信日志中的攻击(端口扫描,拒绝服务)

b)有趣的/ 欺诈行为会在用户-用户通信日志中造成活动高峰

c)重要事件导致流入/流出某些位置的流量异常

2、spotLight与以前的方法相比有哪些优势?

在现实世界的数据集上进行的大量实验表明,SpotLight

a)与以前的方法相比,至少提高了8.4%的精度

b)速度快,可以在几分钟内处理数百万条边

c)与 边缘和草图尺寸

d)在实践中带来有趣的发现

检测大型密集有向子图的突然消失或者出现,技术挑战是在计算上,新的边缘和节点不断到达,只有限的时间和空间来处理更改。采用的方法是设计图表的简短摘要或草图,这些摘要或草图可以揭示新发现的异常,并且可以在高速移动数据流上快速进行更新和维护。

二、本文贡献

1、算法

提出了SpotLight,这是一种简单的基于随机草图的简单方法来解决问题。

2、保证

证明SpotLight在预期中具有焦点意识,即将焦点集中在边缘的添加或删除上

3、有效性

对真实数据的大量实验表明,SpotLight在性能方面优于以前的方法精确度和召回率,快速且可扩展。

三、算法细节

1、定义:图流

每个Gt=(St,Dt,εt),边缘集合Et中的每个边缘*(s,d,w)都源自源s ∈St*,终止于目标d∈Dt,权重为w∈R 。At = [At,sd]是Gt的邻接关系,其中每个A t,sd表示将源s连接到目的地d的边缘权重之和。

我们根据节点采样概率,将从源头的采样概率定为p,将从目标的采样概率定为q的,组成一个草图,其中包含K个特定的查询子图的总边缘权重,这些查询子图是独立且随机选择的。

2、步  骤

步骤1:它为每个图提取一个K维SpotLight草图v(G),以使包含大型密集子图的突然出现(消失)的图距离草图空间中的“正常”图很“远”。

步骤2:它利用草图空间中的距离间隙来检测产生异常的草图作为异常图

SpotLight图草绘制:

举例:具有单位重量边缘的图G的 (K = 3,p = 0.5,q = 0.33)-SpotLight草图v(G):

具体算法:

分析

假设:G始终是拥有Ns个源和Ns个目标的任意加权有向图或者二分图,且Ns = Nd = N,p = q。

定义SL-distance:SL-distance是它们的SpotLight草图之间的期望平方欧几里得距离

G1,G2代表SpotLight空间中图形G1和G2之间 SL-distance

Focus-awareness:如下图,稠密星图的添加比稀疏匹配图的添加更异常,即d¯(G, GS ) > d¯(G, GM )。同时距离间隙甚至随着边数m和草图尺寸K的增加而增加

*ϵ-SL-Farness:如果 G1 和 G2满足下图的要求,则认为与G2相比,G1是ϵ-SL-Farness。

异常检测标准:

其中ξ满足

四、实验内容

1、数据集

1)Darpa dataset

包含450万个IP-IP通信,这些通信在9484个源IP和23398个目标IP之间进行,时间间隔为87.7K(分钟)。每种通信都是有向边。通过汇总每个小时持续时间内出现的边,本文获得了1463个图的流。数据集包含89种已知的网络攻击。

2)Enron dataset

包含约50000封电子邮件,这些电子邮件在Enron公司的151名员工中,围绕着著名的Enron丑闻在3年时间内进行了交换。每封电子邮件都是有向边的(发件人,收件人,时间戳)。通过将每天视为自己的图,得出1139张图的流。

3)NycTaxi dataset

包含从纽约市出租车委员会获得的3个月(2015年11月至2016年1月)期间的出租车乘客数据。每次出租车旅行都配备有上车(PU)/下车(DO)时间和PU / DO位置的(经纬度)坐标,本文将按下列步骤处理:根据地图上的常识(包括公园,机场,体育场,桥梁,居民区,岛屿)手动选择57个在地理上或概念上可区分的纽约市区域的中心,并记下其(经度,纬度)坐标。然后将每个PU / DO位置分配到最近的区域。因此,为每个出租车行程创建了一个有向边(srcZone,dstZone,时间戳),这些被进一步汇总为2208个图表。

2、试验结果

SpotLight(SL)与基线(EW,RHSS,STA)的precision(精确度),recall(召回率),运行时间的结果对比

SL的可扩展性以及边的数量和草图尺寸

1)Darpa dataset的异常检测结果

2)Enron dataset的SL异常检测结果

3)NycTaxi dataset的SL异常检测结果

推荐阅读:

我的2022届互联网校招分享

我的2021总结

浅谈算法岗和开发岗的区别

互联网校招研发薪资汇总

2022届互联网求职现状,金9银10快变成铜9铁10!!

公众号:AI蜗牛车

保持谦逊、保持自律、保持进步

发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)

发送【1222】获取一份不错的leetcode刷题笔记

发送【AI四大名著】获取四本经典AI电子书

消失的网络-基于图流的异常检测算法SpotLight相关推荐

  1. SynchroTrap:基于相似度的异常检测算法

    SynchroTrap简介 什么是SynchroTrap 顾名思义,SynchroTrap即在同步情况下的欺诈.黑产通过控制大量的账号,需要在有限的时间里获取最大的利益,那不可避免的就会产生多个黑产账 ...

  2. 《异常检测——从经典算法到深度学习》16 基于VAE和LOF的无监督KPI异常检测算法

    <异常检测--从经典算法到深度学习> 0 概论 1 基于隔离森林的异常检测算法 2 基于LOF的异常检测算法 3 基于One-Class SVM的异常检测算法 4 基于高斯概率密度异常检测 ...

  3. 基于用户行为建模和异常检测算法的内部威胁检测

    Insider Threat Detection Based on User Behavior Modeling and Anomaly Detection Algorithms 内部威胁是授权用户的 ...

  4. 带你读论文丨异常检测算法及发展趋势分析

    摘要:本文根据对现有基于深度学习的异常检测算法的调研,介绍现有的深度异常检测算法,并对深度异常检测算法的未来发展趋势进行大致的预测. 本文分享自华为云社区<[论文阅读]异常检测算法及发展趋势分析 ...

  5. 震惊!(竟有这么好的)时序数据异常检测算法简述与分类

                       时序数据异常检测算法简述与分类 摘要:异常检测是目前时序数据分析最成熟的应用之一,有效的异常检测被广泛用于现实世界的很多领域,例如量化交易,网络安全检测.自动驾驶 ...

  6. 异常检测算法:Isolation Forest

    iForest (Isolation Forest)是由Liu et al. [1] 提出来的基于二叉树的ensemble异常检测算法,具有效果好.训练快(线性复杂度)等特点. 1. 前言 iFore ...

  7. 基于图的异常检测算法——概述

    正在调研基于图的异常检测算法,先出个概述,后面再慢慢填坑 基于图的异常检测 给定一个图数据库,找到其中罕见不同于其他数据对象的点/边/子结构 静态图的异常检测 普通静态图 基于结构 基于特征:利用图结 ...

  8. 论文阅读_基于深度学习的异常检测综述

    英文题目:Deep Learning for Anomaly Detection: A Review 中文题目:基于深度学习的异常检测综述 论文地址:https://arxiv.org/pdf/200 ...

  9. 【轩说AI】基于GAN模型的异常检测

    文章目录 基于GAN模型的异常检测 AnoGAN 基本思想 工作流程 在迭代z时的损失函数 问题 Conditional GAN 简单回顾. Info GAN 基本思想 网络结构 实验结果 VAE-G ...

最新文章

  1. 多目标跟踪FairMOT笔记
  2. 为什么我的vc6.0建立工程时显示不能访问类查文件类信息,类查看信息不可用
  3. Python之一行代码
  4. DIB位图(Bitmap)的读取和保存
  5. 【机器学习基础】9 大主题!机器学习算法理论面试题大汇总
  6. Spark RDD解密
  7. .net 垃圾回收机制
  8. 如何使用Python处理丢失的数据
  9. 【操作系统复习】进程的状态与转换
  10. 设计模式速查手册-创建型
  11. 业界分享 | 百度图神经网络实践
  12. Django框架配置
  13. 笨猪猪:“暹粒游记”(下)
  14. 自检、开机故障及主板厂商资料
  15. 如何更改PDF文件中的字体?
  16. ASP.NET Core 和 EF Core 系列教程——迁移
  17. html页面内容不可复制粘贴,教你如何解决网页不能复制粘贴的问题
  18. lxqt lxde_面向极简主义者的Linux桌面:LXQt和LXDE入门
  19. [ 重 新 预 习 ] Node.js搭建服务
  20. 在Parcharm中看一场浪漫的爱情电影(代码实现)

热门文章

  1. 如何用mysql创建数据仓库_数据仓库入门(实验1)创建数据源
  2. mmap(内存映射)和shm(共享存储)
  3. C++中istringstream、ostringstream、stringstream详细介绍和使用
  4. 解决所有浏览器被“hao 123”拦截的终极大法,试过很多很多方法都不管用,最终这个管用。
  5. 2021年建筑电工(建筑特殊工种)报名考试及建筑电工(建筑特殊工种)考试报名
  6. hdu 4063 Aircraft
  7. Perl 数组和列表
  8. Error: getaddrinfo ENOENT报错解决
  9. 苹果手机自动聚焦并弹出软键盘
  10. .aspx.cs不存在,问题原因