OddBall-图异常点检测
一、概 述
基于图的异常检测分为 孤立点检测 和 异常群簇检测,本文是孤立点检测中较经典的论文,通过研究Ego-net总结几种异常模型及提供度量方式:
异常结构 |
含义 |
度量方式 |
CliqueStar |
呈星状或者团状结构 |
边数~节点邻居数 |
HeavyVicinity |
总边权重异常大 |
总边权重~边数 |
DominantPair |
存在某条权重异常大的边 |
主特征值~总边权重 |
文章调查了Ego-net中存在的异常模式,并给出了检测异常模式的依据基于上述模式,提出了OddBall,一种用于异常点检测的无监督方法,将OddBall应用于真实数据集,并验证了算法的有效性
论文名称:OddBall: Spotting Anomalies in Weighted Graphs
论文地址:http://www.cs.cmu.edu/~mmcgloho/pubs/pakdd10.pdf
代码地址:https://www.andrew.cmu.edu/user/lakoglu/pubs.html#code
二、Ego-net(中心节点)
以中心节点(ego)及其邻居组成的子图,一般用于研究个体性质以及局部社区发现,本文仅考虑一阶邻居,这是为了减少计算量并提和高可解释性。
三、Ego-net模式及度量方法
1 、CliqueStar(基于密度)
基于密度的方法可以识别出下面两种Ego-net的异常结构:
Near-Star:在正常的社交网络中,我们通常认为朋友之间可能会相互认识,因此一阶Ego-net中的邻居之间没有任何关联是非常可疑的,近似星型,邻居之间很少联系(如通话关系网络中的中介、电催人员、营销号码,他们大量的联系别人,然而联系人中之间几乎没啥联系),这种结构的Ego-net被称为star,如下图所示,中心节点与大量节点存在关联,但是邻居之间无联系或者联系很少。
Near-Clique:与上述相反,邻居之间存在大量关联也是非常可疑的,这种结构的Ego-net被称为cliques。正如下图所示,中心节点与大量节点存在关联,邻居之间的联系非常密集,近似环状,邻居之间联系紧密(如某个讨论组、恐怖组织)。
度量方法:边数~邻居数
如下图所示,可以看出大多数节点Ego-net中边数 E 与邻居数 N 服从幂律分布(对数坐标后呈线性)、给定某节点i对应的 Ei 、Ni ,求出幂律系数 α ,若:
α 接近1(黑色虚线),节点i的Ego-net呈现Near-Clique
α 接近2(蓝色虚线),节点i的Ego-net呈现Near-Star
红线是拟合中位数,蓝色和黑色虚线是边界线。
大多数Graph都遵循该模式:
2、HeavyVicinity(权重)
HeavyVicinity指“较重的邻居“,Ego-net中边数一定时,总边权重异常大(如骗贷者通过频繁拨打电话伪造通话记录),中心节点与一小部分节点之间存在权重非常大的关联也是可疑的,如骗贷者通过频繁拨打电话伪造通话记录。正如下图所示,中心节点与少部分节点之间的连接权重非常大。
度量方法:总边权重~边数
大多数节点Ego-net中总边权重~边数也服从幂律分布(对数坐标), β 越高表示越异常
图(a)选举中,民主党(DNC)的大量的资金给为数不多的候选者
3 、DominantPair(主导边)
Dominant heavy links指“主导的边”,Ego-Net中存在某条边权重异常大(如学者投稿会议网络中,“Toshio Fukuda” 拥有115篇papers,投稿了17个会议,但其中87篇pager投稿了一个ICRA):
度量方法:主特征值~总权重
大多数节点Ego-net对应带权邻接矩阵中主特征值(principal eigenvalue,即最大特征值)~总边权重也服从幂律分布,其中系数 λ 表示Ego-net中边权均匀分布, λ 接近1表示存在DominantPair的情况。
四、OddBall异常检测算法
OddBall由out-line(i)和out-lof(i)两部分组成:
out-line:计算实际点与拟合直线(红线)的偏离程度。
out-lof:但out-line但会存在“缺陷是无法识别离正常点很远,但与拟合直线很近的异常点”的缺陷,故结合传统基于密度的方法LOF(也可以选其他的)。
二者集成方式先求出两个score,然后归一化(除以最大值)后求和:
out-score(i)=out-line(i)+out-lof(i)
1、out-line
为实际值, 为在拟合直线(正常点)上的预测值,二者相减为偏离程度/异常程度取
log是为了平滑
为惩罚系数:实际值偏离正常的倍数
2、out-lof
outline的缺陷:无法识别红框内的节点,故引入LOF,详情可参考:https://zhuanlan.zhihu.com/p/28178476
五、相关思考
本文中仅考虑了节点的一阶子图,将子图范围扩展到二阶或者是更大的局部子图是否会效果更好?检测模式依赖的特征是否具有鲁棒性?
推荐阅读:
我的2022届互联网校招分享
我的2021总结
浅谈算法岗和开发岗的区别
互联网校招研发薪资汇总
2022届互联网求职现状,金9银10快变成铜9铁10!!
公众号:AI蜗牛车
保持谦逊、保持自律、保持进步
发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)
发送【1222】获取一份不错的leetcode刷题笔记
发送【AI四大名著】获取四本经典AI电子书
OddBall-图异常点检测相关推荐
- 非监督异常点检测算法总结——没有想到矩阵分解和编码解码器也是一种思路...
非监督异常点检测算法总结 一.基于密度 1) d(p,o):两点p和o之间的距离: 2) k-distance:第k距离 对于点p的第k距离dk(p)定义如下: p的第k距离,也就是距离p第k远的点的 ...
- 异常点检测算法(三)Replicator Neural Networks
异常点检测算法(三)Replicator Neural Networks 异常值检测算法在数据挖掘的诸多领域有着应用场景,例如金融领域,信息传输领域,图像领域等.在研究过程中,有学者给出了异常点的一个 ...
- 异常点检测isolationforest
数据集中的异常数据通常被认为是异常点.离群点或孤立点,特点是这些数据的特征与大多数数据不一致,呈现出"异常"的特点,检测这些数据的方法称为异常检测. 在大多数数据分析和挖掘工作中, ...
- 利用正态分布进行异常点检测
利用正态分布进行异常点检测 风控中安全中我们需要检测异常点,异常点对于黑白样本区分,模型评价,数据分析都具备重要的意义.本文主要就利用正态分布检测异常点的思想进行介绍. 核心思想 正态分布实际上是一个 ...
- 【技术】DTEmpower核心功能技术揭秘(2) - AIOD智能异常点检测技术
一.概述 在上一篇<DTEmpower核心功能技术揭秘(1)--HierarchicalStratify分层分类技术>中,我们提到工业设计方法中往往大量采用了数据驱动的方式构建代理模型.但 ...
- 【技术】DTEmpower核心功能技术揭秘(7) - ROD基于回归分析的异常点检测技术
概述 <DTEmpower核心功能技术揭秘>系列的文章围绕着如何提升机器学习模型的精度,介绍了AIOD.AIAgent.autoML等核心技术.其中AIOD异常点检测技术融合了数十种常见的 ...
- 吴恩达机器学习笔记 —— 16 异常点检测
http://www.cnblogs.com/xing901022/p/9398242.html 本篇介绍了异常点检测相关的知识 更多内容参考 机器学习&深度学习 我感觉这篇整理的很好很用心, ...
- 机器学习之异常点检测
1.iForest(独立森林)算法 样本数据过大时推荐采用这种异常值检测方法 原理分析:iForest森林也由大量的树组成.iForest中的树叫isolation tree,简称iTree.iTre ...
- R语言之离群点检验(part1)--利用箱线图原理检测离群点
学习笔记 参考书目:<R语言与数据挖掘>.<统计学> 利用箱线图原理检测离群点 箱线图 箱线图是由数据的最大值.最小值.中位数.两个四分位数这五个特征值绘制而成的,它主要用于反 ...
最新文章
- html校验长度为9位,2018记一次前端面试笔试考题一
- java中拼写xml
- 【OpenCV 例程200篇】06. 像素的编辑(img.itemset)
- python os.path模块常用方法详解
- 待人真诚p2psearcher2013源码下载
- localStorage、sessionStorage详解,以及storage事件使用
- Java基础---Java---IO流-----LineNumberReader方法及原理、自定义一个LineNumberReader、字节流、图片复制、mp3复制、
- 【软件开发规范五】《用户需求及规格说明书》
- Java服务MQ消息队列容灾方案
- B站html5直播黑屏,b站H5播放器改版后失效 · Issue #777 · the1812/Bilibili-Evolved · GitHub...
- salt常用命令、模块、执行
- 【合规性检查方法-Fitness 2】基于Alignment的拟合度评估方法
- 会计专业毕业论文如何选题?
- 5 MATLAB参数估计与假设检验-参数估计
- Vertx学习一:这玩意是到底是个啥
- Multimodal Discriminative Binary Embedding for Large-Scale Cross-Modal Retrieval--2016.10高新波团队
- ping内网一台虚拟机延时很大(hyper-v虚拟机)的解决办法
- iOS开发-二维码扫描和应用跳转
- MatLab专用变量
- vue3 使用 highcharts 创建 甘特图