先介绍下这个篇论文的背景:这篇论文是卡内基梅隆大学的Manuel Egele于今年(2013)发表在NDSS(Network and Distributed SystemSecurity)上,NDSS是信息安全领域顶级国际会议,比最牛的S&P和CCS稍微弱点,但属于一个级别。论文写的比较详细了共17页,报告注重于描述其方法,对于其对数据的收集,预处理,选取特征优势的分析等不进行介绍,对于实验结果的分析只进行简单描述。报告最后写了一些我对这篇论文的部分看法和思考。不多说,直接来看看上了新闻的论文是多么的犀利!(论文我也只读了2遍,有些地方理解的还不是很到位,若有分析不对的地方请指出)

该论文的主要贡献:首次提出了一种用于检测社交网络中正常帐号被盗后发布诈骗、钓鱼、垃圾等恶意消息问题的方法,这一点是该论文最主要的新颖之处。其次提出了7种用于建立个人行文模型的特征。最后通过实验验证了所提方法的有效性。

一、检测方法

论文是针对Twitter和Facebook中用户所发的消息进行分析研究。为了对论文所提检测方法有总体认识,先看下方法的总体框架如图1所示。图1中消息流是由用户所发的消息及附带信息组成。当然,处理流程可以先对消息进行个人行为模型匹配然后在进行分类,但文中说明由于数据采集时遇到的限制(具体限制在最后说明),采用了如图1的方式。

图1 异常帐号检测方法总体框架

参照图1通过对每部分进行详细介绍,逐步扩展内容,达到说明整个方法的目的:

1.1   用户行为模型

根据每位历史用户的历史数据建立个人行为模型,在建立个人行为模型时要求获得的用户历史消息数目达到一定量(文中设置为10条)。文中提出用于建立个人行为模型的特征有:1.消息发表的时间段;2.使用什么发表(PC,ios,android,其他第三方应用等);3.使用的语言类别(英语、德语等);4.消息的话题;5.消息中包含的连接;6.直接互动过的好友;7.邻近(地理位置等)。(对于这7种特征的使用时要进行的处理我就暂时不写,需要的话我在补上)。

论文采用为每个特征建立一个模型进行匹配及评分(所有模型的建立是一样的)。这种模型很简单,就是由一组Key-Value对组成的大数组,Key就是特征值,Value就是这个特征值出现的次数。还是直接文中的举例比较清楚:

下面就该说评分规则了。文中的评分规则也很简单,但是这说起来比较麻烦,我就说个大概。首先要明确,评分先是每个特征独立评分,模型相同,评分规则也相同。每个特征分评好后,再综合给出个最终评分。模型评分:当新消息来了,提取特征,看特征值在历史记录里有没?有且对应value大于门限值(文中区均值,如上例:门限为10.5)得0分,若有但对应value小于门限值,返回f分(0<f<1)。若没有则得1分。综合评分使用SMO算法获得(这个还不是太明白,后续需要学习下,看看能用于那些场合。不过weka里有,可以直接用。很多数据挖掘的算法都可以直接用,从而获得参数)。

1.2   基于内容的相似度分类

帐号异常检测需要进行基于内容的相似度分析的原因是基于这样一个事实:钓鱼、诈骗等消息是需要大量传播的。所以文章认为,当只有一条消息被判定为异常时,并不认为其对应帐号发生异常,需要进一步观察更多的其他类似消息,只有类似消息达到一定数量时,才认定发送这些消息的帐号为异常帐号。

内容相似度的计算有两种方法,1.文本内容相似度;2.包含的URL相似度。文本内容相似度使用n-gram算法实现,文中n取4。n取值越大,相似度计算的越准确。不过吴军的《数学之美》里说过,google等真实应用中一般都取n=3,当n=4时存储、计算等耗费太大,基本不能实际应用。URL相似度计算是采用URL中除去参数部分进行匹配,当URL是短网址时,通过扩展短网址后获取最终页面URL进行匹配(但文章实验并没用使用,解释说没能实现)。

1.3   新消息的匹配评分

这个已经在1.1用户模型中解析了。图1中说:“对每个分类中的所有消息与对应的个人行为进行匹配获得异常得分”。也就是说对所有消息进行模型匹配评分,只是前面经过了分类。是否分类在这里处理都是一样的

1.4   异常帐号检测

判定异常帐号规则的主要思路是:对不同分组中异常消息对应的帐号是否异常的判定要依赖于异常消息所在分组规模的大小。同时还基于这样一个假设:认为同一个相似消息的数量很多时(即分组规模很大时),这本身就是个不正常现象。

异常帐号检测的规则是:每个分组中只要有消息的个人行为模型异常评分超过一定门限,就判定这个分组为异常消息租,则其中所有消息对应的帐号为异常帐号。文中给出门限值计算方式:th(n) = max(0.1,kn+d); k = -0.005, d = 0.82。由此达到给予分组规模小的异常消息判定门限较高,分组规模大的门限较低。

以上就是论文所提方法的主要部分。这是我的理解,或许有些地方理解存在偏差,感觉有问题的地方请指出。

二、实验结果

论文中的实验结果很漂亮,准确率基本在95%以上,如图2所示。

图2 实验结果

但是我对这个实验结果表示怀疑,在真实环境下能否达到如此好的效果。首先,看下他们采用的数据。

Twitter数据:通过外部采集获得,用于分析的数据是Twitter每天发表量10%的随机抽取数据,这样导致他们的分类是否可靠?个人行为模型的建立是否可靠?这两个严重问题。而论文主要是以Twitter数据分析为主,对Facebook的分析几乎可以忽略。

Facebook数据:使用别人抓取的数据,而且这个数据是具有地域限制的数据,即类似广东省范围内Facebook用户数据。

论文所提的7中用于分析的特征,在Twitter数据分析中:1.地理位置特征并未使用;2.URL短连接并未展开后计算相似度。在Facebook数据中:1.话题特征并未使用,2.URL短连接并未展开后计算相似度。3.语言种类特征在此无效。

三、总结

论文提出的将相似消息分类有效的避免了单一用户行为正常改变时的误判,对诈骗、钓鱼急垃圾信息的检测效果很好,这提供了一种通过间接关联信息辅助判断的思路。提出判断门限与分类大小关联方法是一个很好的思路。但是由于数据采集的限制,严重制约了模型的建立和实验结果的可信度。

COMPA: Detecting Compromised Accounts on Social Networks 论文分析相关推荐

  1. 图隐私论文速递:A graph modification approach for k‑anonymity in social networks using the genetic algorith

    作者:gufe_hfding 文章目录 论文概况 论文主要创新点 论文启示 论文概况 今天要分享的是来自伊朗的论文,标题为:A graph modification approach for k‑an ...

  2. 【论文】解读Evolutionary dynamics of traveling behavior in social networks

    Evolutionary dynamics of traveling behavior in social networks 摘要 本文利用复杂网络的拓扑结构来描述出行者之间的相互作用.基于旅游者有限 ...

  3. 论文阅读:A Survey of Textual Event Extraction from Social Networks 综述:从社交媒体中抽取文本事件

    A Survey of Textual Event Extraction from Social Networks 综述:从社交媒体中抽取文本事件 目录 A Survey of Textual Eve ...

  4. 谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolu

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  5. CSI笔记【6】:Guaranteeing spoof-resilient multi-robot networks论文阅读

    CSI笔记[6]:Guaranteeing spoof-resilient multi-robot networks论文阅读 Abstract 1 Introduction 1.1 Contribut ...

  6. UIL 算法学习 Structure Based User Identification across Social Networks

    Structure Based User Identification across Social Networks 这是篇无监督的论文. TKDE 2018 因此,在本研究中,我们研究了无监督策略, ...

  7. Online social networks security and privacy: comprehensive review and analysis 笔记

    Introduction 社交网络可以被分为四种板块:社交关系(social connections).多媒体分享(multimedia sharing).专业(professional)和论坛(di ...

  8. Deep Anomaly Detection with Deviation Networks 论文笔记

    Deep Anomaly Detection with Deviation Networks 论文笔记(自己回顾用) 问题描述 算法框架 伪代码 总结&个人计划 问题描述 论文利用少部分有标签 ...

  9. Information and Influence Propagation in Social Networks学习笔记

    Information and Influence Propagation in Social Networks学习笔记 Wei Chen dalao写的书,在传播问题上感觉写的写的很详细,因为之前看 ...

最新文章

  1. 用简单的C语言实现多任务轮流切换(模拟操作系统线程机制)【转】
  2. vector的插入、lower_bound、upper_bound、equal_range实例
  3. 基于用例点来度量软件规模并管理进度 之三
  4. java4android (static关键字的作用)
  5. Java面试——Spring系列总结
  6. 【Python】supervisor 工具介绍
  7. Ubuntu下OpenResty 搭建高性能服务端
  8. python运维知识大全_python基础知识
  9. adf4351_配置MySQL以进行ADF开发
  10. Vue电商后台管理系统功能展示
  11. 抖音推独立社交产品“多闪” 主打视频社交PK微信
  12. python批量计算cosine distance
  13. 华三路由器配置mstp多生成树协议
  14. 百度距离全面掉队BAT还有多远?
  15. 加减法、原码一位乘法、Booth算法、恢复余数法、加减交替法符号位及小结
  16. python wechat_wechat-sdk
  17. 传真百科:电子邮件能取代传真吗
  18. OpenGL(十四)——Qt OpenGL纹理
  19. 输出文本(pre\code\kbd\var...)
  20. android去掉开机锁屏,android 去掉锁屏

热门文章

  1. java flv转mp3_java调用FFmpeg及mencoder转换视频为FLV并截图
  2. ViacomCBS与Sky合作在欧洲推出Paramount+
  3. centos7dos命令下打开网络
  4. 深入理解Docker ulimit
  5. VMBox挂载共享文件时可能出现的问题以及对应的解决办法
  6. 团队作业——Alpha冲刺 8/12
  7. OAEP及其在OpenSSL中的实现
  8. 实用计算机相关日语词汇,日语分类词汇:计算机类(1)
  9. iso国家代码 三位字母_ISO 2字母语言代码
  10. 【Python】开发笔记