导读

网络和社交流量分析是检测和防御网络攻击的基础。随着数据集的日益剧增,手工定义规则的传统方法逐渐被机器学习(ML)方法替代,这是因为ML有更好的工作性能。在数据驱动的研究背景下,通过研究社交流量和网络流量的大量文献,本文采用相似相关性以及可提取特征等常用概念和共享网络安全目标的方法来分类网络主机与应用程序的网络流量和用户与Tweet的社交流量。因为网络和社交流量的研究不是孤立的,而是需要广泛使用大量的、不同的网络或社交流量数据,而且这些流量还具有许多特征,比如特定的大小,源与目的间的多层信息。本文阐述了一种新的基于数据驱动的网络安全研究方法(DDCS),并介绍其在社交和网络流量分析中的应用。DDCS的框架包括三个组成部分,即:网络安全数据处理、网络安全特征工程和网络安全建模。

概述

在互联网时代,网络安全问题尤为重要。而网络流量分析又是网络安全的重要组成部分,本文展示了一种基于数据驱动的流量分析模式。

大量文献都基于数据驱动,以前的数据分析只是传统的统计分析的工作。但在大数据和人工智能时代,即使数据复杂多样,许多隐藏的信息、知识等仍然可以通过ML来获得,可以用于解决当前和未来的网络安全挑战。网络和社交流量、统计特征和有效载荷都可以作为数据。

最近有关流量的研究综述,侧重于分析ML技术的应用。但是网络流量分析缺乏统一的数据驱动框架。这篇论文就填补了这一空白,提出了一种新的基于数据驱动的网络安全研究方法(DDCS),它包括网络安全数据处理、网络安全特征工程和网络安全建模三个方面。这三个方面是按顺序排列的,该框架有助于解决网络安全的核心问题。

基于数据驱动的网络安全框架

本节提出了基于数据驱动网络安全研究框架DDCS。DDCS是采用基于数据驱动的机器学习算法来解决网络安全问题。DDCS由网络安全数据处理、网络安全特征工程和网络安全建模三部分组成。具体来说,就是从不同角度考虑数据、ML、先验知识、度量标准。对于每一步,首先考虑数据,然后围绕数据组织、优化和ML模型,讨论适合典型数据驱动流程的数据。进一步根据实际情况采用有监督的、无监督的、半监督的或混合的机器学习方法,得出数据流量分析的结果。

A.    网络安全数据处理

大多数情况下,网络安全数据必须被标记,而标记的类型根据具体问题具体分析,同时为了保证ML性能,标签的数量必须有限。目前广泛使用的标记方法,有手动检查,或者过滤黑名单,在流量分析领域比较常用的方法是识别有效载荷的深度包检测(DPI),可以对加密流量进行分析。零日问题也是数据标记的常见问题,目前常见的做法是将零日数据单独处理,一般是将标记与未标记的数据合并,然后进行聚类分析,其中不含预标记的数据类别为零日数据样本。

B.    网络安全特征工程

如何确定统计特征是解决网络安全问题的关键,而特征的提取取决于选用的平台或工具。网络流量比应用程序数据(如Tweet)的流量大得多。为了有效地分析大量的数据,寻找合适的特征至关重要。流量包由两部分组成:报头和有效载荷。由于数据加密和数据分割的原因,有效载荷数据并不总是可用的。因此,分析网络报头在效率上有很大优势。然而,网络报头非常小且大小固定,每个字段都有非常严格的定义,这些限制阻止了以应用程序级别来提取复杂信息。通过研究网络流量中自然存在的相关信息,可以克服这一缺陷。也就是说,TCP/IP协议描述了流量的概念,可以用于测量和提高整个网络的服务质量。更重要的是,虽然实际的网络设备会以不同的方式对待每个流量流,但是以更平等地方式对待每个应用程序的流量流,因此不同应用程序生成的流量能够代表统计分布。

网络流量是按网络属性分组的网络数据包的集合。根据对流量定义的扩展,提出了“bag of flow”的概念。一个流量包由同一应用程序生成的一些相关网络流量流组成。也就是说,一个流包由具有相同五元组的连续IP数据包组成,一旦建立了流,就可以提取一组统计特征来表示每个流。流量的统计特征列于表一。

表一 数据驱动网络安全事件预测方法论

C.    网络安全建模

适当的性能评估对于确定给定的模型或系统是否满足其需求至关重要。在典型的ML模型训练过程中都有一个训练集,一个测试集。最常用的分类指标包括TP、FP, FN,和TN。最佳的ML模型是通过在一些独立的度量标准中进行权衡比较而来的。交叉验证技术可以有效的最小化偏差,然而,在实践过程中,网络安全数据的不平衡性,增加了训练ML模型的训练成本。一种比较常见的做法是从不常见的类中选择更多的数据,而常见的类中则选择较少的数据集进行训练;另一种做法是利用集成学习;还有一种复杂的方法是重新分配每个类的权重值,然后评估小类中样本的缺失值。此外还可以使用可视化的图来辅助决策过程。如当ROC曲线接近图的左上角时,模型变得更加理想。

通过选择合适的度量标准并与之进行比较,可以客观地确定结果是否令人满意。如没有达到目标,可以迭代地改进ML模型;如目标失败了,应该重新开始分析有关数据,直到找到满意的解决方案。

基于数据驱动的网络安全流量分析

本章对社交和网络流量分析的最新研究进行了归纳总结。

A.      数据处理

网络中存在着具有破坏性的数据流量,用户隐私使数据更敏感;不同地点间的流量也不同;复杂的处理步骤使得实时分类变得困难。特征处理与优化的工具可应用于该领域。而各种ML方法可改进过时流量分析模型的性能。进一步,结合深度学习,多类和集成的方法对将来的工作也有很大帮助。

利用先验知识来辅助标记对基于数据驱动的网络安全流量分析至关重要。现有人工标记方法十分耗时耗力,标记自动化是未来重点研究的领域之一;更清晰的用户隐私的边界分析也是未来的研究方向。理想情况是通过共享和获取有关隐私的网络跟踪真实数据进行学术分析。这些方法许多是离线分析的,需要涉及许多步骤,无法做到实时响应,不具有实用性。特征仍是分类的主要依据,内容表示可以改变这种依赖关系并有助于检测增强。同样,深度学习也是有效的,此外,可以考虑更新的技术进行更好的可视化分析。

B.      工程安全特征

大流量数据在数量、种类、速度方面复杂多样,传统数据分析难以处理。流量之间存在着相关性与相似性,通过对特征的测量和分析其对流量的影响,进而对流量进行分类,此外,实时流量的相关性检测也是比较困难的。流量的相关性与相似性还可以检测代码漏洞和恶意软件,检测漏洞仅仅是为了过滤单个特征,而非对整个数据源进行分类。社交和网络流量分析都存在一定的误差率,因为数据集是提前收集好的,而不是实时持续的数据集,为了克服这一误差,可以在训练集中不断添加新的特征。数据存在的偏差和记忆,会严重影响对其的正确标记。无论是人工标记,还是算法标记,或是使用特定工具都需要利用先验知识。图1总结了这种数据结构的概念。无论是垃圾邮件还是流量,许多不同的样本是相关的或是组合在一起的。

图1  数据结构的概念

C.      网络安全模型

DDCS表明了一种新的研究方式,并推动该领域的发展。如何获取和应用该领域知识是一个挑战,同时对社交网络和网络流量分析的效率和有效性具有很大的影响。这种能力可以通过两种形式体现,一是中断时间段内仍能达到可接受性能的训练和测试模型的能力,因为在一段较长的时间内数据偏差是显而易见的。二是网络分析方法能够对间隔数周到数月记录的样本进行测试和训练。在流量分析的文献中,一个共同的参考点是数据采集的敏感性,对新的可用的网络跟踪的有限访问可能影响知识保留能力。

许多流程和方法在各个领域之间都是共享的,其中的不同是数据和分类结果。图2显示了涵盖四个领域的通用流程模型以及典型的数据驱动方法。数据是关键的,随后根据需要进行整理和调整,也可以在模型的训练和测试步骤中进行调整。

图2 通用流程模型以及典型的数据驱动方法

总结

本综述提出了一种新的基于数据驱动的网络安全流量分析方法DDCS,并回顾了它在社交和网络流量分析中的应用。DDCS在回顾Twitter垃圾邮件检测和IP流量分类等领域的最新研究成果时,显示了数据、模型和方法之间的紧密联系。强调了大流量数据、领域知识和研究方法方面的挑战和未来的工作。希望这项调查能够提供新的见解和想法,推动网络安全的进一步研究,特别是在社交和网络流量分析方面。

文章出处

Rory Coulter, Qing-Long Han, Lei Pan, Jun Zhang, and Yang Xiang, “Data-driven Cyber Security In Perspective: Intelligent Traffic Analysis”, DOI: 10.1109/TCYB.2019.2940940, IEEE Trans Cybern, 2019

网络安全模型_基于数据驱动的网络安全流量分析总结相关推荐

  1. 网络安全模型_基于TCM的网络安全访问模型

    摘要:分析Google公司的BeyondCorp安全访问模型,基于TCM标准的可信计算平台,借鉴 BeyondCorp企业安全方法,结合TNC可信网络接入.用户PKC证书验证和基于属,性证书的访问 控 ...

  2. 电力系统稳定与控制_基于数据驱动的电力系统稳定性分析

    上期内容:世界电网大停电的经验和稳定控制的发展 高薪诚聘电气工程教师.博士后 近期学术会议公告,欢迎参会 详情请按下方导引查阅,戳!戳!戳! 特别致谢报告专家 徐  岩   助理教授 专家介绍 Dr ...

  3. 网络安全模型_工业互联网态势感知,看得见的网络安全

    背景 随着"两化"融合的深入,网络安全威胁加速向工业领域渗透,导致网络安全问题愈发严峻.鉴于网络攻击技术的不断革新以及新型攻击工具的大量涌现,传统的网络安全技术已不能满足客户的需要 ...

  4. 模型预测控制c语言程序_基于数据驱动的模型预测控制

    最近有小伙伴来询问 Data-driven MPC,之前也有了解过一些,因此写篇文章给大家科普科普. 其实所谓的数据驱动并没有那么"高大上"或者难懂,无非是从数据中来获取一些有用信 ...

  5. 模型预测控制的缺点_基于数据驱动的模型预测控制

    最近有小伙伴来询问 Data-driven MPC,之前也有了解过一些,因此写篇文章给大家科普科普. 其实所谓的数据驱动并没有那么"高大上"或者难懂,无非是从数据中来获取一些有用信 ...

  6. !=会命中索引么_真是命中! 通过流量分析衡量成功

    !=会命中索引么 One of the most important aspects of Website management is traffic analysis. If you don't k ...

  7. base64还原_冰蝎3.0流量分析与还原

    希望这篇文章可以真正帮助那些被打穿的单位识别与溯源. phpshell 与冰蝎2.0在建立连接时随机生成AES密钥同时明文交换不同是,冰蝎3.0的AES密钥为连接密码32位md5值的前16位,默认连接 ...

  8. 基于用户标签的活跃人群特征分析_基于用户行为模型的客流量分析与预测

    基于用户行为模型的客流量分析与预测① 程求江 1,2, 彭艳兵 2 [摘 要] 摘 要:为了预测无线城市接入中商圈的短时客流量 , 通过分析顾客 购物行为模式 , 提出了一种基于停留时间和区间活跃度的 ...

  9. python微博评论情感分析_基于Python的微博情感分析系统设计

    2019 年第 6 期 信息与电脑 China Computer & Communication 软件开发与应用 基于 Python 的微博情感分析系统设计 王 欣 周文龙 (武汉工程大学邮电 ...

最新文章

  1. Java实现简单的队和栈
  2. golang string 转换 uint64_Golang 的 #x27;print#x27; 源码解读
  3. 域服务器可以修改ip,Windows Server 2016 域控制器修改IP
  4. MySQL高级 - 锁 - MySQL对锁的支持
  5. 图解SQL的inner join(join)、left join、right join、full outer join、union、union all的区别...
  6. 《Java 7 并发编程指南》学习概要 (3)Semaphore, CountDownLatch, CyclicBarrier , Phaser, Exchanger...
  7. 为什么谐振时电抗为0_高压直流输电(LCC-HVDC 和 MMC-HVDC)中平波电抗器的作用和选择策略...
  8. 让计算机启动更快的十五招
  9. 【报告分享】人工智能在五大行业的成就与挑战-毕马威.pdf(附下载链接)
  10. SQL SERVER 数据库表索引重建
  11. python二维数组切片_python语言多维数组切片方法
  12. 系统 hosts 文件修改工具
  13. for循环特殊的写法
  14. 保龄球计分c语言程序,求C语言代码解释(保龄球记分程序)
  15. 用window调用kjb和ktr
  16. dds:publish
  17. 【学习笔记】【C++整理A】【总】单例模式-饿汉式、懒汉式;
  18. 久泰新材料在港上市申请失效:年亏损超2亿元,崔轶钧为董事长
  19. 关于计算机的英语谚语,英语谚语大全 关于C的谚语
  20. Kubeadm 快速搭建 k8s v1.24.1 集群(openEuler 22.03 LTS)

热门文章

  1. 寄存器分配图着色_富士苹果促进着色技术八大要点!是时候看看了!
  2. java returnAddres_JavaClient 查询ES-(重要)
  3. 使用register_chrdev注册字符设备
  4. 异步加载在Vue生命周期哪个阶段更合理
  5. MySQL绿色版5.7以上安装教程
  6. 思科交换机VTP配置
  7. 2012年度IT博客大赛50强报道:贾小平
  8. linux shell 提示符设置
  9. 使用ISA实现用户级验证(1~3篇)
  10. Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko