摘要

  • 提出RTC(Robust statistical Traffic Classficiation)模型解决zero-day应用问题。
  • 提出用于RTC模型参数自动优化的方法。

Introduction

  • 三种主流流量分类问题的解决方案
    基于端口(port-based)- 依赖于检测标准端口,
    - 缺点:不使用标准端口和端口混淆
基于payload(payload-based)- 在IP包的payload中寻找签名信息
    - 最普遍的,但处理不了加密流量
基于流统计(flow statistics-based)- 与机器学习结合
    - 使用流的统计特征,不需要深入检测pcap包
  • zero-day app:previously unknown in traffic.
  • 传统分类方法将zero-day app误分为已知类,导致分类精度低。
  • 这篇论文主要为了解决这个问题,贡献有以下三点:
1.提出RTC模型解决zero-day问题,用到了监督学习和无监督学习方法。2.提出了从无标签流量中提取zero-day流量的方法。3.提出用于RTC模型参数自动优化的方法。

论文其他章节概述:

第二章,基于统计特征的流量分类方法的评论;
第三章,阐述RTC方法;
第四章,参数优化方法;
第五章,实验评估;
第六章,对提出的RTC模型的讨论;
第七章,总结;

Related Work:

  • 当前检测流量分类的主流研究方向是基于统计学习的方法,可以绕过基于端口和基于payload方法存在的一些问题,比如动态端口、混淆端口和加密流量等。
  • ip ——-> [ source IP, source port, destination IP, destination port, transport protocol ]

RTC模型:

  • 如何获取有效的zero-day traffic samples是解决这个问题的关键?基于一个观察——无标签的网络流量中包含zero-day 流量。

    RTC包含三个模块:
1.Unknown Discovery
在无标签的网络流量中自动发现zero-day流量2.“bag of flows” (BoF)
用标签数据和zero-day流量构建分类器3.system update
自动构建新的类来补充系统的知识

A. Unknown Discovery

  • 从没有标签的网络流量中提取zero-day流量

    Tl集合:表示打好标签的已知类;Tu集合:表示没有打标签的类,直接从网络流量中抓取,既包括已知类,也包括zero−day流量Tl集合:表示打好标签的已知类;Tu集合:表示没有打标签的类,直接从网络流量中抓取,既包括已知类,也包括zero−day流量

    T_l集合 :表示打好标签的已知类 ; T_u 集合:表示没有打标签的类,直接从网络流量中抓取,既包括已知类,也包括zero-day流量

  • 第一步:将上述两个集合合并为一个集合T,对合并后的T集合用K-means聚类(选择较大的K,最后获得的类的纯度更高)。如果聚类之后的一个cluster中不包含任何带标签的样本,就将这个cluster暂时的划分为zero-day traffic。
  • 第二步:
    用上一步获取的cluster构造一个通用的zero−day类,与原来的带标签的Tl(N类)数据集训练一个随机森林分类器,变成一个多分类(N+1分类)任务。用训练好的分类器预测Tu集合,将分类器预测为zero−day的放入集合U用上一步获取的cluster构造一个通用的zero−day类,与原来的带标签的Tl(N类)数据集训练一个随机森林分类器,变成一个多分类(N+1分类)任务。用训练好的分类器预测Tu集合,将分类器预测为zero−day的放入集合U

    用上一步获取的cluster构造一个通用的zero-day类,与原来的带标签的T_l(N类)数据集训练一个随机森林分类器,变成一个多分类(N+1分类)任务。用训练好的分类器预测 T_u集合,将分类器预测为zero-day的放入集合U

  • 到此,筛选出zero-day应用。

B. BoF-Based Traffic Classification

  • 提高流量分类的准确率
  • Flow correlation: in a short period of time, the flows sharing the same destination IP, destination port, and transport protocol are generated by the same application/protocol.
    在很短的一段时间里,目的IP、目的端口和传输协议相同的IP包被认为是有相关关系的流,这些相关关系的流合并到一起,构成“bag of flows”(类似自然语言处理的词袋模型)。
  • 提高测试集的分类准确率,一个测试集分为若干BoF,对每一个BoF执行算法2的步骤。
  • fbof(X)=Ωx∈X(fc2(x))fc2表示随机森林分类器,Ω是联合投票方法fbof(X)=Ωx∈X(fc2(x))fc2表示随机森林分类器,Ω是联合投票方法

    f_{bof}(X) = \Omega_{x \in X}(f_{c2}(x)) \\ f_{c2}表示随机森林分类器,\Omega 是联合投票方法

  • 证明:

C.System Update

Parameter Optimization


unknown discovery模块的目的是发现zero-day流量,就是想把预测为zero-day流量而实际不是的情况降到最低,因此不是选择准确率,而选择FPR作为评价标准。

- 理想情况:to search for a maximum k that does not produce false positives. 寻找不产生负正例(实际为负,预测为正)的最大k值,也就是寻找的数据集中判的比较严(宁可不招这一批士兵,也不能让混进一个敌人,严格把关、筛选zero-day流量)。
- 此时对应图中FPR为0的情况,但是FPR为0的代价就是TPR值非常低。通过实验发现,当FPR为一个较小的值3%时候,对应TPR值较高。经过多次实验,选择3%作为基准FPR。
- 搜索聚类参数k,基于FPR随着k单调递增这个依据。用二分查找搜索最佳k值,找k值的标准是使FPR为3%。

实验评估

Robust Network Traffic Classification相关推荐

  1. 加密流量分类-论文6:Learning to Classify A Flow-Based Relation Network for Encrypted Traffic Classification

    加密流量分类-论文6:Learning to Classify A Flow-Based Relation Network for Encrypted Traffic Classification 0 ...

  2. real time robust malicious traffic detection via frequency domain analysis记录一下

    现有的机器学习的模型准确度太低,并且吞吐量太低.不能满足高吞吐量的实时网络.且可以被复杂攻击轻松的绕过. realtime 中文分析 ABSTRACT 对于0-day攻击检测,ML(machine l ...

  3. [summ]network traffic measurement and analysis-challenges and solutions

    1.A. Marold, P. Lieven, and B. Scheuermann, "Probabilistic parallel measurement of network traf ...

  4. 一种用于加密流分类的多模态深度学习框架A Novel Multimodal Deep Learning Framework for Encrypted Traffic Classification论文

    一.背景 l 网络应用程序流量被加密 l 基于传统有效载荷交通分类方法和基于端口的流量分类方法不在有效 l 已有的模型不能用于更细粒度的操作 二.pean介绍 概括 PEAN模型是一种软件架构模式,它 ...

  5. Machine Learning for Encrypted Malware Traffic Classification

    Machine Learning for Encrypted Malware Traffic Classification: Accounting for Noisy Labels and Non-S ...

  6. linux程序流量平滑,Linux下按程序查实时流量 network traffic(示例代码)

    实然看到下载速度多达几M/s,但实际上并没有什么占用带宽的进程. 相查看每个程序占用的网络流量, 但系统自带的 System Monitor 只能查看全局的流量, 不能具体看某个程序的...... k ...

  7. Iris Network Traffic Analyzer简易教程

    说到Sniffer软件大家可能马上就能想起NAI的Sniffer Pro.Sniffer Pro虽然功能特性丰富,但是操作起来有些繁缛.再这里我给大家介绍一款简单实用的Sniffer软件,那就是我们今 ...

  8. 加密流量分类-论文1:Deep Learning for Encrypted Traffic Classification: An Overview

    加密流量分类-论文1:Deep Learning for Encrypted Traffic Classification: An Overview 0.摘要 1.介绍 2.网络流量分类流程框架 2. ...

  9. 使用 Web 高速缓存减少网络流量 / Reducing network traffic with Web caching

    使用 Web 高速缓存减少网络流量 / Reducing network traffic with Web caching English Version Reducing network traff ...

最新文章

  1. Java课程主观题作业_JAVA课程作业01
  2. 反射_Class对象功能_获取Constructor
  3. SQL Server各个版本功能比较
  4. 异步重试_异步重试模式
  5. 粒子网格算法 pm_使粒子网格与Blynk一起使用的2种最佳方法
  6. 使用Spring Boot来加速Java web项目的开发
  7. Fit项目分页组件的编写
  8. Android 第三方应用接入微信平台(2)
  9. OPNET 修改节点图标大小
  10. 新浪微博批量登录获取cookie
  11. php arcsin函数,excel如何计算反三角函数
  12. Linux设置登录密码错误次数限制
  13. 【快速上手教程1】疯壳·开源编队无人机-开机测试
  14. 关于Deepin商店没有应用的解决办法
  15. Internet Explorer 已不再尝试还原此网站。该网站看上去仍有问题。
  16. PS/2接口鼠标滚轮不能用的解决办法
  17. 【软件测试】测试用例的设计
  18. 分布式存储实现的方式有哪些?iSCSI和NBD的区别
  19. Linux System Administration
  20. [英语六级] 六级通关笔记 — 仔细阅读题

热门文章

  1. php cms 自动分词,帝国cms高级Tags插件 自动分词提取 同步内容关键字
  2. 亿级经纬度距离计算88.73秒,秒杀VBA!
  3. I2S协议和hisi3520调试TLV320AIC3101音频驱动(一)
  4. 移动端系统生物认证技术详解
  5. 《电路基础》反相运算放大器
  6. OUT指令时,就进入了I/O端口读写周期
  7. 聚类分析matlab
  8. CNN网络进行图像识别
  9. 记一次息屏指纹解锁性能优化实现
  10. 让客户在微信上查看订单详情,【单据分享】让你省心又省力!