Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记
Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-Stationary阅读笔记
文章目录
- Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-Stationary阅读笔记
- 前言
- 一、简介
- 二、数据集
- 1、数据集采集环境
- 2、训练样本
- 三、六种常见分类方法
- 1、 线性回归
- 2、 逻辑斯蒂模型
- 3、 决策树
- 4、 随机森林
- 5、 支持向量机
- 6、 多层感知器
- 四、噪声标签和不断发展的网络流量
- 1、噪声标签
- 2、不断发展的网络流量
- 五、标准特征集和增强特征集
- 1、 标准特征集
- 2、 增强特征集
- 六、实验结果
- 1、不断发展的网络流量的标准特征集和增强特征集对六种常见分类器的影响
- 2、 带噪声标签的训练样本的标准特征集和增强特征集对六种常见分类器的影响
- 六、 结论
前言
本文为Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-Stationary的个人阅读笔记。原文地址点此处
一、简介
Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-Stationary是由Blake Anderson和David McGrew两人于2017年提出的关于验证噪声标签及不断发展的流量数据对六种分类器的影响的实验,认为噪声标签及不断发展的网络流量是机器学习在网络安全领域发展缓慢的两个主要原因。除此之外,该论文对以前常用的标准特征集和经加强后的特征集进行了实验和讨论。论文主要围绕采用六种常见分类算法对加密流量进行分类的实验展开。
二、数据集
1、数据集采集环境
所使用的数据集采集自三种不同的网络环境,这三种网络环境分别是两个企业网络及恶意软件分析沙箱,每个企业网络含500-1000个活跃用户。
2、训练样本
训练样本中含恶意加密流量和正常加密流量,其中恶意加密流量来自于恶意软件分析沙箱,正常加密流量来自于企业网络,但企业网络中也含有部分可疑流量,该论文采用IP黑名单对企业网络中的可疑流量进行了过滤。
三、六种常见分类方法
该论文采用的六种常见分类算法分别是线性回归、逻辑斯蒂回归、决策树、随机森林、支持向量机、多层感知器。
1、 线性回归
线性回归是最简单的机器学习模型之一,它定义了一个线性模型,使得系数向量w最小化数据样本和标签之间的残差平方和。虽然通常并不用于分类问题,但生成的超平面解决可用于二分类的问题。
2、 逻辑斯蒂模型
与线性回归不同,逻辑回归是专为分类而设计的。逻辑回归返回一个适当的概率,这个概率可以解释为特征向量属于特定类别的概率。该论文采用了两种不同版本的逻辑回归:第一种使用L2-正则化,第二种使用L1-正则化。
3、 决策树
决策树将学习输入特征的简单规则,并将空间划分为不同的类。该论文使用网格搜索和交叉验证来调整寻找最佳分割时要考虑的特征数量和树的最大深度这两个可调超参数。
4、 随机森林
随机森林使用一组决策树进行预测,每个单独的决策树都是从完整数据集的自助样本(即从数据集中有放回的抽样)中学习的。与单个决策树算法类似,该论文使用网格搜索和交叉验证来调整每次分割的特征数量和树的深度,并调整了森林中的树木数量,共考虑了25到200之间的值,且步长为25。
5、 支持向量机
对于支持向量机,该论文有以下可调超参数:核函数,软边距参数,假设高斯核,核的宽度。我们研究了二次和三次多项式核和高斯核。对于软边界参数和高斯核的宽度,以一个数量级的增量在10-5到105之间进行搜索。
6、 多层感知器
具有两个或更多隐藏层的多层感知器(MLP)模型是可用于语音处理和图像识别等任务的最新技术,该类模型偏差极小,可以学习高度非线性的函数。该论文仍使用网格搜索和交叉验证来调整MLP模型的超参数。对于隐藏层数,以步长为1,对2到5层进行了尝试。对于每层神经元的数量,以2的幂为增量在32到512之间进行尝试。最后,对于缺失正则化参数,以0. 05为增量在0.1和0.5之间进行搜索。
四、噪声标签和不断发展的网络流量
该论文证实了如果用于训练的数据集样本具有噪声标签将对分类器的准确性产生影响,且随着时间的推移,网络流量不断发展变化,原有的分类器准确性也将被影响。
1、噪声标签
进行有监督的机器学习时,需为训练的数据集样本做好标签,但是在此过程中可能出现纰漏,即标签有误或破损,这就是噪声标签。
2、不断发展的网络流量
网络流量并非停滞不前而是不断变化发展的,未知流量也在不断增加,因此,训练好的分类器的准确性也会随着时间而逐渐降低,但不同的分类器退化程度不同。
五、标准特征集和增强特征集
1、 标准特征集
标准特征集使用的是文献中常见的特征,共22个特征,其中包括客户端发送给服务器端和服务器端发送给客户端的数据包长度及数据包到达间隔时长这四种数据的最小值、平均值、最大值、标准偏差,除此之外还包括协议、网络连接时间、客户端发送给服务器端的数据包数量及字节数、服务器端发送给客户端的数据包数量及字节数。
2、 增强特征集
增强特征集是在标准特征集的基础上新增了单个数据包的长度及在网络中的时长以及TLS元数据。
六、实验结果
1、不断发展的网络流量的标准特征集和增强特征集对六种常见分类器的影响
图1a和1b中最左边的列显示了5月前的企业流量和恶意流量之间10倍的交叉验证准确性。对于标准特征集,随机森林集合和单个决策树效果最好。当使用增强特征集时,分类器之间的这种差异消失了:除了线性回归,所有分类器在分类精度方面没有统计学上的显著差异。
由图1a所示,使用标准特征集时,随着时间的推移,随机森林集成显然是性能最好的算法能够始终其准确性。但是,尽管随机森林在恶意软件数据集上的性能仍然优于大多数算法,但随着时间的推移,其性能仍然显著下降。也有某一类效果明显较好而另一类效果极差的分类器,比如线性回归分类器对于企业流量效果非常好而对于恶意流量效果极差,支持向量机对于企业流量效果极差而恶意流量效果较好。
2、 带噪声标签的训练样本的标准特征集和增强特征集对六种常见分类器的影响
噪声标签是网络安全领域中真实数据收集的一个重要问题。沙箱环境可以从恶意可执行文件或底层操作系统生成许多固有的良性网络会话。相反,通常不太可能确定一组来自企业网络的网络连接是真正良性的,因此数据库的标签有可能出现纰漏,可能对分类器造成影响。图2中以0.5%为步长,取0.0%到5.0%的百分比,按此百分比设置有误的标签,图2a、图2b分别展示了采用标准特征集和增强特征集时,噪声标签对六种常见分类器的影响。
六、 结论
1、 由表1可得,在大多数情况下,采用增强特征集训练的分类器准确率普遍更高,且使用标准特征集时,除支持向量机外,其他分类器对于恶意流量的分类准确率均低于50%,而使用标准特征集的支持向量机分类器对企业流量的分类准确率仅11.94%。
2、由图1可得,随着网络流量的发展,六种分类器对恶意流量的分类效果逐渐递减,而对企业流量的分类效果并不显著。由图2可得,在采用标准特征集的情况下,在存在噪声标签的情况下,随机森林分类器的效果基本趋于稳定,而其他分类器的准确率基本都会因为噪声标签所占百分比而波动;在采用加强特征集的情况下,除支持向量机和决策树分类器外,其他分类器均随着噪声标签占比升高而趋于稳定。
Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记相关推荐
- Machine Learning for Encrypted Malware Traffic Classification
Machine Learning for Encrypted Malware Traffic Classification: Accounting for Noisy Labels and Non-S ...
- 【研究型论文】Encrypted Malware Traffic Detection via Graph-based Network Analysis
文章目录 Encrypted Malware Traffic Detection via Graph-based Network Analysis 摘要 存在的问题 论文贡献 1. 威胁模型 2. 系 ...
- 论文Learning to Solve Large-Scale Security-Constrained Unit Commitment Problems阅读笔记
论文Learning to Solve Large-Scale Security-Constrained Unit Commitment Problems阅读笔记 论文arxiv链接:Learning ...
- Andrew Ng 的 Machine Learning 课程学习 (week4) Multi-class Classification and Neural Networks
这学期一直在跟进 Coursera上的 Machina Learning 公开课, 老师Andrew Ng是coursera的创始人之一,Machine Learning方面的大牛.这门课程对想要了解 ...
- 《Practical Machine Learning A New Look at Anomaly Detection》摘抄+笔记
<Practical Machine Learning A New Look at Anomaly Detection>--实用机器学习, 异常检测的新看法 本文照抄论文主要内容加上个人理 ...
- Malware Traffic Classification Using Convolutional Neural Network for Representation Learning代码复现的问题
论文下载:https://ieeexplore.ieee.org/document/7899588 代码下载:https://github.com/echowei/DeepTraffic 数据处理工具 ...
- “Survey of machine learning techniques for malware analysis ”
此论文对已经发表的文献中的关于机器学习对恶意软件的监测的不同研究方向.不同的研究目标.不同的方法.得出的不同结果进行了一定的分类总结. 根据文献,对其中三种基本层面进行了分类: 1.分析的特定目标 2 ...
- IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读
IntelliLight 全文脉络 概述 1.本文贡献 1)Experiments with real traffic data. 2)Interpretations of the policy. 3 ...
- Machine Learning - Coursera 吴恩达机器学习教程 Week1 学习笔记
机器学习的定义 Arthur Samuel 传统定义 Arthur Samuel: "the field of study that gives computers the ability ...
最新文章
- JDBC连接mysql数据的7个步骤(讲解+源码)
- html给网页加图片背景颜色,0035 如何设置网页背景图和在网页中插入图片
- java string 包含http_Java中使用HttpPost上传文件以及HttpGet进行API请求(包含HttpPost上传文件)...
- SpringBoot整合Shiro实现权限管理,经典实战教程
- Linux 原来实现一个shell这么容易!(史上最简单详细)
- python集合和字典创建通讯录_Python基础-字典和集合
- 2021年全国省市县行政区划道路水系shp矢量数据(路网:国道省道县道乡道城市一级二级三级四级高速铁路 水系:全国水系一级二级四级五级河流 行政边界:省市县行政区划界线)
- 刘林仙版《薛刚反唐》整理
- 飘云QQ宣布终止后续开发 称不懂游戏规则玩不起
- nginx实现301域名跳转
- python的turtle模块制作的打地鼠小游戏2019/4/9版
- WEBRTC中VAD算法及思想的数学解析
- 2020移动apn接入点哪个快_手机WiFi网速度太慢?教你一招网速翻倍好用,比5G还快...
- 3个技术男搞恋爱版 ChatGPT,估值70亿...
- java文件快速扫描仪_java扫描仪上传文件
- 想从事IT行业的你,一定看看这篇文章
- 2021年广东工业大学第十五届文远知行杯程序设计竞赛(同步赛)部分题解
- Concept:USB OTG
- 读《鸟哥的linux私房菜》有感--第一天
- 智能写作软件-免费智能写作文章内容软件