5.数据集

我们认为,在寻找适当的基于网络的数据集时,数据集的属性 "标签 "和 "格式 "是最具决定性的属性。入侵检测方法(监督或无监督)决定了是否需要标签以及需要哪种数据(数据包、流量或其他)。因此,表2提供了所有基于网络的数据集在这两个属性方面的分类。表3对基于网络的入侵检测数据集与第4节的数据集属性进行了更详细的概述。在寻找基于网络的数据集时,特定攻击场景的存在是一个重要方面。因此,表3指出了攻击流量的存在,而表4提供了数据集内特定攻击的细节。关于数据集的论文描述了不同抽象层次的攻击。例如,Vasudevan等人(2011年)在他们的数据集(SSENET2011)中对攻击流量的描述如下。"Nmap、Nessus、Angry IP扫描器、Port Scanner、Metaploit、Backtrack OS、LOIC等,是参与者用来发动攻击的一些工具。与此相反,Ring等人在他们的报告中明确指出了执行端口扫描的数量和不同类型。 在他们的CIDDS002数据集中,指定了不同类型的执行端口扫描(Ring等人,2017)。因此,在表4中,攻击描述的抽象水平可能有所不同。对所有攻击类型的详细描述超出了这项工作的范围。相反,我们请感兴趣的读者参考开放性论文“From Intrusion Detection to an In trusion Response System: Fundamentals, Requirements, and Future Directions”,作者Anwar等人(2017)

此外,一些数据集是其他数据集的修改或组合。图3显示了几个著名的数据集之间的相互关系。

5.1按字母顺序排列的基于网络的数据集

AWID(Kolias等人,2016)。AWID是一个公开可用的数据集,主要是针对802.11网络。它的创造者使用了一个小型的网络环境(11个客户),并以基于数据包的形式捕获了WLAN流量。在一个小时内,捕获了3700万个数据包。从每个数据包中提取了156个属性。恶意网络流量是通过对802.11网络执行16种特定攻击而产生的。AWID被标记并分成训练和测试子集。

Booters(Santanna等人,2015)。Booters是由犯罪分子提供的分布式服务(DDoS)攻击,作为一种服务。Santanna等人(2015年)发布了一个数据集,其中包括9个不同的Booters攻击的痕迹,这些攻击是针对他们网络环境中的一个空路IP地址执行的。由此产生的数据集被记录在基于数据包的矩阵中,包括超过250GB的网络流量。每个数据包都没有标记,但不同的Booters攻击被分割成不同的文件。该数据集是公开的,但由于隐私原因,Booters的名字是匿名的。

Botnet(Beigi等人,2014)。Botnet数据集是现有数据集的组合,是公开可用的。Botnet的创建者使用(Aviv和Haeberlen,2011)的叠加方法,将ISOT(Saad等人,2011)、ISCX 2012(Shiravi等人,2012)和CTU13(Garcia等人,2014)的数据集(部分)结合起来。由此产生的数据集包含各种僵尸网络和正常用户行为。僵尸网络数据集被分为5.3GB的训练子集和8.5GB的测试子集,都是基于数据包的格式。

CICDoS ( Jazi et al., 2017 )。CICDoS是加拿大网络安全研究所的数据集,是公开可用的。作者的意图是创建一个带有应用层DoS攻击的入侵检测数据集。因此,研究人员在应用层执行了8种不同的DoS攻击。正常的用户行为是通过将产生的痕迹与ISCX 2012(Shiravi等人,2012)数据集的无攻击流量相结合而产生的。由此产生的数据集以基于数据包的格式提供,包含24小时的网络流量。

CICIDS2017(Sharafaldin等人,2018)。CICIDS 2017是在一个模拟环境中创建的,为期5天,包含基于数据包和基于双ctional流量格式的网络流量。对于每个流量,作者提取了80多个属性,并提供关于IP地址和攻击的额外元数据。正常的用户行为是通过脚本执行的。该数据集包含广泛的攻击类型,如SSH蛮力、心脏出血、僵尸网络、DoS、DDoS、网络和渗透攻击。CICIDS 2017是公开可用的。

CIDDS001 ( Ring et al., 2017c )。CIDDS001数据集是2017年在一个模拟的小企业环境中捕获的,包含了四周的基于流量的单向网络工作流量,并附有一份详细的技术报告,其中包含了额外的信息。作为特殊功能,该数据集包含了一个在互联网上被攻击的外部服务器。与蜜罐不同的是,这个服务器也经常被来自模拟环境的客户使用。正常和恶意的用户行为是通过GitHub上公开的python脚本执行的。这些脚本允许不断产生新的数据集,并可被其他研究使用。CIDDS001数据集是公开的,包含SSH暴力攻击、DoS和端口扫描攻击,以及从野外捕获的一些攻击。
CIDDS002 ( Ring et al., 2017 )。CIDDS002是一个端口扫描数据集,它是基于CIDDS001的脚本创建的。该数据集包含在一个模拟的小企业环境中的两周基于流量的网络工作流量。CIDDS002包含正常的用户行为以及广泛的不同的端口扫描攻击。一份技术报告提供了关于该数据集的额外元信息,其中外部IP地址被匿名化。该数据集是公开可用的。

CDX(Sangster等人,2009)。Sangster等人(2009)提出了一个概念,即从网络战争竞赛中创建基于网络的数据集,并全面讨论了这种方法的优势和劣势。CDX数据集包含了2009年一个为期四天的网络战竞赛的网络流量。这些流量是以数据包为基础记录的,可以公开使用。CDX包含正常的用户行为以及几种类型的攻击。一个额外的计划描述了关于网络结构和IP广告装扮的元数据,但单个数据包没有被标记。此外,基于主机的日志文件和IDS的警告也是可用的。

CTU13(Garcia等人,2014)。CTU13数据集是在2013年捕获的,有三种格式。它是在一个大学网络中捕获的,并区分了包含不同僵尸网络攻击的场景。网站上还提供了关于受影响主机的其他信息。流量是用三个阶段的方法来标记的。在第一阶段,所有进出受感染主机的流量被标记为僵尸网络。在第二阶段,符合特定过滤器的流量被标记为正常流量。其他的流量被标记为背景。因此,后台流量可能是正常的或恶意的。作者建议将他们的数据集分成训练和测试子集(Garcia等人,2014)。

DARPA(Lippmann等人,2000a,b)。DARPA 1998/99数据集是最受欢迎的入侵检测数据集,是在麻省理工学院林肯实验室的模拟网络工作环境中创建的。DARPA 1998和DARPA 1999数据集分别包含7周和5周的基于数据包的网络流量,包括各种类型的攻击,如DoS、缓冲区溢出、端口扫描或rootkits。其他信息和下载链接可以在网站上找到。尽管(或因为)它们的广泛分布,这些数据集经常被批评为人为的攻击注入或大量的冗余(McHugh, 2000; Tavallaee等人, 2009)。

DDoS 2016(Alkasassbeh等人,2016)。Alkasassbeh等人(2016)发表了一个基于数据包的数据集,该数据集是在2016年使用网络模拟器NS2创建的。关于模拟网络环境的详细信息无法获得。DDoS 2016的数据集集中在不同类型的DDoS攻击。除了正常的网络流量外,该数据集还包含四种不同类型的DDoS攻击。UDP洪水、smurf、HTTP洪水和SIDDOS。该数据集包含210万个狮子包,可以在researchgate下载。

IRSC(Zuech等人,2015)。IRSC数据集是在2015年记录的,使用了一种创造性的方法。捕获了具有正常用户行为的真实网络流量和来自互联网的攻击。除此以外,还手动运行了额外的攻击。IDS SNORT 16和人工检查被用于标记。由于该数据集出于保密的考虑没有公开,我们无法填写表3中的所有属性。

ISCX 2012(Shiravi等人,2012)。ISCX数据集是在2012年创建的,在一个模拟的网络环境中捕捉了一周的流量。作者使用了一种动态的方法来生成入侵检测数据集,其中包括非恶意以及恶意的网络行为。所谓的α文件定义了攻击场景,而β文件则描述了正常的用户行为,如写邮件或浏览网页。这些配置文件被用来创建一个基于数据包和基于双向流量的新数据集。这种动态方法允许不断产生新的数据集。ISCX可以在网站上下载,包含各种类型的攻击,如SSH暴力攻击、DoS或DDoS。

ISOT(Saad等人,2011)。ISOT数据集是在2010年创建的,它结合了匈牙利爱立信研究院流量实验室(Szabóet al., 2008)和劳伦斯伯克利国家实验室(LBNL)(Pang et al., 2005)的正常网络流量和hon eynet项目法国分部的恶意网络流量。ISOT被用于检测P2P僵尸网络(Saad等人,2011)。由此产生的数据集是公开的,包含11GB的pcap格式的基于数据包的数据。

KDD CUP 99 ( Stolfo, 2018 )。KDD CUP 99是基于DARPA的数据集,也是入侵检测最广泛的数据集之一。由于它既不是标准的数据包,也不是基于流量的格式,它属于其他类别。该数据集包含关于TCP连接的基本属性和高级属性,如失败的登录次数,但没有IP地址。KDD CUP 99包含了20多种不同类型的攻击(例如DoS或缓冲区溢出),并附带一个明确的测试子集。该数据集包括500万个数据点,可以免费下载。

Kent 2016 ( Kent, 2015a ), ( Kent, 2015b )。这个数据集是在洛斯阿拉莫斯国家实验室的网络上采集了58天。它包含了大约1.3亿个基于单向流量的网络流量,以及一些基于主机的日志文件。为了保护隐私,网络流量被大量地匿名化。该数据集没有标示,可以在网站上下载。

Kyoto 2006+(Song等人,2011)。Kyoto 2006+是一个公开的蜜罐数据集,包含真实的网络流量,但只包括少量和小范围的现实正常用户行为。Kyoto 2006+被归类为其他,因为IDS Bro 23被用来将基于数据包的流量转换成一种叫做会话的新格式。每个会话包括24个属性,其中14个是受KDD CUP 99数据集启发而形成的统计特征。剩下的10个属性是典型的基于流量的属性,如IP地址(以匿名形式)、端口或持续时间。一个标签属性表示攻击的存在。数据被捕获超过三年。由于记录时间异常长,该数据集包含约9300万个会话。

LBNL(Pang等人,2005)。关于入侵检测数据集的研究经常提到LBNL的数据集。因此,为了完整起见,这个数据集也被添加到列表中。创建LNBL数据集的主要动机是分析企业网络内的网络流量特征,而不是发布入侵检测数据。根据其创建者的说法,该数据集仍可作为安全研究人员的背景流量,因为它几乎完全包含正常的用户行为。该数据集没有标签,但出于隐私原因进行了匿名化处理,并包含100多个小时的基于数据包的网络流量。该数据集可以在网站上下载。

NDSec1(Beer等人,2017)。NDSec1数据集是可以评论的,因为它被设计为网络工作安全的攻击构成。根据作者的说法,这个数据集可以被重新使用,以使用过度铺设的方法(Aviv和Haeberlen,2011)的攻击来盐化现有的网络流量。NDSec1是根据要求公开提供的,并在2016年以基于数据包的格式捕获。它包含额外的syslog和win dows事件日志信息。NDSec 1的攻击构成包括僵尸网络、暴力攻击(针对FTP、HTTP和SSH)、DoS(HTTP泛滥、SYN泛滥、UDP泛滥)、ex ploits、端口扫描、欺骗以及XSS/SQL注入。

NGIDSDS(Haider等人,2017)。NGIDSDS数据集包含基于数据包格式的网络流量以及基于主机的日志文件。它是在模拟环境中生成的,使用IXIA完美风暴工具来生成正常的用户行为以及来自七个不同攻击系列的攻击(例如DoS或蠕虫)。因此,生成数据的质量主要取决于IXIA Perfect Storm的硬件。标记的数据集包含大约100万个数据包,并且是公开可用的。

NSLKDD(Tavallaee等人,2009)。NSLKDD 增强了 KDD CUP 99。对KDD CUP 99数据集的一个主要批评是大量的冗余(Tavallaee等人,2009)。因此,NSLKDD的作者从KDD CUP 99数据集中删除了重复的数据,并创建了更复杂的子集。由此产生的数据集包含大约150,000个数据点,并被分为预定的训练和测试子集,用于入侵检测方法。NSLKDD使用的属性与KDD CUP 99相同,属于其他类别。然而,应该注意的是,NSLKDD的基础网络流量可以追溯到1998年。该数据集是公开可用的。

PUIDS(Singh等人,2015)。PUIDS数据集是NSLKDD数据集的衍生品。作者开发了一个基因分析器,它可以提取输入数据集的统计数据,并使用这些统计数据来生成新的合成实例。作为一个序列,Singh等人(2015)的工作可以被看作是一个traf fic生成器,用于创建PUIDS,其中包含约20万个数据点,具有与NSLKDD数据集相同的属性和格式。由于NSLKDD是基于KDD CUP 1999,而KDD CUP又是从DARPA 1998中提取的,因此创建年份被设定为1998年,因为流量生成器的输入是在那时采集的。

PUF(Sharma等人,2018)。最近,Sharma等人(2018)发布了基于流量的PUF数据集,该数据集在校园网络中捕获了三天,只包含DNS连接。在总共298,463个单一流量中,有38,120个是恶意的,而其余的则反映了正常的用户活动。所有的流量都是用入侵防御系统的日志标记的。由于隐私原因,数据集中的IP地址被删除。作者打算将PUF公开。

SANTA(Wheelus等人,2014)。SANTA数据集是在一个ISP环境中捕获的,包含真实的网络工作流量。网络流量是通过手动程序标记的,并以所谓的基于会话的格式存储。这种数据格式类似于NetFlow,但富含额外的属性,这些属性是通过使用基于数据包的形成来计算的。作者花了很多精力来生成额外的属性,这些属性应该能增强入侵检测方法。SANTA是不公开的。

SSENet2011(Vasudevan等人,2011)。SSENet2011是在一个模拟环境中捕获的,历时四个小时。它包含几个攻击,如DoS或端口扫描。参与者的浏览活动产生了正常的用户行为。每个数据点都由24个属性来描述。由于Tstat工具被用来从基于数据包的流量中提取调整后的数据点,因此该数据集被划分为其他类别。我们没有发现关于公开的信息。

SSENet2014(Bhattacharya and Selvakumar, 2014)。SSENet2014是通过从SSENet2011(Vasudevan等人,2011)的基于数据包的文件中提取属性创建的。因此,与SSENet2011一样,该数据集被归类为其他。作者为每个数据点提取了28个属性,描述基于主机和网络的属性。创建的属性与KDD CUP 1999一致。SSENet2014包含200,000个标记的数据点,并被分为训练和测试子网。SSENet2014是唯一已知的具有平衡训练子集的数据集。同样,也没有找到关于公开可用性的信息。

SSHCure(Hofstede等人,2014)。Hofstede等人(2014)提出了SSHCure,一个用于SSH攻击检测的工具。为了评估他们的工作,作者在一个大学网络中捕获了两个数据集(每个数据集的时间为一个月)。由此产生的数据集是公开的,并且只包含SSH网络工作流量。基于流量的网络流量没有被直接拉到。相反,作者提供了额外的基于主机的日志文件,可用于检查SSH登录尝试是否成功。

TRAbID ( Viegas et al., 2017 )。Viegas等人在2017年提出了TRA bID数据库( Viegas et al., 2017 )。该数据库包含16个不同的场景,用于评估IDS。每个场景都是在一个模拟环境中捕获的(1个蜜罐服务器和100个客户端)。在每个场景中,流量被捕捉了30分钟,一些攻击被切断。为了标记网络流量,作者使用了客户的IP广告词。所有客户都是Linux机器。一些客户专门进行攻击,而大多数客户专门处理用户对蜜罐服务器的正常请求。正常的用户行为包括HTTP、SMTP、SSH和SNMP流量,而恶意的网络流量包括端口扫描和DoS攻击。TRAbID是公开可用的。

TUIDS(Gogoi等人,2012),(Bhuyan等人,2015)。La beled TUIDS数据集可分为三个部分。TUIDS入侵数据集,TUIDS协调扫描数据集和TU IDS DDoS数据集。正如名字已经表明的那样,这些数据集包含了正常的用户行为,主要是端口扫描或DDoS等攻击。数据是在一个包含大约250个客户的模拟环境中产生的。流量是以基于数据包和基于双向流量的格式捕获的。每个子集的时间跨度为7天,所有三个子集都包含大约25万个流量。不幸的是,原始出版物中的数据集链接似乎已经过时了。然而,作者对电子邮件请求作出了回应。

Twente(Sperotto等人,2009)。Sperotto等人(2009)在2008年发表了第一批基于流量的入侵检测数据集之一。这个数据集跨越了六天的流量,涉及一个提供网络、FTP和SSH服务的hon eypot服务器。由于这种方法,该数据集只包含来自蜜罐的网络流量,几乎所有的流量都是恶意的,没有也没有恶意的用户行为。作者分析了基于数据包格式的日志文件和流量,以标注该数据集的流量。该数据集是公开的,由于隐私问题,IP地址被删除。

UGR'16(MaciáFernández等人,2018)。UGR'16是一个基于单线流量的数据集。它的重点在于捕捉ISP环境中的周期性效应。因此,它跨越了四个月的时间,包含169亿个单向流量。IP地址是匿名的,流量被标记为非恶意、背景或攻击。作者在该数据集中明确地执行了几种攻击(僵尸网络、DoS和端口扫描)。相应的流量被标记为攻击,其他一些攻击被识别并被手动标记为攻击。注入的正常用户行为和符合特定模式的流量被标记为正常。然而,大多数流量被标记为背景,这可能是正常的,也可能是一种攻击。该数据集是公开可用的。

UNIBS 2009(Gringoli等人,2009)。与LBNL(Pang等人,2005)一样,UNIBS 2009数据集不是为入侵检测而创建的。由于UNIBS 2009在其他工作中被引用,所以仍然被添加到列表中。Gringoli等人(2009)使用该数据集,根据其基于流量的网络流量来识别应用程序(如网络浏览器、Skype或邮件客户端)。UNIBS 2009包含了大约79,000个没有恶意行为的流量。由于标签只是描述了流量的应用协议,网络流量没有被归类为正常或攻击。因此,分类方案中的属性标签被设置为无。该数据集是公开可用的。

Unified Host and Network Data Set ( Turcotte等人,2017)。该数据集包含基于主机和网络的数据,这些数据是在真实环境中捕获的,即LANL(洛斯阿拉莫斯国家实验室)企业网络。出于隐私原因,IP地址和时间戳等属性在基于流量的双向网络流量文件中被匿名化。网络流量的收集期为90天,没有标签。该数据集是公开可用的。

UNSWNB15(Moustafa和Slay,2015)。UNSWNB15数据集包括基于数据包的正常和恶意网络流量,它是在一个小型模拟环境中使用IXIA Perfect Storm工具创建的,历时31小时。它包含九个不同的攻击系列,如后门、DoS、漏洞、模糊器或蠕虫。该数据集也可以用基于流量的格式提供,并有额外的属性。UNSWNB15带有预定义的训练和测试分割。该数据集包括45个不同的IP地址,并且是公开可用的。

6.其他数据源

除了基于网络的数据集,还有其他一些基于数据包和流量的网络流量的数据源。在下文中,我们将很快讨论数据存储库和流量生成器。

6.1数据存储库

除了传统的数据集,在互联网上还可以找到一些数据存储库。由于这些资源库的类型和结构有很大的不同,我们不做表格的比较。相反,我们按字母顺序给出一个简短的文字概述。储存库已于2019年2月26日进行了实际检查。

AZSecure。AZSecure是亚利桑那大学的一个网络数据存储库,供研究界使用。它包括各种pcap、arff和其他格式的数据集,其中有些是有标签的,有些则没有。AZSecure en compasses,其中包括CTU13数据集(Garcia等人,2014)或统一主机和网络数据集(Turcotte等人,2017)。该存储库得到了管理,并包含一些最近的数据集。

CAIDA。CAIDA收集了不同类型的数据集,具有不同程度的可用性(公开访问或应要求),并提供一个搜索引擎。一般来说,需要填写一个表格来获得一些公共数据集的访问权。此外,大多数基于网络的数据集只能通过IMPACT(见下文)登录申请,因为CAIDA支持IMPACT作为数据提供者。储存库被管理并更新了新的数据。

Contagiodump. Contagiodump是一个关于恶意软件转储的博客。每年都有几个帖子,最后一个帖子是在2018年3月20日。该网站包含,除其他外,恶意软件分析的pcap文件的集合。

covert.io。Covert.io是Jason Trost的一个关于安全和机器学习的博客。该博客维护着不同的教程列表、GitHub存储库、研究论文和其他有关安全、大数据和机器学习的博客,同时也收集了各种基于安全的数据资源。最新的条目是由Jason Trost于2017年8月14日发布的。

DEF CON CTF档案。DEF CON是一个受欢迎的年度黑客大会。该活动包括夺旗(CTF)比赛,每个团队都必须捍卫自己的网络工作,对抗其他团队,同时入侵对手的网络。比赛通常被记录下来,并在网站上以数据包的形式提供。鉴于比赛的性质,记录的数据大多只包含攻击流量,很少有正常用户行为。该网站是最新的,每年都会更新CTF比赛的新数据。

IMPACT。IMPACT Cyber Trust,以前被称为PRE DICT,是一个由数据提供者、网络安全搜索者以及协调者组成的社区。IMPACT是管理和更新的。网站上提供了一个数据目录,以浏览社区提供的数据集。数据提供者是(除其他外)DARPA、麻省理工学院林肯实验室或UCSD应用互联网数据分析中心(CAIDA)。然而,这些数据集只能通过ac数下载,而ac数只能由美国国土安全部批准的八个选定国家的研究人员申请。由于德国不在批准的地点之列,因此不能对数据集作进一步的说明。

互联网流量档案。互联网流量档案馆是由ACM SIG COMM主办的互联网流量追踪库。该列表包括四个广泛的基于匿名的数据包追踪。特别是,有效载荷已被删除,所有的时间戳都是相对于第一个数据包的,而IP地址已被改为数字表示。这些基于数据包的数据集是20多年前采集的,可以不受限制地下载。

Kaggle。Kaggle是一个分享和发布数据集的在线平台。该平台包含基于安全的数据集,如KDD CUP 99,并有一个搜索功能。它还允许注册用户上传和探索数据分析模型。

恶意软件流量分析。恶意软件流量分析是一个资源库,其中包含与网络流量分析有关的博客文章和练习,例如识别恶意活动。练习伴随着基于数据包的网络流量,通过所提供的练习答案来间接标注。可下载的文件有一个密码,可以从网站上获得。储存库是最新的,几乎每天都有新的博客文章发布。

中大西洋地区CCDC。与DEFCON CTF类似,MACCDC是由美国国家网络监控中心主办的年度比赛,比赛中捕获的基于数据包的流量被提供出来。参赛队伍必须保证他们的网络所提供的服务不被任何方式打断。与DEFCON CTF档案相似,MACCDC数据几乎只包含攻击流量,很少有正常用户行为。最新的比赛是在2018年举行的。

MAWILab。MAWILab档案库包含了长期以来在美国和日本之间的链接上捕获的大量网络流量。自2007年以来的每一天,资源库都包含了基于数据包格式的15分钟追踪。出于隐私原因,IP地址被匿名化,数据包的有效载荷被省略。使用不同的异常检测方法对捕获的网络流量进行标记(Fontugne等人,2010)。

MWS。反恶意软件工程研讨会(MWS)是日本一个关于恶意软件的年度研讨会。工作坊伴随着几个MWS数据集,其中包括基于数据包的网络数据和基于主机的日志文件。然而,这些数据集只在由日本工业界和学术界的研究人员组成的MWS社区内共享(Hatada等人,2015)。最新的研讨会在2018年举行。

NETRECSEC。NETRECSEC维护着互联网上公开可用的pcap文件的综合列表。与SecRepo类似,NETRECSEC参考了这项工作中提到的许多存储库,但也纳入了其他来源,如蜜罐转储或CTF事件。它的及时性只能间接判断,因为NETRECSEC还提到了2018年的数据痕迹。

OpenML。OpenML是一个更新的平台,用于分享机器学习数据集。它还包含基于安全的数据集,如KDD CUP 99。 该平台有一个搜索功能,并伴随着其他可能性,如创建科学任务。

RIPE Data Repository。RIPE Data Repository承载了许多数据集。然而,几年来没有新的数据集被纳入其中。为了获得访问权,用户需要创建一个账户并接受数据集的条款和条件。该存储库还反映了怀卡托互联网流量存储的一些数据(见下文)。

SecRepo。SecRepo 列出了不同的安全相关数据样本,由 Mike Sconzo 维护。该列表按以下类别提供。网络、恶意软件、系统、文件、密码、威胁信息和其他。这个非常详细的列表包含了对典型数据集的参考,如DARPA,但也包含了许多存储库(如NETRECSEC)。该网站最后一次更新是在2018年11月20日。

Simple Web。Simple Web提供了一个数据库集合和网络管理教程和软体的信息。该数据库包括不同格式的痕迹,如基于数据包或流量的网络流量。它由Univer sity of Twente主持,由DACS(通信系统的设计和分析)小组成员维护,并根据该小组的新成果进行更新。

UMassTraceRepository。UMassTraceRepository为研究界提供了一些网络traf fic的痕迹。其中一些痕迹是由档案馆的供应者自己收集的,而其他的则是捐赠的。该档案包括来自不同来源的19个基于数据包的数据集。最近的数据集是在2018年采集的。

VAST Challenge。IEEE视觉分析科学和技术(VAST)挑战赛是一个年度竞赛,目的是通过竞赛推动视觉分析领域的发展。在一些挑战中,网络流量数据被提供给竞赛任务。例如,2011年VAST竞赛的第二个小型挑战涉及一个IDS日志,包括基于数据包的pcap格式的网络流量。在2012年的后续VAST挑战中也使用了类似的设置。此外,2013年的一个VAST挑战涉及基于流量的网络流量。

WITS:Waikato Internet Traffic Storage.。该网站旨在列出由WAND再搜索组拥有的所有互联网痕迹。这些数据集通常是基于数据包的格式,可以从怀卡托的服务器上免费下载。然而,该存储库已经很久没有更新了。

6.2流量生成器

入侵检测研究的另一个网络流量来源是流量生成器。流量生成器是创建合成网络流量的模型。在大多数情况下,流量生成器使用用户定义的参数或提取真实网络流量的基本属性来创建新的合成网络流量。数据集和数据存储库提供固定的数据,而流量生成器允许生成可适应某些网络结构的网络流量。

例如,流量生成器FLAME(Brauckhoff等人,2008)和ID2T(Vasilomanolakis等人,2016)使用真实网络流量作为输入。这种输入流量应作为正常用户行为的基线。然后,FLAME和ID2T通过编辑输入流量的值或在考虑典型攻击模式的情况下注入合成流量来增加恶意的网络流量。Siska等人(2010)提出了一个基于图形的流量生成器,它从真实的网络流量中提取流量模板。然后,他们的生成器使用这些流量模板,以创建新的基于流量的合成网络流量。Ring等人(2019)将GANs用于生成合成网络流量。作者使用改进的Wasserstein Generative Adversar ial Networks(WGANGP)来创建基于流量的网络流量。WGANGP用真实的网络流量进行训练,学习流量特性。训练结束后,WGANGP能够创建具有类似特征的新的基于流量的合成网络流量。Erlacher和Dressler的流量生成器GENESIDS(Erlacher和Dressler,2018)根据用户定义的攻击描述生成HTTP攻击流量。还有许多额外的流量生成器,为了简洁起见,这里不做讨论。除了这些流量生成器,还有许多其他的流量生成器,这里不做讨论。相反,我们参考Molnár等人(2013)的流量生成器概述。

Brogi和Tong(2017)提出了另一个想法,在某种意义上类似于流量生成器。从因隐私问题而共享数据集的问题出发,他们提出了Moirai,一个允许用户共享完整场景而不是数据集的框架。Moirai背后的想法是在虚拟机中重放攻击场景,这样用户就可以在飞行中产生数据。

第三种方法也被归入流量生成器的大背景中,是支持用户标记真实网络流量的框架。Rajasinghe等人提出了这样一个框架,名为INSecSDCS(Rajasinghe等人,2018),它在网络设备上捕获网络流量,或使用pcap文件中准备好的网络流量作为输入。然后,INSecSDCS将数据流划分为时间窗口,用适当的属性对数据点进行分类,并根据用户定义的攻击者IP地址列表对网络流量进行标注。因此,INSecSDCS的重点是对网络工作流量进行标记和提取有意义的属性。Aparicio Navarro等人(2014)提出了一种使用无监督的基于异常的IDS的自动数据集标签方法。由于没有IDS能够将每个数据点分类到正确的类别,作者采取了一些中间措施来减少假阳性和真阴性的数量。IDS为每个数据点分配正常和攻击类别的信念值。如果这两个类别的信念值之间的差异小于预定的阈值,则该数据点将从数据集中删除。这种方法提高了标签的质量,但可能会丢弃数据集中最有趣的数据点。

7.意见和建议

标记的数据集对于训练有监督的数据挖掘方法(如分类算法)是不可避免的,并且有助于评估有监督和无监督的数据挖掘方法。因此,基于标签的网络数据集可以用来比较不同的NIDS的质量。然而,在任何情况下,数据集必须是有代表性的,以适合这些任务。社区已经意识到基于网络的真实数据的重要性,这项调查表明,有许多这样的数据来源(数据集、数据存储库和流量生成器)。此外,这项工作建立了一个数据集属性的集合,作为比较现有数据集和确定合适的数据集的基础,给定具体的评估方案。在下文中,我们将讨论有关使用现有数据集和创建新数据集的一些方面。

完美的数据集。不断增加的攻击场景,伴随着新的和更复杂的软件和网络结构,导致要求数据集应包含最新的和真实的网络流量。由于没有完美的IDS,数据点的标记应该由人工检查,而不是完全由IDS完成。因此,完美的基于网络的数据集是最新的、正确的、公开的、包含各种攻击和正常用户行为以及有效载荷的真实网络流量,并且跨越很长一段时间。然而,这样的数据集并不存在,而且(可能)永远不会被创建。如果隐私问题可以得到满足,并且现实世界的网络流量(基于数据包的格式)可以在足够长的时间内被记录下来,那么对这种流量进行准确的标记将是非常耗时的。因此,由于新的攻击场景不断出现,标记过程将花费大量时间,以至于数据集稍显过时。然而,一些可用的数据集满足了完美数据集的一些特性。此外,大多数应用并不要求完美的数据集,满足某些特性的数据集往往就足够了。例如,在评估一个新的端口扫描检测算法时,不需要一个数据集包含所有类型的攻击,或者在评估一个特定服务器的安全性时,不需要完整的网络配置。因此,我们希望这项工作能够支持研究人员为其特定的评估场景找到合适的数据集。

使用几个数据集。如上所述,不存在完美的基于网络的数据集。然而,这项调查显示,有几个数据集(和其他数据源)可以用于基于数据包和流量的网络流量。因此,我们建议用户用一个以上的数据集来评估他们的入侵检测方法,以避免对某个数据集的过度拟合,减少某个数据集的人为因素的影响,并在一个更普遍的背景下评估他们的方法。除此之外,Hofstede等人(2018)表明,基于流量的网络流量在实验室环境和生产网络之间有所不同。因此,另一种方法可以同时使用,分别模拟的合成数据集和真实世界的网络流量来强调这些要点。

为了确保第三方的可重复性,我们建议用至少一个公开的数据集来评估入侵检测方法。此外,我们想对CICIDS 2017、CIDDS001、UGR'16和UNSW NB15数据集的使用提出一般性建议。这些数据集可能适用于一般的评估环境。CICIDS 2017和UNSWNB15包含广泛的攻击场景。CIDDS001包含详细的元数据,可供深入调查。UGR'16因其巨大的流量而脱颖而出。然而,应该考虑到这一建议反映了我们的个人观点。该建议并不意味着其他数据集是不合适的。例如,由于CTU13和ISCX2012数据集的使用年限越来越长,我们只是避免将其纳入我们的建议中。此外,其他数据集如AWID或Botnet更适合于某些评估场景。

预定义子集。此外,我们想就基于异常的NIDS的评估做一个说明。机器学习和数据挖掘方法经常使用所谓的10倍交叉验证(Han等人,2011)。这种方法将数据集划分为十个大小相等的子集。一个子集用于测试,其他九个子集用于训练。这个过程要重复十次,这样每个子集都被用于测试一次。然而,这种直接分割数据集的做法对入侵检测的意义有限。例如,端口扫描数据集CIDDS002(Ring等人,2017)包含两周的网络流量,以流量为基础进行垫。这个数据集中的每个端口扫描可能会引起成千上万的流量。使用10倍交叉验证会导致的情况是,每种攻击的一些流量可能出现在训练数据集中。因此,测试数据中的攻击检测被简化了,而概括性却没有得到正确的评估。在这种情况下,对于CIDDS002数据集,最好是在第一周进行训练,在第二周进行测试(反之亦然)。在这种方法上定义子集也可以考虑网络流量随时间变化的概念漂移的影响。另一种创建合适子集的方法可能是根据流量特征(如源IP地址)来分割整个数据集。然而,这样的子集必须被精心设计,以保持数据集的基本网络结构。例如,一个只有代表客户的源IP地址而没有分离器的训练数据集是不合适的。基于这些观察,我们建议在应用域IT安全方面创建有意义的训练和测试分割。因此,基准数据集应该以预定义的训练和测试分割方式发布,以方便对相同数据评估的不同方法进行比较。

更紧密的合作。这项研究表明(见第5节),许多数据集在过去几年中已经发表,而且社区正在不断地创建新的入侵检测数据集。此外,社区可以从更紧密的合作和单一的普遍接受的平台中受益,以分享入侵检测数据集,没有任何访问限制。例如,Cermak等人(2018)致力于建立这样一个共享入侵检测数据集的平台。同样,Ring等人(2017c)发表了他们的脚本,用于模拟正常的用户行为和攻击,这样就可以被第三方使用和改进。所有提到的数据集和数据存储库的简短摘要可以在我们的网站上找到,我们打算用即将到来的基于网络的数据集更新这个网站。

标准格式。大多数基于网络的入侵检测方法需要标准的输入数据格式,不能处理预处理的数据。此外,其他类别的数据集(第3.3节)是否能实时计算是个问题,这可能会影响它们在NIDS中的作用。因此,我们建议以标准的基于数据包或基于流量的格式提供基于网络的数据集,因为它们是在真实的网络环境中捕获的。同时,许多基于异常的方法(如Wang等人,2010年或Zhang等人,2008年)在其他类别的数据集中实现了较高的检测率,这表明计算的属性对入侵检测是有希望的。因此,我们建议同时发布基于网络的标准格式的数据集和用于将数据集转换为其他格式的脚本。这种方法有两个好处。首先,用户可以决定他们是否要将数据集转移到其他格式,更多的研究人员可以使用相应的数据集。第二,这些脚本也可以应用于未来的数据集。

匿名化。匿名化是另一个重要的问题,因为这可能使基于网络的数据集的分析变得复杂。因此,应该仔细评估哪些属性必须被抛弃,哪些属性可以以匿名形式公布。许多作者证明了只使用有效载荷的小部分的有效性。例如,Mahoney(2003)提出了一种入侵检测方法,它使用每个数据包的前48字节,从IP头开始。流量输出器YAF(Inacio and Tram mell, 2010)允许通过提取有效载荷的前n个字节或计算有效载荷的熵来创建这种属性。一般来说,有几种匿名化的方法。例如,Xu等人(2002)提出了一种预保留的IP地址匿名化技术。Tcpmkpub(Pang等人,2006)是一个基于数据包的网络流量的匿名化工具,它允许对一些属性(如IP地址)进行匿名化,也可以计算出头检查和的新值。我们参考Kelly等人(2008)对基于网络的数据的匿名化技术进行了更全面的回顾。

公开。我们建议公布基于网络的数据集。只有公开的数据集才能被第三方使用,从而作为评估NIDS的基础。同样,数据集的质量也只有在公开可用的情况下才能被第三方检查。最后但同样重要的是,我们建议公布更多的元数据,以便第三方能够更详细地分析数据及其结果。

8.总结

标记的基于网络的数据集对于训练和评估NIDS是必要的。本文对现有的基于网络的入侵检测数据集进行了文献调查。为此,对基于网络的标准数据格式进行了更详细的分析。此外,还确定了15种可用于评估数据集适用性的属性。这些属性被分为五类。一般信息、数据的性质、数据量、记录环境和评估。

本文的主要贡献是对34个数据集的全面概述,指出了每个数据集的特殊性。因此,本文特别关注数据集内的攻击场景及其相互关系。此外,每个数据集都根据第一步制定的分类方案的属性进行评估。这一详细的调查旨在支持读者为他们的目的确定数据集。对数据集的审查表明,研究界已经注意到缺乏公开可用的基于网络的数据集,并试图通过在过去几年中发布相当数量的数据集来克服这一不足。由于有几个研究小组活跃在这一领域,预计很快会有更多的入侵检测数据集和改进。

作为网络流量的进一步来源,流量生成器和数据存储库将在第6节讨论。流量生成器创建合成的网络流量,并可用于为特定场景创建适应的网络流量。数据存储库是互联网上不同网络痕迹的集合。与第5节中的数据集相比,10个数据存储库提供了有限的文件、非标签数据集或特定场景的网络流量(例如,专门的FTP连接)。然而,在寻找合适的数据时,应该考虑到这些数据源,特别是对于特殊的场景。最后,我们讨论了对使用和生成基于网络的入侵检测数据集的一些意见和建议。我们鼓励用户在多个数据集上评估他们的方法,以避免对某一数据集的过度拟合,并减少某一数据集的人工假象的影响。此外,我们主张采用标准格式的数据集,包括预定义的训练和测试子集。总的来说,可能不会有一个完美的数据集,但有许多非常好的数据集可用,社区可以从更紧密的合作中受益

A survey of network-based intrusion detection data sets翻译二(5-8)相关推荐

  1. 基于网络的入侵检测数据集研究综述(A Survey of Network-based Intrusion Detection Data Sets)

    A Survey of Network-based Intrusion Detection Data Sets 基于网络的入侵检测数据集研究综述 摘要:标记数据对于基于异常的网络入侵检测系统的训练和评 ...

  2. 文献笔记 —— GIDS: GAN based Intrusion Detection System for In-Vehicle Network

    文献笔记 -- GIDS: GAN based Intrusion Detection System for In-Vehicle Network(GIDS: 基于GAN的车载网络入侵检测系统) 这篇 ...

  3. 网络入侵检测 Network Intrusion Detection System (NIDS)

    网络入侵检测 Network Intrusion Detection System--NIDS 网络入侵检测 Network Intrusion Detection System (NIDS) 1.学 ...

  4. 【论文笔记】:Enriched Feature Guided Refinement Network for Object Detection

    &Title Enriched Feature Guided Refinement Network for Object Detection 代码 中文翻译 &Summary 提出了一 ...

  5. 【论文阅读】FC-Net: A Method of Few-Shot Network Intrusion Detection Based on Meta-Learning Framework

    文章目录 0. Abstract 1. Introduction 2. Problem Formulation 3. Network Traffic Representation (数据与其处理方式) ...

  6. The Cross-evaluation of Machine Learning-based Network Intrusion Detection Systems

    本文提出了交叉检验的框架,指的是在不同的数据集进行交叉验证.we endorse the idea of cross-evaluating ML-NIDS by using malicious sam ...

  7. Survey of intrusion detection systems:techniques, datasets and challenges

    Survey of intrusion detection systems:techniques, datasets and challenges 入侵检测系统综述:技术.数据集和挑战 摘要:网络攻击 ...

  8. 论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection

    论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection (1)Author (2)Abstract (3 ...

  9. 【阅读笔记】PBCNN:Packet Bytes-based Convolutional Neural Network for Network Intrusion Detection

    CCF B Yu L , Dong J , Chen L , et al. PBCNN: Packet Bytes-based Convolutional Neural Network for Net ...

  10. Paper翻译:《A Novel Convolutional Neural Network Based Model for Recognition and Classification of App》

    论文名称:<A Novel Convolutional Neural Network Based Model for Recognition and Classification of Appl ...

最新文章

  1. 利用Arduino IDE对ATMEGA8等单片机编程
  2. 树链剖分入门+HYSBZ - 1036树的统计Count
  3. 雷军:互联网思维本质上就是群众路线
  4. Spring Boot----整合SpringCloud
  5. php上传文件表单,php中关于普通表单多文件上传的处理方法
  6. iPhone 14不会全部采用挖孔屏 仅两款Pro版采用
  7. 从零开始学前端:grid布局和音频 --- 今天你学习了吗?(CSS:Day24)
  8. VMware vs openStack对比直观优势
  9. python自学行吗-自学Python可以吗?怎样从入门到大师?我写这篇文章告诉你
  10. Java实现图片无损任意角度旋转
  11. 工业相机和镜头基础知识(转载)
  12. 我该如何拯救你,我的考研?
  13. uniApp App端跳转到深色页面闪白记录及优化处理方法
  14. 对耳朵伤害最小的耳机类型是哪种?如何保护我们的耳朵?
  15. Java抽号系统_简单实现java抽奖系统
  16. uni-app 99群公告推送功能(一)
  17. 使用python编写多普勒频移函数,绘制多普勒频移随速度变化的曲线,给出代码并举例,代码以markdown格式给出...
  18. import上一级目录的模块(Python)
  19. 传奇服务器需要满足什么条件
  20. matlab无功仿真,第八章MATLAB在无功补偿的仿真 实例.ppt

热门文章

  1. android 播放器封装,Android基于IJKPlayer视频播放器简单封装设计
  2. c++实现排列与组合
  3. Python使用-错误“name ‘requests‘ is not defined”的探查
  4. 字节和兆字节的换算_兆字节(MB)中有多少个字节?
  5. 使用curl查询本机ipv4或者ipv6
  6. 学海无涯!最全Android面试知识点梳理,系列篇
  7. 温敏壳聚糖水凝胶细胞因子复合支架/季铵盐壳聚糖水凝胶三维支架复合GNDF载间充质干细胞的制备
  8. LaTeX 多语言支持
  9. linux系统学文档pdf,Linux操作系统学习.pdf
  10. 学计算机的人可以定位找人吗,电脑如何实现查找“附近的人”?