CSE-CIC-IDS2018 数据集CSV文件下载 与 处理

  • 前言
  • 参考资料
  • 我下载的CSE-CIC-IDS2018
  • 下载方法
  • Tips:有可能第一遍会下载失败,再下一遍就很快了
  • 数据处理参考

前言

学姐的一篇论文需要该数据集,全部有452.8GiB,所幸有处理好的CSV文件,2018的合计有6GiB左右;

四处搜寻没有找到,csdn上有个2018的会员资源下载下来里面是2017的内容,没办法自己去官网下载,过程不易,特总结一下方法,以及分享我下载的2018数据集。

我采用的下载办法,是用windows系统下的

参考资料

IDS2018数据集UNB官网

参考了两篇文章:
如何获得IDS2018的CSV格式数据集的问答
这篇博文:讲到了其他操作系统,我没有尝试

我下载的CSE-CIC-IDS2018

由于下载真的很慢,提供我的下载内容,大家信得过就拿去用。

下载方法

【1】 官网下载AWS工具
或者用我下载下来的(AWSCLI64.msi,windows64位)
【2】 在aws的安装文件夹中打开cmd命令窗口,运行:

aws s3 ls --no-sign-request "s3://cse-cic-ids2018" --recursive --human-readable --summarize

运行结果如下:

****我只列举了结果的后半部分,方便大家复制路径****
2018-10-12 00:02:25    0 Bytes Processed Traffic Data for ML Algorithms/
2018-10-12 00:02:49  336.0 MiB Processed Traffic Data for ML Algorithms/Friday-02-03-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:03:10  318.3 MiB Processed Traffic Data for ML Algorithms/Friday-16-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:03:33  365.1 MiB Processed Traffic Data for ML Algorithms/Friday-23-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:03:59    3.8 GiB Processed Traffic Data for ML Algorithms/Thuesday-20-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:08:38  102.8 MiB Processed Traffic Data for ML Algorithms/Thursday-01-03-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:08:48  358.5 MiB Processed Traffic Data for ML Algorithms/Thursday-15-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:09:20  364.9 MiB Processed Traffic Data for ML Algorithms/Thursday-22-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:09:44  341.6 MiB Processed Traffic Data for ML Algorithms/Wednesday-14-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:10:12  313.7 MiB Processed Traffic Data for ML Algorithms/Wednesday-21-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:10:33  199.6 MiB Processed Traffic Data for ML Algorithms/Wednesday-28-02-2018_TrafficForML_CICFlowMeter.csvTotal Objects: 42Total Size: 452.8 GiB

【3】我们需要下载的是最后十个CSV文件,经过测试,逐条下载比递归下载要快。举例:

**使用该命令,下载上面结果中第12行对应那条数据:

aws s3 cp --no-sign-request "s3://cse-cic-ids2018/Processed Traffic Data for ML Algorithms/Wednesday-28-02-2018_TrafficForML_CICFlowMeter.csv" cicids2018

命令解读:①.其中,最后的cicids2018为存放路径,默认在aws安装路径下。②倒数第二个参数为云端文件路径(下载别的文件对应改名)

【4】下载效果(如果下载卡住了,按一下回车):

Tips:有可能第一遍会下载失败,再下一遍就很快了

吐槽,下载真的很慢。

数据处理参考

在数据处理过程中遇到两个小问题:
①有一列日期,我的处理是转为时间戳;参考链接
②有两列数据存在NaN,和Infinity;参考处理

我的处理:

恭喜大家,看完了!再见!

【含资源】CSE-CIC-IDS2018 数据集CSV文件 下载 与 处理相关推荐

  1. python读取数据集csv文件_读取CSV文件并使用python提取所需的数据量

    我从csv文件中提取了数据,从特定的行和列开始,使用以下代码:def csvread(csvpath, filtered_dict): rdr = csv.reader(open(csvpath, ' ...

  2. DL之LSTM之MvP:基于TF利用LSTM基于DIY时间训练csv文件数据预测后100个数据(多值预测)状态

    DL之LSTM之MvP:基于TF利用LSTM基于DIY时间训练csv文件数据预测后100个数据(多值预测)状态 目录 数据集csv文件内容 输出结果 设计思路 训练记录全过程 数据集csv文件内容 输 ...

  3. 如何在SQL Server 2016中使用R导入/导出CSV文件

    介绍 (Introduction) Importing and exporting CSV files is a common task to DBAs from time to time. 导入和导 ...

  4. php页面导出csv,使用PHP生成并导出CSV文件

    CSV文件是以纯文本形式存储的,一般以逗号为分隔符. 这里主要简单介绍下如何导出CSV文件. 一.浏览器导出CSV文件格式 /** * 导出CSV文件 */ function exportCsv() ...

  5. PHP进行生成并且导出CSV文件

    1.参考 https://www.cnblogs.com/woods1815/p/11875913.html 2.基础 CSV文件是以纯文本形式存储的,一般以逗号为分隔符 3.浏览器导出CSV文件格式 ...

  6. 【puthon】把大量csv文件写入h5文件制作数据集

    背景 每一个样本的数据被写入了一个csv中,在制作数据集时,需要先将大量的csv文件写入到一个h5文件中 样例代码 import os import sys import h5py import nu ...

  7. ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件

    ML之FE:数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并另存为csv文件 目录 数据随机抽样之利用pandas的sample函数对超大样本的数据集进行随机采样,并 ...

  8. 使用sklearn加载公共数据集、内存数据与CSV文件

    本文介绍了如何加载各种数据源,以生成可以用于sklearn使用的数据集.主要包括以下几类数据源: 预定义的公共数据源 内存中的数据 csv文件 任意格式的数据文件 稀疏数据格式文件 sklearn使用 ...

  9. Pytorch学习笔记(八)——CWRU(西储大学轴承数据集)数据集如何从mat格式转为CSV文件

    2022.4.5增加说明==== 鉴于很多读者询问代码没作用的问题,做一下解释 cwru数据集的目录如这样 子目录 file_path需要修改为自己的CWRU数据集的路径 save_file_path ...

最新文章

  1. IEEE年终AI大盘点:网友教会GPT-3骂人、DeepMind再造机器人
  2. 如何创建 Code Snippet
  3. c# 建立到数据源的连接 以及获取项目配置文件的属性
  4. spring task 定时
  5. UML介绍--用例图
  6. Delphi - 新语法之类相关的
  7. maven setting.xml 中文配置详解(全配置)
  8. 一位虔诚事主的朋友的分享
  9. CodeIgniter典型的表单提交验证代码
  10. vb与数据库(一)之迟到的耿建玲视频总结
  11. pytorch: 网络层参数初始化
  12. iOS开发多线程篇—GCD的常见用法
  13. 阿里P6+面试:介绍下观察者模式?
  14. Java实现网页截图技术
  15. 服务器CPU和普通CPU有什么区别?常用的服务器有六大区别
  16. Where are Docker images stored? (杂译)
  17. 投影 WGS84坐标与北京54坐标转换
  18. 国产软件很流氓?不,这些国产软件良心且实用,别让它们寒心
  19. Fractions to Decimals
  20. NO.12【婳骨】の张三-打工人之路

热门文章

  1. CTF学习笔记——IncludePing Ping Ping
  2. 帮你自动填账号密码的黑科技,安卓用户的专属福利
  3. C语言仅凭自学能到什么高度?
  4. 怎样用产品思维来做好PPT
  5. Java刷新Jpanel_java更新Jpanel组件
  6. 机器视觉不良品检测中准确率、误剔率、漏剔率的计算说明
  7. Understand 6.4.1141破解
  8. Python 获取文件或者文件夹的修改日期 获取文件的修改时间、访问时间、创建时间、大小占用
  9. Ubuntu右上角键盘图标消失
  10. CleanShot X:屏幕截图、录屏、滚动截图、标注一个都不少