由于本人从事安全相关的行业的工作,接触到很多想用机器学习解决网络安全相关的问题,不可避免的需要用到很多安全相关的开源数据集和工具,这里记录一下本人自己用过并感觉不错的数据集和开源工具。当然,这可能只是安全领域数据集和开源工具极小的一部分,希望能起到抛砖引玉的目的吧,本人后续也会不断更新。

1. 安全数据集

对于安全数据集,已经有行业从业者不辞辛劳的总结的很完善了,这里给出两个我看到的汇总网址:

网络安全中机器学习大合集

SecRepo.com - Samples of Security Related Data

安全联盟曝光台

其中,对于“安全联盟的曝光台”,安全联盟是由知道创宇、腾讯等互联网企业于2012年发起的第三方公益组织,自成立以来,通过与12321举报中心、腾讯、搜狗、金山等上百家机构、企业合作,通过发动群众参与网络治理,安全联盟已建成国内最大的第三方网络安全数据共享交换平台,日平均共享数据4500万次,每日接收网民举报超5000条,截止目前已拥有超过8.9亿条恶意网址、电话数据。这些恶意数据被应用到搜索引擎、浏览器、IM、社交平台、路由器OS等互联网终端,每天为网民提供超过30亿次恶意风险提醒,极大程度地帮助网民远离网络诈骗。

这里面包罗万象,我第一次看到感觉如获至宝,感觉发现了一座金矿,紧接着又有点傻眼,这个金矿应该怎么挖?我的答案是当然是站在前人的肩膀上,多利用前辈们的智慧啦。个人建议买一本《Web安全之机器学习入门》并下载随书代码,这本书里面列举了用机器学习方法解决典型的各种网络安全问题,上面列举的很多数据集都可以用在这里面,能帮你迅速上手并判断是否有深入使用和研究的价值。当然更棒的是,这本书里也列举了一些网络安全领域的公开数据集,与上面汇总帖里的数据集互为补充,能为你在开始一个网络安全领域的机器学习项目提供快速的建模手段。

说完汇总,我也列一下我在机器学习项目里使用过数据集:

恶意url: http://www.sysnet.ucsd.edu/projects/url/ An anonymized 120-day subset of our ICML-09 data set is available from the following links:

  • URL Data Set (Matlab) (470 MB)
  • URL Data Set (SVM-light) (234 MB)

僵尸网络DGA域名数据: http://osint.bambenekconsulting.com/feeds/dga-feed.txt
    恶意流量分析: http://malware-traffic-analysis.net/
    恶意软件分类数据:https://www.kaggle.com/c/malware-classificationhttp://www.malshare.com/index.php

2. 威胁情报

    当前安全领域高级持续威胁APT日益泛滥,威胁情报作为应对APT的重要手段也被越来越多的的安全厂商所重视,本人在github上发现了一个比较好的威胁情报资料汇总,网址是:https://github.com/hslatman/awesome-threat-intelligence

3. 开源扫描器集合

安全行业从业人员自研开源扫描器合集
开源扫描仪的工具箱

4. 开源软件集合

Stratosphere Linux IPS (slips) 
a behavioral-based intrusion detection and prevention system that uses machine learning algorithms to detect malicious behaviors.
https://github.com/stratosphereips/StratosphereLinuxIps
https://github.com/stratosphereips/StratosphereTestingFramework
Learn2ban
Open source machine learning DDOS detection tool
https://github.com/equalitie/learn2ban
malware-detection
Experiments in malware detection and classification using machine learning techniques.
https://github.com/dchad/malware-detection
Use of machine learning for anomaly detection in netflow data
https://github.com/eraclitux/machine-learning-netflow
Botnet Detection using Machine Learning
https://github.com/hmishra2250/Botnet-Detection-using-Machine-Learning
Fraud_Detector
Fraud Detection using ensemble of Statistical, Network analysis and Machine learning approach.
https://github.com/kskk02/Fraud_Detector
Intrusion Detection With Machine Learning
https://github.com/slrbl/Intrusion-and-anomaly-detection-with-machine-learning
Adaptive Machine Learning for Credit Card Fraud Detection
https://github.com/dalpozz/AMLFD
time series data analysis
https://github.com/linkedin/luminol
open source and threat intelligence
https://github.com/Te-k/harpoon
Apache Spot:一个全新的网络安全开源项目
Apache Spot 是一个基于网络流量和数据包分析,通过独特的机器学习方法,发现潜在安全威胁和未知网络攻击能力的开源方案。目前 Apache Spot 已支持对 Netflow、sflow、DNS、Proxy 的网络流量分析,主要依靠 HDFS、Hive 提供存储能力,Spark 提供计算能力,基于 LDA 算法提供无监督式机器学习能力,最终依赖 Jupyter 提供图形化交互能力。
详细介绍:https://mp.weixin.qq.com/s/DQdcByiuMNlUMhK7uHAdCA
https://spot.apache.org/
https://hub.docker.com/r/apachespot/spot-demo/

AIEngine (Artificial Intelligent Engine)

AIEngine is a packet inspection engine with capabilities of learning without any human intervention. AIEngine helps network/security professionals to identify traffic and develop signatures for use them on NIDS, Firewalls, Malware analysis, Traffic classifiers and so on.

网址:https://bitbucket.org/camp0/aiengine/

Passive DNS

PassiveDNS对安全研究非常重要,因为它可以得到以下三方面的答案:该域名曾经绑定过哪些IP、这个IP有没有其他的域名、该域名最早/最晚什么时候出现。Passive DNS同时也在SOC的时候起到很大的帮助。通过识别的恶意域名,可以找到其他被恶意破坏的机器。目前有很多网站允许我们访问它的PassiveDNS系统,例如:Virustotal(https://www.virustotal.com/)、passivetotal(https://www.passivetotal.com)、CIRCL (https://www.circl.lu/services/passive-dns/)。有很多这样的网站,但是,自己在本地有一个当然会更方便。

更详细的介绍:http://www.freebuf.com/articles/network/103815.html,以及https://www.farsightsecurity.com/solutions/dnsdb/

更多的开源工具:  PassiveDNS::Client, https://github.com/chrislee35/passivedns-client

Vulhub

Vulhub是一个面向大众的开源漏洞靶场,无需docker知识,简单执行两条命令即可编译、运行一个完整的漏洞靶场镜像。

开源代码:https://github.com/Cherishao/vulhub

安全数据集和开源工具相关推荐

  1. 网络安全数据集和开源工具

    由于本人从事安全相关的行业的工作,接触到很多想用机器学习解决网络安全相关的问题,不可避免的需要用到很多安全相关的开源数据集和工具,这里记录一下本人自己用过并感觉不错的数据集和开源工具.当然,这可能只是 ...

  2. 03- 目标检测数据集和标注工具介绍 (目标检测)

    要点: 常用数据集和标注工具 标注工具 PPOCRLabel github地址:paddleocrlabel 参考文档:目标检测简介 - 知乎 一 目标检测数据集 1. PASCAL VOC VOC数 ...

  3. 荐六十款针对Hadoop和大数据顶级开源工具

    为什么80%的码农都做不了架构师?>>>    荐六十款针对Hadoop和大数据顶级开源工具 2015-08-10 10:37 布加迪编译 51CTO 字号: T |  T 说到处理 ...

  4. 55种数据可视化开源工具_6种用于撰写书籍的开源工具

    55种数据可视化开源工具 我于1993年首次使用自由开源软件并为之做出了贡献,从那时起,我一直是开源软件开发人员和传播者. 我已经写了几十个开源软件项目或为之做出了贡献,尽管我将被铭记的是FreeDO ...

  5. 55种数据可视化开源工具_通过开源工具增强学生能力的15种方法

    55种数据可视化开源工具 该学年即将恢复,因此您将在接下来的几周内在Opensource.com上看到更多教育文章. 最近,我读了约翰·斯宾塞(John Spencer)和AJ朱利安尼(AJ Juli ...

  6. 55种数据可视化开源工具_4种开源工具让我的创业起步

    55种数据可视化开源工具 当我创办第一家公司时,资金很紧张. 我们有一个小型办公室和几台计算机,但没有其他很多. 我完成了所有成本计划,甚至没有考虑营业执照和软件成本. 我知道这是一个错误,但是将此类 ...

  7. 55种数据可视化开源工具_8种出色的开源数据可视化工具

    55种数据可视化开源工具 数据可视化是获取表格或空间数据并以对人类友好的视觉方式进行传递的机制. 有几种开源工具可以帮助您创建有用的信息图. 在本文中,我们将介绍八个开源的数据可视化工具. 数据包装器 ...

  8. 数据可视化开源工具软件

    数据可视化工具用于通过图形.图表.表格.地图和其他详细的视觉对象来表示信息. 它们通常将数据呈现和分析结合起来,以帮助专业人员在数据驱动领域(如工程.数据科学和业务分析)做出更明智的决策. 选择正确的 ...

  9. 医学图像数据集和处理工具【总结】

    一 数据集 http://brainweb.bic.mni.mcgill.ca/brainweb/ BrainWeb: Simulated Brain Database http://brainweb ...

最新文章

  1. [生活化技术]组合模式 vs. 理发店价格表
  2. 我和美国 AI 博士聊了聊:2020 年,这件事比存钱更重要!
  3. 做数据分析还在死磕Excel?用这个简单工具,摆脱复杂函数和公式
  4. 资源放送丨《一次特殊的Oralce硬解析性能问题的技术分享》PPT视频
  5. 测试人必备实用技能:写出一份好的Bug报告
  6. tf.contrib.rnn.static_rnn与tf.nn.dynamic_rnn区别
  7. 拓端tecdat|R语言通过WinBUGS对MGARCH和MSV模型进行贝叶斯估计和比较
  8. 视频教程-WebService实战讲解课程-Java
  9. tcs标准编写软件_tcs2010(中国标准编写模板)免费版
  10. iis启动 服务无法在此时接受控制信息。 (异常来自 HRESULT:0x80070425)
  11. 弗曼学习法,你在用吗?
  12. 教师计算机考核有啥用,教师计算机使用管理制度和考核方案
  13. Oracle R12采购接收流程 PR PO RCV AP Payment
  14. 机器学习导论——机器学习三要素
  15. python猴子分桃问题_用python实现【五猴分桃】问题
  16. 1.搭建普罗米休斯监控,实现可视化展示
  17. html css js php常用网页代码汇总合集(三)网页设计入门代码知识汇总3
  18. linux 下搭建portal服务器搭建,Linux环境下IBM WebSphere Portal v8.5独立服务器安装记录...
  19. 数字孪生 应急管理可视化决策系统
  20. PS基础及选框工具笔记(CS6)

热门文章

  1. Contextual Word Representations and Pretraining
  2. 基于stm32微控制器的绘图机器人设计
  3. Linux永久修改系统时间,修改硬件时间
  4. 社会工程学在网络***中的应用与防范
  5. Cocoa惯性思维调试一例
  6. 采集地图哪个软件好(采集地图哪个软件好用)
  7. 直觉和潜意识_管理需要技巧和直觉
  8. 网站需要高防服务器吗,什么类型的行业需要高防服务器?
  9. 将PC网站转化为手机自适应网页或者自己制作手机自适应网页其实很简单,可以利用meta标签声明。
  10. There are test failures.