文章目录

  • Machine-Learning Approach to Optimize SMOTE Ratio in Class Imbalance Dataset for Intrusion Detection
    • 论文摘要
    • 论文解决的问题
    • 算法流程
    • 总结

Machine-Learning Approach to Optimize SMOTE Ratio in Class Imbalance Dataset for Intrusion Detection

论文摘要

KDD CUP 1999 入侵检测数据集是在第三届国际知识发现和数据挖掘工具竞赛中引入的,并被广泛用于许多研究。KDD CUP 1999 数据集的攻击类型分为四类:U2R、R2L、DoS和Probe。 我们通过添加normal类来使用这五个类。 我们将 U2R、R2L 和 Probe 类定义为稀有类,因为它们均不到总数据集的 1%。 在这项研究中,我们试图减轻数据集的类别不平衡

使用合成少数过采样技术 (SMOTE),尝试优化稀有类别(U2R、R2L 和Probe)的 SMOTE 比率。

  1. 随机生成多个 SMOTE 比率的元组
  2. 这些元组用于创建用于优化稀有类的 SMOTE 比率的数值模型
  3. 创建模型的方式使用支持向量回归算法
  4. 我们将测试数据集中的每个实例分配给模型预测并选择最佳 SMOTE 比率。
  5. 使用最佳比率用于入侵检测(本文中使用的是支持向量机分类器)实验。

使用所提出方法的结果明显优于先前方法和其他相关工作的结果。

论文解决的问题

提出了一种获得最佳SMOTE比率的方法。即通过SVR模型预测。

算法流程

  1. 划分数据集

    将原始的KDD数据集按照1:1平分为Test和TrainA数据集,对于TrainA数据集再按照1:1的比例分为Validation数据集和TrainB数据集。

  2. 计算出各类标签所占比例,选择出比例较小的类别作为稀有类,本文中选择(U2R,R2L,Probe)作为稀有类,因此要优化这三个类别的SMOTE生成样本比率。为这三个类别的确定样本数量最大值。

  3. 随机产生100个三元组比率(U,R,P),注意不要超过样本数量最大值时的比率。计算这100个比率的入侵检测中每个类别的回归率(样本使用TrainB和Validation),通过以下方法计算出RMS,把RMS作为这100个比率的标签。

    The number of classes:在本文中应该取5

  4. 用这100个样本训练SVR模型。

  5. 再随机生成1000000个随机SMOTE三元组比率,用训练好的SVR模型对这些比率进行预测。

  6. 找到预测结果最好的那组样本,对TrainA进行过采样,然后训练SVM模型进行入侵检测。

总结

优化SMOTE不仅可以从算法本身入手,还可以通过优化比率的方法优化SMOTE算法。

研究型论文_用于优化入侵检测类不平衡数据集中SMOTE比率的机器学习方法(英文论文)相关推荐

  1. 用于类不平衡数据的随机森林分位数分类器

    阅读报告-A random forests quantile classifier for class imbalanced data 收录期刊:PATTERN RECOGNITION 中科院分区:2 ...

  2. 数据不平衡处理_如何处理多类不平衡数据说不可以

    数据不平衡处理 重点 (Top highlight) One of the common problems in Machine Learning is handling the imbalanced ...

  3. 门牌号码编辑器_用于门牌号码检测的深度学习

    门牌号码编辑器 深度学习 (Deep Learning) Stuck behind the paywall? Click here to read the full story with my fri ...

  4. python数据分析天气预报论文_用python+sklearn(机器学习)实现天气预报数据 模型和使用...

    项目地址 系列教程 0.前言 在上一篇教程里我们已经获取了所需要的全部数据,包括训练数据集和测试数据集,使用ProcessData()调用,所以接下来写模型的建立和预测 1.建立模型 没段代码在文章后 ...

  5. 基于主机的入侵检测优缺点_入侵检测技术 课后答案

    – – 1 第 1 章 入侵检测概述 思考题: ( 1 ) 分布式入侵检测系统 ( DIDS ) 是如何把基于主机的入侵检测方法和基于网络的入 侵检测方法集成在一起的? 答:分布式入侵检测系统是将主机 ...

  6. 网络安全实验-入侵检测-基于网络入侵检测系统

     实验目的: 1.掌握snort IDS工作机理 2.应用snort三种方式工作 3.熟练编写snort规则 实验原理: 一.snort IDS概述 snort IDS(入侵检测系统)是一个强大的网络 ...

  7. 关于KDD99入侵检测数据集的FAQ

    关于KDD99入侵检测数据集的FAQ 本文总结了关于KDD99数据集的一些常见问题,来自之前文章的评论和邮件,其中有些观点提供了看待该问题的不同视角. Q1: KDD数据集是怎么采集的?是直接截获的网 ...

  8. 用于道路目标检测的少镜头学习

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带 ...

  9. 【网络流量入侵检测数据集】CIC-IDS-2017数据集预处理

    网络流量入侵检测数据集CIC-IDS-2017数据预处理 CIC-IDS-2017 数据集包含良性和最新的常见攻击,类似真实世界数据(PCAPs). 它的数据采集截至2017年7月7日(星期五)下午5 ...

最新文章

  1. VMware12中安装CentOS7.2的详细过程
  2. 【Docker】在Docker中安装redis、rabbitmq
  3. [AGC016B]Colorful Hats
  4. erlang开发环境配置
  5. 转: ADO Connection Strings
  6. python第三方库文件传输_本地 Python 代码上传到 Python 第三方库(Pypi)
  7. 一次线上Nginx出问题排错经历
  8. cpu上干硅脂怎么清理_cpu导热硅脂如何涂抹,涂抹的时候需要注意哪些事项
  9. 解决JDK官网下载龟速的问题
  10. 3d场景渲染插件MultiScatter 1.623
  11. Android面试题【高级工程师版】
  12. redis集群在mac本地重启
  13. 不要让优秀的现有客户蒙蔽了你未来的客户
  14. Vulnerabilities in multi-factor authentication:多因素身份验证漏洞
  15. 外部排序(多路归并排序)
  16. Linux宝塔面板命令大全,快速学会
  17. 小陈谈JAVA(数组到底是怎样的,三分钟让你彻底认识数组)
  18. C语言:结构体与位段——自定义类型
  19. 责任链模式(以及变种管道模式)的应用案例
  20. 数字电路 电平转换总结

热门文章

  1. 中国的各地节日美食都又哪些
  2. 高中计算机应用基础试题及答案,春学期职业高中计算机应用基础试卷
  3. 码,主码,主属性,非主属性,平凡函数依赖,完全依赖等词解释
  4. 质量冷知识:TRIZ,一个被人忽略的管理工具
  5. c语言汇编输出字符串长度,汇编语言输入一些字符计算其长度
  6. camera驱动开机加载流程
  7. PHp勾股定理,【中考备考】有关数学必考奥数题之勾股定理练习题 初二数学
  8. 终极WordPress安全指南-分步指南(2020)
  9. Vue指令之v-for的使用
  10. R数据分析:生存分析的列线图的理解与绘制详细教程