基于三支决策的不平衡数据过采样方法

参考论文:

[1] 胡峰,王蕾,周耀. 基于三支决策的不平衡数据过采样方法[J]. 电子学报,2018(1). DOI:10.3969/j.issn.0372-2112.2018.01.019.

[2] 李航. 基于粗糙集的不平衡数据采样方法研究[D]. 2014. DOI:10.7666/d.D598925.

[3] CHEN, YUMIN, ZENG, ZHIQIANG, ZHU, QINGXIN, et al. Three-way decision reduction in neighborhood systems[J]. Applied Soft Computing,2016. DOI:10.1016/j.asoc.2015.10.059.

[4] 向伟,王新维. 基于多类邻域三支决策模型的不平衡数据分类[J]. 计算机科学,2020(5). DOI:10.11896/jsjkx.180601099.

[5] HU, FENG, LI, HANG. A Novel Boundary Oversampling Algorithm Based on Neighborhood Rough Set Model: NRSBoundary-SMOTE[J]. Mathematical Problems in Engineering: Theory, Methods and Applications,2013(Pt.13). DOI:10.1155/2013/694809.

算法步骤:

TWD-IDOS 算法1
Input:训练集,邻域半径权重w,阈值k(近邻个数)
Output:正域样本集(PosSet),边界域样本集(BndSet),负域样本集(NegSet)
--------------------------------
1.初始化:BndSet={},PosSet={},NegSet={},k=5,w=[0.01, 0.05]
2.根据决策属性划分正类样本和负类样本集合
3.计算每个样本的邻域类
├── 3.1 计算样本xi与xj之间的距离
│   └── 对于连续型属性:使用欧式距离
│   └── 对于分类型属性:使用VDM距离度量(代码改进)
├── 3.2 计算样本xi的邻域半径delta(论文:公式(8))
├── 3.3 根据delta计算xi的邻域类
4.根据定义3,将训练样本划分成正域样本集,边界域样本集,负域样本集(改动,原因:分不出负域)
(疑惑:alpha,beta怎么得来,没有可解释性)
TWD-IDOS 算法2
Input:正域样本集,边界域样本集,负域样本集,阈值k
Output:新的训练样本集NewTrainSet
--------------------------------
1.对于边界域样本中的正类样本进行过采样
├── 1.1 使用SMOTE合成新的样本(有问题:不能处理分类型特征。可改进)
├── 1.2 对每个合成的样本Xnew,判断其是否对正域集产生影响。
│   └── 具体操作:判断Xnew是不是属于每一个正域样本的邻域类,如果是,不加入生成样本集合NewSet;否则加入
2.对负域样本集中的正类样本进行过采样
├── 2.1 对负域的每一个正类样本,放大其邻域半径,使得=> delta'=2*delta。并计算在delta'下的邻域类
├── 2.2 判断:delta'下的邻域类中有正类样本
│   └── Then:计算xi在delta下所有样本的距离,找出一个距离最小的。
│   └──       然后以这个距离为邻域半径,在这个邻域范围内生成k个正类样本
├── 2.2 判断:否则
│   └── 如果delta'下的邻域类中没有正类样本,则将这个样本从负域中删除
3.合成新的训练集
├── NewTrainSet = PosSet∪BndSet∪NegSet∪NewSet

手写截图:


发现问题:

1.与论文设置相同阈值alpha=k,beta=k/k+1,分不出负域样本集
2.阈值alpha,beta,fx函数定义,没有解释。从天而降

修改之处:


部分实验结果:


数据集:ecoli3
原本数据分布:

平衡后数据分布:
数据集:ecoli1
原本数据分布:
平衡后数据分布:
数据集:yeast3
原本数据分布:
平衡后数据分布:

【读论文】基于三支决策的不平衡数据过采样方法相关推荐

  1. 读论文-基于循环gan特征增强的夜间车辆检测 Feature Enhancement Based on CycleGAN forNighttime Vehicle Detection

    摘要 现有的夜间车辆检测方法主要是通过检测前灯或尾灯来检测车辆.然而,复杂的道路照明环境对这些特性产生了不利的影响.本文提出了一种具有特征转换增强(feature translate enhancem ...

  2. 读论文|基于大平面物体垂直姿态的双向人机双手交接

    简介 翻译标题:基于大平面物体垂直姿态的双向人机双手交接 翻译摘要: Abstract-Object handover is one of the basic abilities for the ro ...

  3. 读论文—基于统计模型改进Word2vec优化策略研究

    文章摘要 问题切入点 Word2Vec的相关研究 文章的改进研究 摘要后的摘要 该文从训练词向量的语言模型入手,研究了经典skip-gram.CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本 ...

  4. 读论文-----基于单通道表面肌电信号的手势识别 Hand Gestures Recognition Based on One-Channel Surface EMG Signal

    Hand Gestures Recognition Based on One-Channel Surface EMG Signal 摘要 本文提出了一个利用OpenBCI采集两种手势信号的数据并解码信 ...

  5. 基于CNN-BiLSTM与三支决策的入侵检测方法

    摘要 随着网络入侵行为越来越多样化和智能化,网络数据特征维数高且非线性可分,传统的入侵检测算法存在对网络数据特征提取不充分.模型分类准确率低等问题.针对上述问题,使用卷积神经网络CNN与双向长短期记忆 ...

  6. lightgbm 数据不平衡_不平衡数据下的机器学习(下)

    本文从不平衡学习的基础概念和问题定义出发,介绍了几类常见的不平衡学习算法和部分研究成果.总体来说,不平衡学习是一个很广阔的研究领域,但受笔者能力和篇幅的限制,本文仅对其中部分内容做了简单概述,有兴趣深 ...

  7. 三支决策(从粗糙集说起)

    初步了解 1. 是什么 首先,二支决策是什么?是用"非黑即白"的理念对一个事物进行判定的策略 (例如,如果投递的期刊在决定"是否录用的你论文"这个问题上采取的是 ...

  8. 【论文速读】基于投影方法的激光雷达点云处理比较

    点云PCL免费知识星球,点云论文速读. 文章:LiDAR point-cloud processing based on projection methods: a comparison 作者:Gui ...

  9. 【论文速读】基于图像的伪激光雷达三维目标检测

    点云PCL免费知识星球,点云论文速读. 标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection 作者:Rui Qian, Divy ...

最新文章

  1. 属性子集选择的基本启发方法_图网络基本属性
  2. iOS中的应用启动原理
  3. 10行代码实现小程序支付功能!丨实战
  4. 二级计算机access押题,全国计算机等级考试标准教程:二级Access
  5. Windows10下VB6.0开发——写入数据到文件操作
  6. 哈哈哈,我来啦~~(纯灌水帖)
  7. Qt_我写过的bug
  8. 6N137中文说明书 光耦资料 6N137资料
  9. Clover 驱动文件夹_四叶草Clover相关
  10. dlib 人脸特征点检测
  11. 等保二级和等保三级的区别
  12. java 阴阳历,Java基础-有意思的阴阳历互换的算法
  13. Codeforces - Serval and Rooted Tree
  14. 老人智能手表方案/案列/APP/小程序/网站
  15. Hypervisor操作系统间的通信技术
  16. CSS 解决火狐浏览器打印时,背景颜色丢失的问题
  17. 单片机电梯上下行_为什么未来的电梯会移动得不仅仅是上下。
  18. JAVA输出菱形并使用绝对值_利用for循环打印实心棱形和空心棱形
  19. 宝宝树11年创业纪录片曝光 王怀南:他们不知道我的厉害
  20. 地址转换技术 NAT

热门文章

  1. 计算/感知/认知智能的研究现状
  2. python3.7安装完成pip无法使用
  3. Dynaper - Dynamic Wallpapers for mac(动态壁纸制作工具) v1.5激活版
  4. 【GlobalMapper精品教程】040:tif转jpg:解决ArcGIS中JPEG压缩仅支持8位或16位无符号数据的问题
  5. 把随身WiFi的esim卡移植到SIM卡放到手机使用
  6. Transitive attribute传递属性
  7. TexturePacker破解办法
  8. 用Python控制摄像头拍照并发邮件
  9. Proxifier+secureCRT建立隧道
  10. 排序方法基本介绍(1)