【读论文】基于三支决策的不平衡数据过采样方法
基于三支决策的不平衡数据过采样方法
参考论文:
[1] 胡峰,王蕾,周耀. 基于三支决策的不平衡数据过采样方法[J]. 电子学报,2018(1). DOI:10.3969/j.issn.0372-2112.2018.01.019.
[2] 李航. 基于粗糙集的不平衡数据采样方法研究[D]. 2014. DOI:10.7666/d.D598925.
[3] CHEN, YUMIN, ZENG, ZHIQIANG, ZHU, QINGXIN, et al. Three-way decision reduction in neighborhood systems[J]. Applied Soft Computing,2016. DOI:10.1016/j.asoc.2015.10.059.
[4] 向伟,王新维. 基于多类邻域三支决策模型的不平衡数据分类[J]. 计算机科学,2020(5). DOI:10.11896/jsjkx.180601099.
[5] HU, FENG, LI, HANG. A Novel Boundary Oversampling Algorithm Based on Neighborhood Rough Set Model: NRSBoundary-SMOTE[J]. Mathematical Problems in Engineering: Theory, Methods and Applications,2013(Pt.13). DOI:10.1155/2013/694809.
算法步骤:
TWD-IDOS 算法1
Input:训练集,邻域半径权重w,阈值k(近邻个数)
Output:正域样本集(PosSet),边界域样本集(BndSet),负域样本集(NegSet)
--------------------------------
1.初始化:BndSet={},PosSet={},NegSet={},k=5,w=[0.01, 0.05]
2.根据决策属性划分正类样本和负类样本集合
3.计算每个样本的邻域类
├── 3.1 计算样本xi与xj之间的距离
│ └── 对于连续型属性:使用欧式距离
│ └── 对于分类型属性:使用VDM距离度量(代码改进)
├── 3.2 计算样本xi的邻域半径delta(论文:公式(8))
├── 3.3 根据delta计算xi的邻域类
4.根据定义3,将训练样本划分成正域样本集,边界域样本集,负域样本集(改动,原因:分不出负域)
(疑惑:alpha,beta怎么得来,没有可解释性)
TWD-IDOS 算法2
Input:正域样本集,边界域样本集,负域样本集,阈值k
Output:新的训练样本集NewTrainSet
--------------------------------
1.对于边界域样本中的正类样本进行过采样
├── 1.1 使用SMOTE合成新的样本(有问题:不能处理分类型特征。可改进)
├── 1.2 对每个合成的样本Xnew,判断其是否对正域集产生影响。
│ └── 具体操作:判断Xnew是不是属于每一个正域样本的邻域类,如果是,不加入生成样本集合NewSet;否则加入
2.对负域样本集中的正类样本进行过采样
├── 2.1 对负域的每一个正类样本,放大其邻域半径,使得=> delta'=2*delta。并计算在delta'下的邻域类
├── 2.2 判断:delta'下的邻域类中有正类样本
│ └── Then:计算xi在delta下所有样本的距离,找出一个距离最小的。
│ └── 然后以这个距离为邻域半径,在这个邻域范围内生成k个正类样本
├── 2.2 判断:否则
│ └── 如果delta'下的邻域类中没有正类样本,则将这个样本从负域中删除
3.合成新的训练集
├── NewTrainSet = PosSet∪BndSet∪NegSet∪NewSet
手写截图:
发现问题:
1.与论文设置相同阈值alpha=k,beta=k/k+1,分不出负域样本集
2.阈值alpha,beta,fx函数定义,没有解释。从天而降
修改之处:
部分实验结果:
数据集:ecoli3
原本数据分布:
平衡后数据分布:
数据集:ecoli1
原本数据分布:
平衡后数据分布:
数据集:yeast3
原本数据分布:
平衡后数据分布:
【读论文】基于三支决策的不平衡数据过采样方法相关推荐
- 读论文-基于循环gan特征增强的夜间车辆检测 Feature Enhancement Based on CycleGAN forNighttime Vehicle Detection
摘要 现有的夜间车辆检测方法主要是通过检测前灯或尾灯来检测车辆.然而,复杂的道路照明环境对这些特性产生了不利的影响.本文提出了一种具有特征转换增强(feature translate enhancem ...
- 读论文|基于大平面物体垂直姿态的双向人机双手交接
简介 翻译标题:基于大平面物体垂直姿态的双向人机双手交接 翻译摘要: Abstract-Object handover is one of the basic abilities for the ro ...
- 读论文—基于统计模型改进Word2vec优化策略研究
文章摘要 问题切入点 Word2Vec的相关研究 文章的改进研究 摘要后的摘要 该文从训练词向量的语言模型入手,研究了经典skip-gram.CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本 ...
- 读论文-----基于单通道表面肌电信号的手势识别 Hand Gestures Recognition Based on One-Channel Surface EMG Signal
Hand Gestures Recognition Based on One-Channel Surface EMG Signal 摘要 本文提出了一个利用OpenBCI采集两种手势信号的数据并解码信 ...
- 基于CNN-BiLSTM与三支决策的入侵检测方法
摘要 随着网络入侵行为越来越多样化和智能化,网络数据特征维数高且非线性可分,传统的入侵检测算法存在对网络数据特征提取不充分.模型分类准确率低等问题.针对上述问题,使用卷积神经网络CNN与双向长短期记忆 ...
- lightgbm 数据不平衡_不平衡数据下的机器学习(下)
本文从不平衡学习的基础概念和问题定义出发,介绍了几类常见的不平衡学习算法和部分研究成果.总体来说,不平衡学习是一个很广阔的研究领域,但受笔者能力和篇幅的限制,本文仅对其中部分内容做了简单概述,有兴趣深 ...
- 三支决策(从粗糙集说起)
初步了解 1. 是什么 首先,二支决策是什么?是用"非黑即白"的理念对一个事物进行判定的策略 (例如,如果投递的期刊在决定"是否录用的你论文"这个问题上采取的是 ...
- 【论文速读】基于投影方法的激光雷达点云处理比较
点云PCL免费知识星球,点云论文速读. 文章:LiDAR point-cloud processing based on projection methods: a comparison 作者:Gui ...
- 【论文速读】基于图像的伪激光雷达三维目标检测
点云PCL免费知识星球,点云论文速读. 标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection 作者:Rui Qian, Divy ...
最新文章
- 属性子集选择的基本启发方法_图网络基本属性
- iOS中的应用启动原理
- 10行代码实现小程序支付功能!丨实战
- 二级计算机access押题,全国计算机等级考试标准教程:二级Access
- Windows10下VB6.0开发——写入数据到文件操作
- 哈哈哈,我来啦~~(纯灌水帖)
- Qt_我写过的bug
- 6N137中文说明书 光耦资料 6N137资料
- Clover 驱动文件夹_四叶草Clover相关
- dlib 人脸特征点检测
- 等保二级和等保三级的区别
- java 阴阳历,Java基础-有意思的阴阳历互换的算法
- Codeforces - Serval and Rooted Tree
- 老人智能手表方案/案列/APP/小程序/网站
- Hypervisor操作系统间的通信技术
- CSS 解决火狐浏览器打印时,背景颜色丢失的问题
- 单片机电梯上下行_为什么未来的电梯会移动得不仅仅是上下。
- JAVA输出菱形并使用绝对值_利用for循环打印实心棱形和空心棱形
- 宝宝树11年创业纪录片曝光 王怀南:他们不知道我的厉害
- 地址转换技术 NAT
热门文章
- 计算/感知/认知智能的研究现状
- python3.7安装完成pip无法使用
- Dynaper - Dynamic Wallpapers for mac(动态壁纸制作工具) v1.5激活版
- 【GlobalMapper精品教程】040:tif转jpg:解决ArcGIS中JPEG压缩仅支持8位或16位无符号数据的问题
- 把随身WiFi的esim卡移植到SIM卡放到手机使用
- Transitive attribute传递属性
- TexturePacker破解办法
- 用Python控制摄像头拍照并发邮件
- Proxifier+secureCRT建立隧道
- 排序方法基本介绍(1)