不均衡数据集采样2——BorderlineSMOTE算法(过采样)
论文:Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning
https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.308.9315&rep=rep1&type=pdf
Borderline Smote 算法只过采样小样本数据的边界
算法思路:
- 从小样本出发,计算小样本点ppp的k近邻的全部样本,如果:
- 全是其他类别的样本点,则这个点是噪声(noise),不管了
- 一半以上,但非全部是其他类别的样本点,则为DANGER(危险)点,论文中认为这部分是容易被错误分类的点,在这些点周围生成数据
- 一半以下是其他类别的样本点,意味着这个点是安全的,不管了
- 对于DANGER(危险)点,按照SMOTE的思路(可以参考:https://blog.csdn.net/weixin_35757704/article/details/121927100)在线段上随机生成数据
示例代码
import pandas as pd
from imblearn.over_sampling import BorderlineSMOTEdef get_dataset():from sklearn.datasets import make_classificationdata_x, data_y = make_classification(n_samples=1000, n_classes=2, n_features=6, n_informative=4,random_state=0) # 2个特征data_x = pd.DataFrame(data_x)data_x.columns = ['x1', 'x2', 'x3', 'x4', 'x5', 'x6']data_y = pd.Series(data_y)# 删除部分数据:删除100个label为0的数据drop_index = data_y[data_y == 0].sample(100).indexdata_y = data_y.drop(drop_index)data_x = data_x.drop(drop_index)return data_x, data_yif __name__ == '__main__':x_data, y_data = get_dataset() # 获取数据源# 生成数据smote_data = BorderlineSMOTE().fit_resample(x_data, y_data.values)new_x_data = smote_data[0] # 新的xnew_y_data = smote_data[1] # 新的y
不均衡数据集采样2——BorderlineSMOTE算法(过采样)相关推荐
- DataScience:对严重不均衡数据集进行多种采样策略(随机过抽样、SMOTE过采样、SMOTETomek综合采样、改变样本权重等)简介、经验总结之详细攻略
DataScience:对严重不均衡数据集进行多种采样策略(随机过抽样.SMOTE过采样.SMOTETomek综合采样.改变样本权重等)简介.经验总结之详细攻略 目录
- python过采样代码实现_过采样中用到的SMOTE算法
平时很多分类问题都会面对样本不均衡的问题,很多算法在这种情况下分类效果都不够理想.类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均.比如说一个二分类问题,100 ...
- 在深度学习中处理不均衡数据集
在深度学习中处理不均衡数据集 hard negative mining online hard sample mining https://blog.csdn.net/jacke121/article ...
- 掩膜区域内像素值_基于颜色空间采样的抠图算法
摘 要: 由于自然图像抠图具有高度的不确定性,目前的抠图方法中对于前背景颜色较为复杂的图片处理效果并不理想.本文首先通过采集大量的样本对来估计初始的掩膜值,但是通过采样得到的样本对并不能很好地估计掩膜 ...
- sas数据集怎么导出_PCA算法 | 数据集特征数量太多怎么办?用这个算法对它降维打击!...
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第27文章,我们一起来聊聊数据处理领域的降维(dimensionality reduction)算法. 我们都知道,图片 ...
- 数据集怎么导出_PCA算法 | 数据集特征数量太多怎么办?用这个算法对它降维打击...
今天是机器学习专题的第27文章,我们一起来聊聊数据处理领域的降维(dimensionality reduction)算法. 我们都知道,图片格式当中有一种叫做svg,这种格式的图片无论我们将它放大多少 ...
- 2018-02-03-PY3下经典数据集iris的机器学习算法举例-零基础
---layout: posttitle: 2018-02-03-PY3下经典数据集iris的机器学习算法举例-零基础key: 20180203tags: 机器学习 ML IRIS python3mo ...
- 2021-11-06关节空间路径规划和算法(采样、搜索)或者末端轨迹优化?
关节空间路径规划 一些概念 一. 摘自 运动规划ompl 1.1. 运动规划 (Motion Planning) 我们这里讲的 运动规划 ,有别于 轨迹规划 (Path Planning).一般来说, ...
- 基于采样的规划算法之RRT家族(六):总结
从RRT到时空RRT,我们介绍了总共5种RRT家族算法.RRT-Connect.RRT* .Informed RRT* 都是为了让原始RRT算法花更小的时间找到更短的路径.最后一个时空RRT算法则是为 ...
最新文章
- pip install Read timed out 超时问题解决
- ansys 帮助文档_ANSYS 2020 R1版帮助文档简介
- iOS工程引入ios-charts-master
- jvm_垃圾收集算法讲解(二)
- 测试—自定义消息处理
- Java的并发编程中的多线程问题到底是怎么回事儿?
- centos mysql无法启动 sock_linux 下mysql无法启动 mysql.sock
- oracle数据库安装HotSpot,Oracle准备将Java虚拟机 JRockit 和 Hotspot 集成
- RIP路由协议的理解
- 多维空间内过 n + 1 个点的空间的性质
- java模拟form表单提交图片文件
- 《数据结构题集》2.12
- 三星或将80%手机生产转至越南
- Allegro PCB 封装库
- 媒体播放器之:TCPMP播放器简介
- 智能(个性化)推荐系统全流程落地实施方案
- MobSF分析.ipa文件,MobSF分析iOS app
- go 服务器压力测试,Go的单元测试与压力测试
- 常用数学符号大全、关系代数符号
- objective-c类别catagory的作用?
热门文章
- eval() python_python的eval和exec的区别与联系
- js 时间加减_【JS】550 简单几步让你的 JS 写得更漂亮
- mac 不显示 外接屏幕_Mac外接屏幕亮度调整
- 混合使用Objective-C,C++和Objective-C++
- 微异构Embree照片级光线追踪解决方案
- vue实现两重列表集合,点击显示,点击隐藏的折叠效果,(默认显示集合最新一条数据,点击展开,显示集合所有数据)...
- 怎样实现一个非阻塞的超时重试任务队列
- 怕死吗?研究人员推出可模拟“灵魂出窍”的VR系统
- C++类与对象(05)
- yum命令不能使用的相关错误