关于类别不平衡的问题,主要有两种处理方式:

过采样方法

定义:增加数量较少那一类样本的数量,使得正负样本比例均衡。

缺点:

  • 对于随机过采样,由于需要对少数类样本进行复制来扩大数据集,造成模型训练复杂度加大
  • 另一方面也容易造成模型的过拟合问题,因为随机过采样是简单的对初始样本进行复制采样,这就使得学习器学得的规则过于具体化,不利于学习器的泛化性能,造成过拟合问题。
# 使用imblearn进行随机过采样
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X, y)
#查看结果
Counter(y_resampled)#过采样后样本结果
# Counter({2: 4674, 1: 4674, 0: 4674})# 数据集可视化
plt.scatter(X_resampled[:, 0], X_resampled[:, 1], c=y_resampled)
plt.show()

解决随机过采样方法: SMOTE

SMOTE算法计算过程如下:

# SMOTE过采样
from imblearn.over_sampling import SMOTE
X_resampled, y_resampled = SMOTE().fit_resample(X, y)
Counter(y_resampled)# 采样后样本结果
# [(0, 4674), (1, 4674), (2, 4674)]# 数据集可视化
plt.scatter(X_resampled[:, 0], X_resampled[:, 1], c=y_resampled)
plt.show()

欠采样方法

定义:减少数量较多那一类样本的数量,使得正负样本比例均衡。

缺点:

  • 随机欠采样方法通过改变多数类样本比例以达到修改样本分布的目的,从而使样本分布较为均衡,但是这也存在一些问题。对于随机欠采样,由于采样的样本集合要少于原来的样本集合,因此会造成一些信息缺失,即将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息。
# 随机欠采样
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_resample(X, y)
Counter(y_resampled)# 采样后结果
[(0, 64), (1, 64), (2, 64)]# 数据集可视化
plt.scatter(X_resampled[:, 0], X_resampled[:, 1], c=y_resampled)
plt.show()

过采样方法、欠采样介绍相关推荐

  1. python 欠采样_数据科学家需要了解的 5 种采样方法

    雷锋网 AI 科技评论按,采样问题是数据科学中的常见问题,对此,WalmartLabs 的数据科学家 Rahul Agarwal 分享了数据科学家需要了解的 5 种采样方法,雷锋网 AI 科技评论编译 ...

  2. 过采样与欠采样图像重采样(上采样下采样)

    参考文章: https://blog.csdn.net/majinlei121/article/details/46742339 https://blog.csdn.net/Chaolei3/arti ...

  3. 彻底分清机器学习中的上采样、下采样、过采样、欠采样【总结】

    今天看了篇中文的硕士论文,读着读着感觉有点奇怪,仔细一看原来他把下采样和欠采样搞混了,这里笔者就详细区分一下各个名称的概念. 文章目录 1. 上采样&下采样 2.过采样&欠采样 3.信 ...

  4. 数字示波器使用中的欠采样

    问题提出****None1.当我把示波器调到和pwm周期一个数量级时,可以测出标准的pwm波形,然后当我把示波器周期调大时,发现在每格25ms时出现了一个神奇的波形,形状和pwm波形一致(图中是40% ...

  5. 数据处理 过采样与欠采样 SMOTE与随机采样 达到样本均衡化

    文章目录 ✌ 过采样与欠采样 1.✌ 采样介绍 2.✌ 过采样 2.1 随机采样: 2.2 SMOTE采样: 3.✌ 欠采样 4.✌ 代码演示 1.1 ✌ 创建数据 1.2 ✌ 随机采样 1.3 ✌ ...

  6. 欠采样(undersampling)和过采样(oversampling)

    当二分类数据不均衡时会影响模型的输出,此时需要对数据进行处理. 1:为什么类别不平横会影响模型的输出: 许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大于则为正例.在数据不平衡时, ...

  7. 降采样,过采样,欠采样,子采样,下采样,上采样,你学会了吗?【总结】

    降采样: 2048HZ对信号来说是过采样了,事实上只要信号不混叠就好(满足尼奎斯特采样定理),所以可 以对过采样的信号作抽取,即是所谓的"降采样". 在现场中采样往往受具体条件的限 ...

  8. 机器学习算法 03 —— 逻辑回归算法(精确率和召回率、ROC曲线和AUC指标、过采样和欠采样)

    文章目录 系列文章 逻辑回归 1 逻辑回归介绍 1.1 逻辑回归原理 输入 激活函数 1.2 损失以及优化 2 逻辑回归API介绍 3 案例:肿瘤良性恶性预测 4 分类模型的评估 4.1 分类评估方法 ...

  9. 数据不平衡问题解决方法——欠采样

    对于二分类问题,正负样本比例为1:2.1:3.2:3都是可以接受的,但如果正负样本数量相差较大,比如1:10.1:13比例,则需要考虑进行重采样.数据量较大的情况下,使用欠采样方法较为合适. 本文使用 ...

  10. ADC的过采样与欠采样

    在选择一个 ADC时,采样频率 fs是我们最优先考虑的参数.连续的模拟信号以时间间隔 ts = 1/fs被采样,究竟什么样的采样频率才能保证精确地描述原始模拟信号?很显然,同一时间段内采样越多(采样频 ...

最新文章

  1. PyTorch数据加载处理
  2. 【Codeforces】427B Prison Transfer(别让罪犯跑了...)
  3. AI大师张钹领衔,清华AI研究院推出知识计算开放平台
  4. [AaronYang]那天有个小孩跟我说Js-NodeJS[AY0]-EJS
  5. 从传统GAN到improved WGAN
  6. 一个软件工程师的职业规划
  7. 用Java代码在ElasticSearch中索引PDF文件?
  8. Grasshopper学习手册第二版资源
  9. 10页PPT,看懂 SaaS 客户生命周期
  10. 解决微信网页授权:出现errcode:40163
  11. 飞机大战,坦克大战源码、简单仿记事本、错题本源码及笔记
  12. 计算机usb口设置方法,如何在电脑上设定usb端口权限
  13. Vue+UpLoad实现上传、点图预览、删除图片
  14. MYSQL-中文检索匹配与正则表达式
  15. 18 个 JavaScript 入门技巧
  16. Windows Server 2008 R2中Windows Server Backup功能之备份、恢复
  17. 怎样自己定制标签(Custom Tag)
  18. 电脑表格日期怎么修改原有日期_表格里日期格式怎么改
  19. 物联网导论论文怎么写_大学毕业论文应该怎么写
  20. Mysql并发插入引发的死锁

热门文章

  1. Fedora:使用Fedora 28在Firefox上启用h264视频(搜狐/优酷视频)
  2. 收银系统连接不上数据服务器,收银系统服务器数据库
  3. 第七代i3核显linux驱动下载,i3-8100,装win7,集显uhd 630改版驱动完美安装
  4. Kail linux中无法定位软件包
  5. 微信小程序 选项卡设置
  6. 系统性学习计算机(一)
  7. C语言全局变量和局部变量同名时的使用
  8. 自动控制原理学习--奈奎斯特稳定判据
  9. Windows 10 DJL 安装 部署 Java机器学习 Pytorch
  10. 微信小程序分类小图标导航