文章目录

  • ✌ 过采样与欠采样
    • 1、✌ 采样介绍
    • 2、✌ 过采样
      • 2.1 随机采样:
      • 2.2 SMOTE采样:
    • 3、✌ 欠采样
    • 4、✌ 代码演示
      • 1.1 ✌ 创建数据
      • 1.2 ✌ 随机采样
      • 1.3 ✌ SMOTE采样
      • 1.4 ✌ 欠采样

✌ 过采样与欠采样

1、✌ 采样介绍

在分类问题中,有存在正反例数目差异较大的情况,这种情况叫做类别不平衡。

针对这种问题,解决方式有2种:假设正例数量大,反例数目极小。

1、减少正例的数量,使得数据平衡,再进一步分类,这种情况属于“欠采样”;

2、增加反例的数目平衡数据,再分类,这种称为“过采样”;

2、✌ 过采样

2.1 随机采样:

增加少数样本,随机在原来的少数样本中随机抽取样本,直至与多数样本数相等

2.2 SMOTE采样:

合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a,b之间的连线上随机选一点作为新合成的少数类样本。

3、✌ 欠采样

与过采样相反,抛弃过多的多数样本

4、✌ 代码演示

1.1 ✌ 创建数据

x=np.array([[1,2],[3,5],[3,5],[2,4],[5,9],[8,7],[13,5],[1,32],[1,8],[5,3]])
y=np.array([0,0,0,0,0,1,1,1,1,1])from collections import Counter
Counter(y)

1.2 ✌ 随机采样

from imblearn.over_sampling import RandomOverSamplerros=RandomOverSampler(random_state=0)
x_over,y_over=ros.fit_resample(x,y)
Counter(y_over)

1.3 ✌ SMOTE采样

from imblearn.over_sampling import SMOTE
smote=SMOTE(random_state=0)
x_smote,y_smote=smote.fit_resample(x,y)
y_smote

1.4 ✌ 欠采样

from imblearn.under_sampling import RandomUnderSampler
rus=RandomUnderSampler(random_state=0)
x_under,y_under=rus.fit_resample(x,y)
y_under

数据处理 过采样与欠采样 SMOTE与随机采样 达到样本均衡化相关推荐

  1. 机器学习算法 03 —— 逻辑回归算法(精确率和召回率、ROC曲线和AUC指标、过采样和欠采样)

    文章目录 系列文章 逻辑回归 1 逻辑回归介绍 1.1 逻辑回归原理 输入 激活函数 1.2 损失以及优化 2 逻辑回归API介绍 3 案例:肿瘤良性恶性预测 4 分类模型的评估 4.1 分类评估方法 ...

  2. 一种推理优化新思路,对特征图进行[随机采样-插值]

    分享一篇ECCV 2020 的论文:Spatially Adaptive Inference with Stochastic Feature Sampling and Interpolation 论文 ...

  3. 概率密度变换公式 雅可比矩阵_看懂蒙特卡洛积分(一) 概率分布变换与随机采样...

    TC130:游戏渲染进阶​zhuanlan.zhihu.com 蒙特卡洛积分是图形学中常用的数学工具, 这里就来总结下蒙特卡洛积分的原理和使用方式. 很多教程中把概率分布和积分是混在一起讲的, 个人觉 ...

  4. 数据不平衡、不平衡采样、调整分类阈值、过采样、欠采样、SMOTE、EasyEnsemble、加入数据平衡的流程、代价敏感学习BalanceCascade、

    数据不平衡.不平衡采样.调整分类阈值.过采样.欠采样.SMOTE.EasyEnsemble.加入数据平衡的流程.BalanceCascade.代价敏感学习 目录

  5. ML之LoR:利用信用卡数据集(欠采样{Nearmiss/Kmeans/TomekLinks/ENN}、过采样{SMOTE/ADASYN})同时采用LoR算法(PR和ROC评估)进行是否欺诈二分类

    ML之LoR:利用布鲁塞尔的creditcard数据集进行采样处理(欠采样{Nearmiss/Kmeans/TomekLinks/ENN}.过采样{SMOTE/ADASYN})同时采用LoR算法(PR ...

  6. 过采样与欠采样图像重采样(上采样下采样)

    参考文章: https://blog.csdn.net/majinlei121/article/details/46742339 https://blog.csdn.net/Chaolei3/arti ...

  7. 学习记录609@python实现数据样本的过采样与欠采样

    对于分类数据集而言,往往类别会有比较大的差异,比如分析贷款逾期的数据,往往没有逾期的数据远远大于逾期的数据,因此样本会存在不均衡的情况,这样对于数据的训练不利,因此可以使用某些方法对数据集进行调整,分 ...

  8. 两分钟带你彻底明白机器学习中的过采样和欠采样是什么意思?

    观点1 是不同数据有不同定义,可分为空间/非空间数据.空间数据指空间上邻近的数据含有相关信息,可以用信号处理滤波的方法提取出这些相关信号,比如图像,声音.非空间数据指数据不是空间上的邻居,不能提取空间 ...

  9. 过采样和欠采样问题(二分类数据不均衡)

    参考:知乎专栏 项目中出现了二分类数据不平衡问题,研究总结下对于类别不平横问题的处理经验: 1:为什么类别不平衡会影响模型的输出: 许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大 ...

最新文章

  1. cocosstudio csd文件解析为.lua
  2. 使用Python,OpenCV进行Tesseract-OCR绑定及识别
  3. Ubuntu安装VSCode
  4. [转]JavaScript中的几个tip
  5. vb定义模块且使用模块_ET200S 1 STEP 步进模块使用入门
  6. win10下装黑苹果双系统_win10远程双系统重装电脑维修7黑苹果笔记本安装做虚拟机服务mac8...
  7. 无线数传在桥梁检测中传感器信号的采集应用
  8. 混凝土地坪机器人_地面整平机器人:精准又高效,轻松摆“平”混凝土
  9. java后台解析json并保存到数据库_[Java教程]ajax 发送json 后台接收 遍历保存进数据库...
  10. html加载swf 进度条,Flash加载外部文件创建进度条3种方法
  11. 将勾选数据从dataset中筛选出来
  12. kaldi GMM模型解码指令 gmm-latgen-faster详解
  13. 【detectron】FPN网络中RPN构建与相应的损失函数
  14. vm 无法打开本地文件进行写入
  15. PaddlePaddle证件照换底换大小工具
  16. wp8通过WebClient从服务器下载文件
  17. 计算机游戏化教学案例,[幼儿园课程游戏化教学实践]幼儿园课程游戏化案例
  18. 你知道什么是软中断吗?
  19. 北京智和信通:交换机策略查询与自动化配置
  20. 俞军跟我聊了三个小时产品(1):用户不是人,是需求的集合

热门文章

  1. 【数据结构】链表相关OJ题 (万字详解)
  2. Ubuntu下编译VeraCrypt
  3. 实验八 FBG 基于原型的团队项目需求调研与分析
  4. mobilenet压缩
  5. 计算机应用大赛宣传稿,江苏开放大学计算机应用基础中国名城宣传片
  6. Traffic Light
  7. Could not connect to wpa_supplicant: p2p-dev-wlan0 - re-trying
  8. DPU网络开发SDK——DPDK(九)
  9. 今天过了淘宝商城的考试,嘿做点好事,公布些答案
  10. c++二叉排序树的非递归插入与递归插入,递归之间不同写法的思考