何为样本不均衡:
样本分布不均衡就是指样本差异非常大,例如共1000条数据样本的数据集中,其中占有10条样本分类,其特征无论如何你和也无法实现完整特征值的覆盖,此时属于严重的样本分布不均衡。

为何要解决样本不均衡:
样本分部不均衡的数据集也是很常见的:比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障、大企业客户流失等。
样本不均衡将导致样本量少的分类所包含的特征过少,很难从中提取规律,即使得到分类模型,也容易产生过度依赖于有限的数量样本而导致过拟合问题,当模型应用到新的数据上时,模型的准确性和健壮性将会很差。

样本不均衡的解决方法:
过采样 通过增加分类中样本较少的类别的采样数量来实现平衡,最直接的方法是简单复制小样本数据,缺点是如果特征少,会导致过拟合的问题。经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本。
欠采样 通过减少分类中多数类样本的数量来实现样本均衡,最直接的方法是随机去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类中的一些重要信息。
设置权重 对不同样本数量的类别赋予不同的权重(通常会设置为与样本量成反比)
集成方法 每次生成训练集时使用所有分类中的小样本量,同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集,这样反复多次会得到很多训练集和训练模型。最后在应用时,使用组合方法(例如投票、加权投票等)产生分类预测结果。这种方法类似于随机森林。缺点是,比较吃计算资源,费时。

类别不平衡问题

   类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高的召回率。类别不平衡问题在很多场景中存在,例如欺诈检测,风控识别,在这些样本中,黑样本(一般为存在问题的样本)的数量一般远少于白样本(正常样本)。上采样(过采样)和下采样(负采样)策略是解决类别不平衡问题的基本方法之一。上采样即增加少数类样本的数量,下采样即减少多数类样本以获取相对平衡的数据集。最简单的上采样方法可以直接将少数类样本复制几份后添加到样本集中,最简单的下采样则可以直接只取一定百分比的多数类样本作为训练集。

什么是样本不均衡问题?如何解决相关推荐

  1. 综述:解决目标检测中的样本不均衡问题

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨SFXiang 来源丨AI算法修炼营 编辑丨极市平台 极市导 ...

  2. 寻找解决样本不均衡方法之Focal Loss与GHM

    寻找解决样本不均衡方法之Focal Loss与GHM 主要参考资料:5分钟理解Focal Loss与GHM--解决样本不平衡利器 - 知乎 (zhihu.com) Focal Loss的引入主要是为了 ...

  3. 样本不均衡问题 (OHEM, Focal loss)

    目录 不均衡问题分析 正负样本不均衡 难易样本不均衡 类别间样本不均衡 常用的解决方法 在线难样本挖掘: OHEM 难负样本挖掘 (Hard Negative Mining, HNM) 在线难样本挖掘 ...

  4. 机器学习-10:MachineLN之样本不均衡

    版权声明:本文为博主原创文章,未经博主允许不得转载.有问题可以加微信:lp9628(注明CSDN). https://blog.csdn.net/u014365862/article/details/ ...

  5. 【机器学习】一文解决样本不均衡(全)

    一.样本不均衡的介绍 1.1 样本不均衡现象 样本(类别)样本不平衡(class-imbalance)指的是分类任务中不同类别的训练样例数目差别很大的情况,一般地,样本类别比例(Imbalance R ...

  6. GHM------Gradient Harmonized Single-stage Detector 从梯度的方向来解决样本不均衡的问题

    最近GHM太热门了,因此最近在做GHM的实验,因此做个笔记. 文章:https://arxiv.org/pdf/1811.05181.pdf code:https://github.com/libuy ...

  7. 解决one-stage目标检测正负样本不均衡的另类方法--Gradient Harmonized

    正负样本不均衡问题一直是One-stage目标检测中被大家所诟病的地方,He Keming等人提出了Focal Loss来解决这个问题.而AAAI2019上的一篇论文<Gradient Harm ...

  8. 如果解决长尾数据(样本不均衡)

    最近突然高产,苦逼的秋招开始了,哭哭 有几种已经常用的方法: 过采样和重采样 每个Batch对每类样本设置比例,保证在一个Batch里是相对均衡的 以上这些的缺点很明显:对于大样本采样过少,会导致某张 ...

  9. Java机器学习库ML之五样本不均衡

    样本不均衡的问题是指训练集中类别之间的样本数据量比例失衡.有研究表明,部分学习任务,在类别出现1∶35比例时就会使某些分类学习方法无效,甚至1∶10比例也会.样本不均衡导致的问题有: 1)少数类所包含 ...

最新文章

  1. GRDB使用SQLite的WAL模式
  2. 存储过程—导出table数据为inser sqlt语句
  3. MyBatis源码解析【4】反射和动态代理
  4. Coding 初级教程(二)——上传已有项目
  5. git 怎么读_python3中开源代码怎么读?
  6. 基于携程游记的出行领域顺承事件图谱项目
  7. ORACLE中关于外键缺少索引的探讨和总结
  8. C#退出窗体的总结方法
  9. mavon-editor文本编辑器初体验(一)
  10. CPU测评程序、指标、工具
  11. 制作纯净版WinPE2.0
  12. java 图片画框并读取成base64数据
  13. 国际音标IPA、DJ音标和美国KK音标对照表
  14. 淘宝七天自动确认收货,可以怎么实现?
  15. 怎么在mysql中编辑数据库_navicat怎么修改数据库名
  16. php生成带文字的二维码
  17. PAI FrameworkLauncher(5)--节点选择SelectionManager
  18. mysql 3358端口_好用的MySQL抓包工具:sniffer-agent
  19. ectouch购物车添加勾选结算功能
  20. Egg Config

热门文章

  1. 2017华为优招面试总结——生命的意义,在于永恒不变的练习
  2. java面试题 英文_JAVA面试题和答案(英文版).pdf
  3. 高数_第3章重积分_在极坐标下计算二重积分
  4. 机械革命z2黑苹果双系统改造计划
  5. 青岛电子学校中美计算机班分数线,山东青岛第二中学2014中考录取分数线为611分...
  6. 在linux下安装pppoe拨号软件并通过ADSL上网.
  7. 9.触摸屏驱动移植实战
  8. Hinge Loss简介
  9. python怎么爬取一个网页图片显示不出来_使用python爬取网页,获取不到图片地址【python 爬取图片教程】...
  10. jenkins整合gitee自动部署SpringBoot项目