python使用imbalanced-learn的RepeatedEditedNearestNeighbours方法进行下采样处理数据不平衡问题

机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class skew)。以常见的二分类问题为例,我们希望预测病人是否得了某种罕见疾病。但在历史数据中,阳性的比例可能很低(如百分之0.1)。在这种情况下,学习出好的分类器是很难的,而且在这种情况下得到结论往往也是很具迷惑性的。

以上面提到的场景来说,如果我们的分类器总是预测一个人未患病,即预测为反例,那么我们依然有高达99.9%的预测准确率。然而这种结果是没有意义的,对于这种情况该如何去评估模型如何去训练模型或者调整数据集?
所谓的不平衡数据集指的是数据集各个类别的样本量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据。不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。

为什么类不平衡是不好的

从模型的训练过程来看

从训练模型的角度来说,如果某类的样本数量很少,那么这个类别所提供的“信息”就太少。

使用经验风险(模型在训练集上的平均损失)最小化作为模型的学习准则。设损失函数为0-1 loss(这是一种典型的均等代价的损失函数

python使用imbalanced-learn的RepeatedEditedNearestNeighbours方法进行下采样处理数据不平衡问题相关推荐

  1. python使用imbalanced-learn的ClusterCentroids方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的ClusterCentroids方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜 ...

  2. python使用imbalanced-learn的AllKNN方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的AllKNN方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class ske ...

  3. python使用imbalanced-learn的NearMiss方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的NearMiss方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class s ...

  4. python使用imbalanced-learn的TomekLinks方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的TomekLinks方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class ...

  5. python使用imbalanced-learn的OneSidedSelection方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的OneSidedSelection方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏 ...

  6. python使用imbalanced-learn的NeighbourhoodCleaningRule方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的NeighbourhoodCleaningRule方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalanc ...

  7. python使用imbalanced-learn的RandomUnderSampler方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的RandomUnderSampler方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据 ...

  8. python使用imbalanced-learn的InstanceHardnessThreshold方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的InstanceHardnessThreshold方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalanc ...

  9. python使用imbalanced-learn的EditedNearestNeighbours方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的EditedNearestNeighbours方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance) ...

最新文章

  1. 异常处理与MiniDump详解(3) SEH(Structured Exception Handling)
  2. 在fvwm中将右手习惯改为左手习惯的简单办法
  3. vue 如何判断两个数组相同_如何判断车头与障碍物的距离,教你两个办法,轻松靠墙10公分...
  4. RPi 3B Aduio 3.5mm output
  5. 兰蔻御用运维总结之一
  6. Django中使用Pagination的分页范例源码
  7. CentOS 7上搭建Spark3.0.1+ Hadoop3.2.1分布式集群
  8. 发生一个未处理的异常 脚本调试 错误号2912
  9. 深入理解html5:语义,标准与样式pdf,深入理解html5语义标准与样式.doc
  10. 消防信号总线原理_消防设施操作员关键技能之八:能通过总线式消防联动控制器启动警报等装置...
  11. IMP导入数据 报错 IMP-00058 ORA-01691 IMP-00028
  12. python-图像金字塔
  13. 【java】io流之字符输出流:java.io.Writer类及子类的子类java.io.FileWriter
  14. 详细理解中缀表达式并实现
  15. 网络安全专栏——了解防火墙(图文介绍天网个人防火墙,实例测试)
  16. Typora安装教程
  17. 前端知识3.2nodejs安装以及初始化目录
  18. 第7章 区块链开发平台:超级账本
  19. Matlab航迹规划仿真——A*算法
  20. 计算机怎么硬盘重做系统,如何对新的硬盘安装系统进行分区并重新安装系统计算机分区教程...

热门文章

  1. java视频播放器制作_java创建简易视频播放器
  2. 设计模式之解释器模式、例子分析
  3. python输入输出有问题_python – Modbus错误:[输入/输出]无从远程...
  4. 物体的三维识别与6D位姿估计:PPF系列论文介绍(三)
  5. OpenCV 4.5.4 刚刚发布!新增SoftNMS、DNN模型8位量化等功能
  6. PyTorch 源码解读之分布式训练了解一下?
  7. 致敬YOLO!华科提出YOLOS:基于视觉Transformer的目标检测
  8. linux 安装了tomcat 但是一直访问不了怎么办
  9. 温度对结构光深度的影响
  10. Nat. Med. | 制定指导原则以报告AI在临床试验中的使用