python使用imbalanced-learn的RandomUnderSampler方法进行下采样处理数据不平衡问题

机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class skew)。以常见的二分类问题为例,我们希望预测病人是否得了某种罕见疾病。但在历史数据中,阳性的比例可能很低(如百分之0.1)。在这种情况下,学习出好的分类器是很难的,而且在这种情况下得到结论往往也是很具迷惑性的。

以上面提到的场景来说,如果我们的分类器总是预测一个人未患病,即预测为反例,那么我们依然有高达99.9%的预测准确率。然而这种结果是没有意义的,对于这种情况该如何去评估模型如何去训练模型或者调整数据集?
所谓的不平衡数据集指的是数据集各个类别的样本量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据。不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。

为什么类不平衡是不好的

从模型的训练过程来看

从训练模型的角度来说,如果某类的样本数量很少,那么这个类别所提供的“信息”就太少。

使用经验风险(模型在训练集上的平均损失)最小化作为模型的学习准则。设损失函数为0-1 loss(这是一种典型的均等代价的损失函数),那么优化目标就等价于错误率最小化(也就是accuracy最大化)。考虑极端情况:1000个训练样本中,正类样本999个,负类样本1个。训练过程中在某次迭代结束后&

python使用imbalanced-learn的RandomUnderSampler方法进行下采样处理数据不平衡问题相关推荐

  1. python使用imbalanced-learn的ClusterCentroids方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的ClusterCentroids方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜 ...

  2. python使用imbalanced-learn的AllKNN方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的AllKNN方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class ske ...

  3. python使用imbalanced-learn的NearMiss方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的NearMiss方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class s ...

  4. python使用imbalanced-learn的TomekLinks方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的TomekLinks方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class ...

  5. python使用imbalanced-learn的OneSidedSelection方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的OneSidedSelection方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏 ...

  6. python使用imbalanced-learn的NeighbourhoodCleaningRule方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的NeighbourhoodCleaningRule方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalanc ...

  7. python使用imbalanced-learn的InstanceHardnessThreshold方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的InstanceHardnessThreshold方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalanc ...

  8. python使用imbalanced-learn的EditedNearestNeighbours方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的EditedNearestNeighbours方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance) ...

  9. python使用imbalanced-learn的CondensedNearestNeighbour方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的CondensedNearestNeighbour方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalanc ...

最新文章

  1. 不同的设计模式的特点总结
  2. JavaScript 内置对象(一):Array 对象(构造函数、属性和方法)
  3. [HDU517] 小奇的集合
  4. twitter批量取消关注_如何在Twitter上取消阻止“潜在敏感内容”
  5. Asp.net中的时区
  6. 从头开始学JavaScript (九)——执行环境和作用域
  7. python掷骰子_掷骰子童芯派 python硬件编程(上传模式)
  8. MariaDB基础详解
  9. 使用ThinkPHP扩展,实现Redis的CURD操作。
  10. 【机器视觉】独家盘点:详解国内外34家物联网机器视觉技术企业
  11. 游戏辅助原理与制作02-植物大战僵尸02-金币基址
  12. B. Neko Performs Cat Furrier Transform---异或的性质运用--Codeforces Round #554 (Div. 2)
  13. 把两张图片并排(行)显示的HTML代码
  14. 数据分析之excel和finebi报表可视化对比
  15. 恒温烙铁使用注意事项
  16. Comparison method violates its general contract 出现原因和解决方法
  17. 数据结构c语言进制转换八进制,C语言数据结构中数制转换实例代码
  18. Linux shell编程自动化运维,三剑客之awk原理,语法,内部变量,格式化输出,模式和动作 详细解析
  19. vscode 快速生层vue模板
  20. docker registry http api v2(原创请注明出处)

热门文章

  1. 平衡树性质与基本算法
  2. 负载均衡算法-最少连接数均衡
  3. Python的设计定位
  4. uboot环境变量-带分号的环境变量
  5. java中ArrayList
  6. 等比例缩放html5页面,css中如何做到容器按比例缩放
  7. 直播回顾|大规模点云显示技术
  8. 靶向新冠状病毒(COVID-19)的药物靶点
  9. 数据科学 | Python数据科学常用库
  10. 网络电视视频服务器所放位置,pptv网络电视中多屏互动服务器删除的具体操作步骤...