python使用imbalanced-learn的TomekLinks方法进行下采样处理数据不平衡问题

机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class skew)。以常见的二分类问题为例,我们希望预测病人是否得了某种罕见疾病。但在历史数据中,阳性的比例可能很低(如百分之0.1)。在这种情况下,学习出好的分类器是很难的,而且在这种情况下得到结论往往也是很具迷惑性的。

以上面提到的场景来说,如果我们的分类器总是预测一个人未患病,即预测为反例,那么我们依然有高达99.9%的预测准确率。然而这种结果是没有意义的,对于这种情况该如何去评估模型如何去训练模型或者调整数据集?
所谓的不平衡数据集指的是数据集各个类别的样本量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据。不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。

为什么类不平衡是不好的

从模型的训练过程来看

从训练模型的角度来说,如果某类的样本数量很少,那么这个类别所提供的“信息”就太少。

使用经验风险(模型在训练集上的平均损失)最小化作为模型的学习准则。设损失函数为0-1 loss(这是一种典型的均等代价的损失函数),那么优化目标就等价

python使用imbalanced-learn的TomekLinks方法进行下采样处理数据不平衡问题相关推荐

  1. python使用imbalanced-learn的ClusterCentroids方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的ClusterCentroids方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜 ...

  2. python使用imbalanced-learn的AllKNN方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的AllKNN方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class ske ...

  3. python使用imbalanced-learn的NearMiss方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的NearMiss方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class s ...

  4. python使用imbalanced-learn的OneSidedSelection方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的OneSidedSelection方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏 ...

  5. python使用imbalanced-learn的NeighbourhoodCleaningRule方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的NeighbourhoodCleaningRule方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalanc ...

  6. python使用imbalanced-learn的RandomUnderSampler方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的RandomUnderSampler方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据 ...

  7. python使用imbalanced-learn的InstanceHardnessThreshold方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的InstanceHardnessThreshold方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalanc ...

  8. python使用imbalanced-learn的EditedNearestNeighbours方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的EditedNearestNeighbours方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance) ...

  9. python使用imbalanced-learn的CondensedNearestNeighbour方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的CondensedNearestNeighbour方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalanc ...

最新文章

  1. HTML5十五大新特性
  2. 什么文件格式可以通过流来直接读取或写入
  3. 表单校验---struts2
  4. npm安装vue-cli时报错解决方法
  5. 为SQL缓存通知启用数据库
  6. 初学者的回归测试,都该注意哪几点?
  7. 敏捷开发中XP与SCRUM的区别
  8. Vue:结合ElementUI元素超过一定高度加滚动框,高度由浏览器高度决定并随浏览器变化而变化
  9. Luogu4587[FJOI2016] 神秘数
  10. eggjs 项目实践
  11. CSC公派|小红本及小黄本的办理
  12. 2022年电气试验考试试题模拟考试平台操作
  13. PBR 前言 颜色理论:色度、色域与色彩空间
  14. 渝粤题库 陕西师范大学 《中国现代文学》作业
  15. 数据库应用技术课程设计之商城管理系统
  16. 我要偷偷的学Python,然后惊呆所有人(第五天)
  17. JavaScript 英文根据规则转成相对应的中文
  18. 数据库expecting ''', found 'EOF'异常——原载于我的百度空间
  19. 数字人民币专利数激增, “区块链”领域大有可为
  20. vue中将html页面转为图片并且下载该图片

热门文章

  1. 排序算法---计数排序(java版)
  2. java实验2词法分析程序设计
  3. python用sqlite数据库创建的表在哪里_用Python在sqlite3数据库中创建两个表
  4. 数组-丢失的数字(哈希表法)
  5. 前端基础入门(html+css+详)
  6. 23Command(命令)模式
  7. 神经网络中参数量parameters和FLOPs计算
  8. wordpress acf字段 不同样式_WordPress强大搜索功能如何实现?安装Ivory Search插件
  9. 人类高质量视觉模型YOLOP开源:同时处理三大视觉任务,还能各种超越SOTA…
  10. 自适应采样非局部神经网络的点云鲁棒操作