python使用imbalanced-learn的SMOTEN方法进行上采样处理数据不平衡问题

机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class skew)。以常见的二分类问题为例,我们希望预测病人是否得了某种罕见疾病。但在历史数据中,阳性的比例可能很低(如百分之0.1)。在这种情况下,学习出好的分类器是很难的,而且在这种情况下得到结论往往也是很具迷惑性的。

以上面提到的场景来说,如果我们的分类器总是预测一个人未患病,即预测为反例,那么我们依然有高达99.9%的预测准确率。然而这种结果是没有意义的,对于这种情况该如何去评估模型如何去训练模型或者调整数据集?
所谓的不平衡数据集指的是数据集各个类别的样本量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据。不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。

为什么类不平衡是不好的

从模型的训练过程来看

从训练模型的角度来说,如果某类的样本数量很少,那么这个类别所提供的“信息”就太少。

使用经验风险(模型在训练集上的平均损失)最小化作为模型的学习准则。设损失函数为0-1 loss(这是一种典型的均等代价的损失函数),那么优化

python使用imbalanced-learn的SMOTEN方法进行上采样处理数据不平衡问题相关推荐

  1. python使用imbalanced-learn的SMOTE方法进行上采样处理数据不平衡问题

    python使用imbalanced-learn的SMOTE方法进行上采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class skew ...

  2. python使用imbalanced-learn的SVMSMOTE方法进行上采样处理数据不平衡问题

    python使用imbalanced-learn的SVMSMOTE方法进行上采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class s ...

  3. python使用imbalanced-learn的ADASYN方法进行上采样处理数据不平衡问题

    python使用imbalanced-learn的ADASYN方法进行上采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class ske ...

  4. python使用imbalanced-learn的SMOTENC方法进行上采样处理数据不平衡问题

    python使用imbalanced-learn的SMOTENC方法进行上采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class sk ...

  5. python使用imbalanced-learn的KMeansSMOTE方法进行上采样处理数据不平衡问题

    python使用imbalanced-learn的KMeansSMOTE方法进行上采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(clas ...

  6. python使用imbalanced-learn的RandomOverSampler方法进行上采样处理数据不平衡问题

    python使用imbalanced-learn的RandomOverSampler方法进行上采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏 ...

  7. python使用imbalanced-learn的BorderlineSMOTE方法进行上采样处理数据不平衡问题

    python使用imbalanced-learn的BorderlineSMOTE方法进行上采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜( ...

  8. python使用imbalanced-learn的ClusterCentroids方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的ClusterCentroids方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜 ...

  9. python使用imbalanced-learn的AllKNN方法进行下采样处理数据不平衡问题

    python使用imbalanced-learn的AllKNN方法进行下采样处理数据不平衡问题 机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class ske ...

最新文章

  1. 理解 __doPostBack(转)
  2. react native的学习
  3. php中显示不出图像,php – 无法显示图像,因为它包含错误
  4. java nio socket长连接_netty学习实战—实现websocket长连接和socket之间进程通信
  5. 2021年高考英语卷三成绩查询,2021年全国3卷高考外语卷难不难,今年全国3卷高考外语卷难度系数点评...
  6. 阿里云发布时间序列数据库TSDB,关于时序你了解多少?
  7. linux安装指定版本python_ubuntu多版本python为指定版本python安装库
  8. 一个 bug ,罚款 200,我真待过这样的公司
  9. 资源放送丨《Oracle RAC 集群安装部署》PPT视频
  10. Eratosthenes筛法求素数
  11. confluence统计_【漏洞预警】confluence远程代码执行漏洞(CVE-2019-3396)
  12. 高质量计算机学习网站
  13. 如何下载谷歌地球高程为TIF格式的文件
  14. B2B、B2C、C2C、O2O分别是什么意思?
  15. 浏览器之硬件加速机制
  16. java isprime函数,Java - isPrime函数
  17. 【集训DAY3】挖金矿【二分答案】
  18. cd rom是计算机的,CD-ROM是什么意思,CD-ROM是什么意思
  19. 网络触发的detach
  20. 阿里云获取手机验证码

热门文章

  1. putchar函数的基本格式
  2. 将一张100元的钞票换成1元、5元和10元的钞票,每种钞票至少一张,编写程序输出所有的换法,循环次数需要尽可能地少。
  3. github登陆策略
  4. Oracle的使用和Oracle安装过程
  5. 设计模式之工厂类模式总结对比、简单工厂模式、工厂方法模式、抽象工厂模式、带反射的工厂模式、例子代码分析、最详细
  6. java构造方法的书写和注意事项(入门可看)
  7. 复习07统计学习方法(支持向量机SVM)---图片版
  8. 利用矩阵奇异值分解(SVD)进行降维
  9. XGBoost算法原理解释(转载)
  10. 一文详解NDT算法实现