AiChallenger比赛记录之样本不均衡

2024-04-01 00:03:07

如何处理样本不均衡

1.1 选择合适的评价指标：

不要采用准确率（Accuracy）；
主流评估方法包括：ROC，Precision-Recall curve，F1;

1.2若样本极度不均衡，可作为异常检测问题处理；

数据挖掘中常见的『异常检测』算法有哪些？

1.3 欠采样/过采样：

一般操作就是，对于样本比较多的类别进行欠采样，对样本比较少的类别进行过采样。但是对于多分类问题，会比较麻烦，而且本赛题是细粒度多分类问题。

常见的过采样方法：

随机打乱数据；
加入噪声，或随机剔除部分词；
裁剪掉某一句；
复制；
翻译成另一种语言，再翻译回来，eg.中文->英文->中文；

欠采样方法： 即对样本比较多的类别进行采样。

对于文本分类问题，过采样存在一定的问题，此处见[3]，不赘述。

欠采样和过采样的缺点：

过采样：过拟合风险；
欠采样：样本缺失，偏差较大；

下采样缺失样本的解决办法：

1.EasyEnsemble:多次下采样（放回采样），训练多个不同的分类器；
2.BalanceCascade：首先一次下采样产生训练集，对于分类正确的多样本类别不放回，只放回分类错误的样本；
3.利用KNN试图挑选那些最具代表性的大众样本，叫做NearMiss；

1.4 训练策略：

在训练过程中采取的一些方法，例如sklearn中的class_weight,lightgbm和xgboost中的class_weight，他们均给出了参数可以设置类别比例，但是性能要具体讨论。

加权Loss：
在nn中常用binary_entropy(二分类)、category_entropy(多分类)，作为目标函数，对待不均衡样本，可以对不同类别进行加权。比如样本比较少的类别，可以给予较高的权重。

参考资料：

[1]严重数据倾斜文本分类，比如正反比1:20～100，适合什么model，查准一般要做到多少可以上线？
[2]如何处理数据中的「类别不平衡」？
[3]文本分类 - 样本不平衡的解决思路与交叉验证CV的有效性
[4]干货｜如何解决机器学习中数据不平衡问题
[5]文本多分类踩过的坑

AiChallenger比赛记录之样本不均衡相关推荐

【机器学习基础】八种应对样本不均衡的策略
1 什么是非均衡 2 10种解决办法 2.1 重采样(六种方法) 2.2 调整损失函数 2.3 异常值检测框架 2.4 二分类变成多分类 2.5 EasyEnsemble 3 为什么树模型不担心这个问 ...
【深度学习】——物体检测细节处理（NMS、样本不均衡、遮挡物体）
目录一.候选框大量重叠问题 1.NMS核心思想 2. 步骤: 3.缺陷 4.改进 1)soft NMS--衰减的方式来减小预测框的分类得分 2)softer nms--增加了位置置信度二.样本不平 ...
[比赛记录] 主流机器学习模型模板代码+经验分享[xgb, lgb, Keras, LR]
向AI转型的程序员都关注了这个号??? 大数据挖掘DT数据分析公众号: datadw 最近打各种比赛,在这里分享一些General Model,稍微改改就能用的 XGBoost调参大全: http ...
编程比赛记录练习题答案
作者:迷途小书童爱读书目录: 编程比赛记录 C++语法标准输入库 vector list 内存拷贝代码检查 map dev C++ 算法背包算法输入输出练习计算a+b 计算N行A+B 编程 ...
综述：解决目标检测中的样本不均衡问题
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达作者丨SFXiang 来源丨AI算法修炼营编辑丨极市平台极市导 ...
One Class SVM 对于样本不均衡处理思路——拿出白样本建模，算出outlier，然后用黑去检验效果...
One Class SVM 是指你的training data 只有一类positive (或者negative)的data, 而没有另外的一类.在这时,你需要learn的实际上你training d ...
Python：SMOTE算法——样本不均衡时候生成新样本的算法
Python:SMOTE算法直接用python的库, imbalanced-learn imbalanced-learn is a python package offering a number ...
Java机器学习库ML之五样本不均衡
样本不均衡的问题是指训练集中类别之间的样本数据量比例失衡.有研究表明,部分学习任务,在类别出现1∶35比例时就会使某些分类学习方法无效,甚至1∶10比例也会.样本不均衡导致的问题有: 1)少数类所包含 ...
SVM训练时候样本不均衡怎么设置惩罚项
问题: 在做气泡检测项目时候,利用svm对训练集进行训练的时候,我的数据集存在这严重的不均衡现象,具体情况如下: 训练集数据情况: 正样本(有气泡):150 标签:+1 负样本(无气泡):800 标签 ...
【机器学习】一文解决样本不均衡（全）
一.样本不均衡的介绍 1.1 样本不均衡现象样本(类别)样本不平衡(class-imbalance)指的是分类任务中不同类别的训练样例数目差别很大的情况,一般地,样本类别比例(Imbalance R ...

最新文章

热门文章