如何处理样本不均衡

1.1 选择合适的评价指标:

  • 不要采用准确率(Accuracy);
  • 主流评估方法包括:ROC,Precision-Recall curve,F1;

1.2若样本极度不均衡,可作为异常检测问题处理;

数据挖掘中常见的『异常检测』算法有哪些?

1.3 欠采样/过采样:

一般操作就是,对于样本比较多的类别进行欠采样,对样本比较少的类别进行过采样。但是对于多分类问题,会比较麻烦,而且本赛题是细粒度多分类问题。

常见的过采样方法:

  • 随机打乱数据;
  • 加入噪声,或随机剔除部分词;
  • 裁剪掉某一句;
  • 复制;
  • 翻译成另一种语言,再翻译回来,eg.中文->英文->中文;

欠采样方法: 即对样本比较多的类别进行采样。

对于文本分类问题,过采样存在一定的问题,此处见[3],不赘述。

欠采样和过采样的缺点:

  • 过采样:过拟合风险;
  • 欠采样:样本缺失,偏差较大;

下采样缺失样本的解决办法:

  • 1.EasyEnsemble:多次下采样(放回采样),训练多个不同的分类器;
  • 2.BalanceCascade:首先一次下采样产生训练集,对于分类正确的多样本类别不放回,只放回分类错误的样本;
  • 3.利用KNN试图挑选那些最具代表性的大众样本,叫做NearMiss;

1.4 训练策略:

在训练过程中采取的一些方法,例如sklearn中的class_weight,lightgbm和xgboost中的class_weight,他们均给出了参数可以设置类别比例,但是性能要具体讨论。

加权Loss:
在nn中常用binary_entropy(二分类)、category_entropy(多分类),作为目标函数,对待不均衡样本,可以对不同类别进行加权。比如样本比较少的类别,可以给予较高的权重。

参考资料:

[1]严重数据倾斜文本分类,比如正反比1:20~100,适合什么model,查准一般要做到多少可以上线?
[2]如何处理数据中的「类别不平衡」?
[3]文本分类 - 样本不平衡的解决思路与交叉验证CV的有效性
[4]干货|如何解决机器学习中数据不平衡问题
[5]文本多分类踩过的坑

AiChallenger比赛记录之样本不均衡相关推荐

  1. 【机器学习基础】八种应对样本不均衡的策略

    1 什么是非均衡 2 10种解决办法 2.1 重采样(六种方法) 2.2 调整损失函数 2.3 异常值检测框架 2.4 二分类变成多分类 2.5 EasyEnsemble 3 为什么树模型不担心这个问 ...

  2. 【深度学习】——物体检测细节处理(NMS、样本不均衡、遮挡物体)

    目录 一.候选框大量重叠问题 1.NMS核心思想 2. 步骤: 3.缺陷 4.改进 1)soft NMS--衰减的方式来减小预测框的分类得分 2)softer nms--增加了位置置信度 二.样本不平 ...

  3. [比赛记录] 主流机器学习模型模板代码+经验分享[xgb, lgb, Keras, LR]

    向AI转型的程序员都关注了这个号??? 大数据挖掘DT数据分析  公众号: datadw 最近打各种比赛,在这里分享一些General Model,稍微改改就能用的 XGBoost调参大全: http ...

  4. 编程比赛记录 练习题答案

    作者:迷途小书童爱读书 目录: 编程比赛记录 C++语法 标准输入库 vector list 内存拷贝 代码检查 map dev C++ 算法 背包算法 输入输出练习 计算a+b 计算N行A+B 编程 ...

  5. 综述:解决目标检测中的样本不均衡问题

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨SFXiang 来源丨AI算法修炼营 编辑丨极市平台 极市导 ...

  6. One Class SVM 对于样本不均衡处理思路——拿出白样本建模,算出outlier,然后用黑去检验效果...

    One Class SVM 是指你的training data 只有一类positive (或者negative)的data, 而没有另外的一类.在这时,你需要learn的实际上你training d ...

  7. Python:SMOTE算法——样本不均衡时候生成新样本的算法

    Python:SMOTE算法 直接用python的库, imbalanced-learn imbalanced-learn is a python package offering a number ...

  8. Java机器学习库ML之五样本不均衡

    样本不均衡的问题是指训练集中类别之间的样本数据量比例失衡.有研究表明,部分学习任务,在类别出现1∶35比例时就会使某些分类学习方法无效,甚至1∶10比例也会.样本不均衡导致的问题有: 1)少数类所包含 ...

  9. SVM训练时候样本不均衡怎么设置惩罚项

    问题: 在做气泡检测项目时候,利用svm对训练集进行训练的时候,我的数据集存在这严重的不均衡现象,具体情况如下: 训练集数据情况: 正样本(有气泡):150 标签:+1 负样本(无气泡):800 标签 ...

  10. 【机器学习】一文解决样本不均衡(全)

    一.样本不均衡的介绍 1.1 样本不均衡现象 样本(类别)样本不平衡(class-imbalance)指的是分类任务中不同类别的训练样例数目差别很大的情况,一般地,样本类别比例(Imbalance R ...

最新文章

  1. C语言关键字、标识符和注释
  2. 3.Chrome数据同步服务分析--server一片
  3. 移动端python开发_python前端之移动端库、框架及自动化和优化
  4. Python实训day09am【Pandas、Series、DataFrame数据帧】
  5. 【已解决】Error attaching to process: sun.jvm.hotspot.runtime.VMVersionMismatchException: Supported versi
  6. 使用Eclipse本地运行SAP UI5时, UI5库文件的js文件是从本地哪里加载的
  7. 毕业生推荐表计算机水平新国二,实用信息 | 2018届毕业指南:毕业生推荐表与三方协议...
  8. 疫期免费 “零接触”云迁移~工具替代人力! 人不聚,活儿继续!
  9. ae渲染出现错误是什么问题_怎样彻底检查根治AE导出失败,渲染影片出错问题...
  10. python爬虫基础案例——爬取猫眼电影并保存数据到excel
  11. tp交换机管理页面_tplink交换机设置步骤使用方法
  12. 树莓派安装中文输入法(使用的谷歌提供的树莓派系统google voice kit)
  13. 局域网内建网站教程,如何零成本搭建自己的网站?
  14. 二层交换机、三层交换机及四层交换机的区别
  15. 防抖和截流超级详细讲解,易懂
  16. 卫青和霍去病:汉匈战争史最天才的两名战将
  17. java从输入中获取经纬度_java从百度后台接口获取经纬度
  18. Android 饼图
  19. word2010取消页眉中的横线
  20. 全国省市县三级级联SQL数据库内容

热门文章

  1. java线程状态与操作系统线程状态的关系
  2. Abaqus6.14.4 Linux详细图文安装教程
  3. 主动微波遥感的测量原理
  4. 80核处理器_【装机帮扶站】第338期:95元的6核心12线程处理器
  5. Jquery斗地主牌型验证插件 1.0版
  6. 信息科技风险管理提升方案(上)
  7. mysql 对中文排序_【MySQL】MySQL按中文排序
  8. 白盒测试——静态白盒测试
  9. 三轴、六轴、九轴传感器
  10. libtorrent安装windows版