AiChallenger比赛记录之样本不均衡
如何处理样本不均衡
1.1 选择合适的评价指标:
- 不要采用准确率(Accuracy);
- 主流评估方法包括:ROC,Precision-Recall curve,F1;
1.2若样本极度不均衡,可作为异常检测问题处理;
数据挖掘中常见的『异常检测』算法有哪些?
1.3 欠采样/过采样:
一般操作就是,对于样本比较多的类别进行欠采样,对样本比较少的类别进行过采样。但是对于多分类问题,会比较麻烦,而且本赛题是细粒度多分类问题。
常见的过采样方法:
- 随机打乱数据;
- 加入噪声,或随机剔除部分词;
- 裁剪掉某一句;
- 复制;
- 翻译成另一种语言,再翻译回来,eg.中文->英文->中文;
欠采样方法: 即对样本比较多的类别进行采样。
对于文本分类问题,过采样存在一定的问题,此处见[3],不赘述。
欠采样和过采样的缺点:
- 过采样:过拟合风险;
- 欠采样:样本缺失,偏差较大;
下采样缺失样本的解决办法:
- 1.EasyEnsemble:多次下采样(放回采样),训练多个不同的分类器;
- 2.BalanceCascade:首先一次下采样产生训练集,对于分类正确的多样本类别不放回,只放回分类错误的样本;
- 3.利用KNN试图挑选那些最具代表性的大众样本,叫做NearMiss;
1.4 训练策略:
在训练过程中采取的一些方法,例如sklearn中的class_weight,lightgbm和xgboost中的class_weight,他们均给出了参数可以设置类别比例,但是性能要具体讨论。
加权Loss:
在nn中常用binary_entropy(二分类)、category_entropy(多分类),作为目标函数,对待不均衡样本,可以对不同类别进行加权。比如样本比较少的类别,可以给予较高的权重。
参考资料:
[1]严重数据倾斜文本分类,比如正反比1:20~100,适合什么model,查准一般要做到多少可以上线?
[2]如何处理数据中的「类别不平衡」?
[3]文本分类 - 样本不平衡的解决思路与交叉验证CV的有效性
[4]干货|如何解决机器学习中数据不平衡问题
[5]文本多分类踩过的坑
AiChallenger比赛记录之样本不均衡相关推荐
- 【机器学习基础】八种应对样本不均衡的策略
1 什么是非均衡 2 10种解决办法 2.1 重采样(六种方法) 2.2 调整损失函数 2.3 异常值检测框架 2.4 二分类变成多分类 2.5 EasyEnsemble 3 为什么树模型不担心这个问 ...
- 【深度学习】——物体检测细节处理(NMS、样本不均衡、遮挡物体)
目录 一.候选框大量重叠问题 1.NMS核心思想 2. 步骤: 3.缺陷 4.改进 1)soft NMS--衰减的方式来减小预测框的分类得分 2)softer nms--增加了位置置信度 二.样本不平 ...
- [比赛记录] 主流机器学习模型模板代码+经验分享[xgb, lgb, Keras, LR]
向AI转型的程序员都关注了这个号??? 大数据挖掘DT数据分析 公众号: datadw 最近打各种比赛,在这里分享一些General Model,稍微改改就能用的 XGBoost调参大全: http ...
- 编程比赛记录 练习题答案
作者:迷途小书童爱读书 目录: 编程比赛记录 C++语法 标准输入库 vector list 内存拷贝 代码检查 map dev C++ 算法 背包算法 输入输出练习 计算a+b 计算N行A+B 编程 ...
- 综述:解决目标检测中的样本不均衡问题
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨SFXiang 来源丨AI算法修炼营 编辑丨极市平台 极市导 ...
- One Class SVM 对于样本不均衡处理思路——拿出白样本建模,算出outlier,然后用黑去检验效果...
One Class SVM 是指你的training data 只有一类positive (或者negative)的data, 而没有另外的一类.在这时,你需要learn的实际上你training d ...
- Python:SMOTE算法——样本不均衡时候生成新样本的算法
Python:SMOTE算法 直接用python的库, imbalanced-learn imbalanced-learn is a python package offering a number ...
- Java机器学习库ML之五样本不均衡
样本不均衡的问题是指训练集中类别之间的样本数据量比例失衡.有研究表明,部分学习任务,在类别出现1∶35比例时就会使某些分类学习方法无效,甚至1∶10比例也会.样本不均衡导致的问题有: 1)少数类所包含 ...
- SVM训练时候样本不均衡怎么设置惩罚项
问题: 在做气泡检测项目时候,利用svm对训练集进行训练的时候,我的数据集存在这严重的不均衡现象,具体情况如下: 训练集数据情况: 正样本(有气泡):150 标签:+1 负样本(无气泡):800 标签 ...
- 【机器学习】一文解决样本不均衡(全)
一.样本不均衡的介绍 1.1 样本不均衡现象 样本(类别)样本不平衡(class-imbalance)指的是分类任务中不同类别的训练样例数目差别很大的情况,一般地,样本类别比例(Imbalance R ...
最新文章
- C语言关键字、标识符和注释
- 3.Chrome数据同步服务分析--server一片
- 移动端python开发_python前端之移动端库、框架及自动化和优化
- Python实训day09am【Pandas、Series、DataFrame数据帧】
- 【已解决】Error attaching to process: sun.jvm.hotspot.runtime.VMVersionMismatchException: Supported versi
- 使用Eclipse本地运行SAP UI5时, UI5库文件的js文件是从本地哪里加载的
- 毕业生推荐表计算机水平新国二,实用信息 | 2018届毕业指南:毕业生推荐表与三方协议...
- 疫期免费 “零接触”云迁移~工具替代人力! 人不聚,活儿继续!
- ae渲染出现错误是什么问题_怎样彻底检查根治AE导出失败,渲染影片出错问题...
- python爬虫基础案例——爬取猫眼电影并保存数据到excel
- tp交换机管理页面_tplink交换机设置步骤使用方法
- 树莓派安装中文输入法(使用的谷歌提供的树莓派系统google voice kit)
- 局域网内建网站教程,如何零成本搭建自己的网站?
- 二层交换机、三层交换机及四层交换机的区别
- 防抖和截流超级详细讲解,易懂
- 卫青和霍去病:汉匈战争史最天才的两名战将
- java从输入中获取经纬度_java从百度后台接口获取经纬度
- Android 饼图
- word2010取消页眉中的横线
- 全国省市县三级级联SQL数据库内容