【机器学习】小数据集怎么上分? 几行代码生成伪标签数据集
背景
伪标签(Pseudo-Labeling)的定义来自于半监督学习,其核心思想是通过借助无标签的数据来提升有监督模型的性能。伪标签技术在许多场景中被验证了它的有效性,例如在kaggle竞赛Santander Customer Transaction Prediction中,冠军方案就使用了这项技术,并获得了25,000刀的奖金。
使用伪标签技术的基本步骤
1
使用有标签的数据训练模型;
2
使用第一步训练出来的模型对无标签数据进行预测;
3
从第2步预测结果中选择出置信度比较大的样本,使用预测结果作为他们的标签(伪标签),这部分样本就是伪标签数据集;
4
将伪标签数据集合并到训练集中,重新训练模型。
实际使用时,以上4步有可能多次迭代进行。
伪标签技术为什么能work? (个人想法)
1
伪标签技术常常用于数据量较小的场景,伪标签数据集增大了样本量,虽然有可能带来噪音,但是对于模型收敛是有帮助的;
2
伪标签的数据带来了额外的正确信息, 模型对于不同类别之间的分界更加明确了。
伪标签技术适用场景(个人经验)
1
训练集数据量较小;
2
数据难度较小(例如baseline模型auc就能达到0.9以上)。
✓
使用案例
我们的开源项目autox把自动生成伪标签数据集的函数进行了封装, 方便大家使用,使用简单的几行代码就能构造出伪标签数据集。
from autox.autox_competition.process_data import get_pseudo_label
id_ = 'id'
target = 'target'
used_cols = [col for col in test.columns if col not in [id_, target]]
pseudo_label_data = get_pseudo_label(train, test, id_ = id_, target = target, used_cols = used_cols)
案例地址
https://www.kaggle.com/poteman/pseudolabeling-autox
开源项目地址
https://github.com/4paradigm/autox
参考资料
1.https://www.kaggle.com/c/santander-customer-transaction-prediction/discussion/89003
2.https://www.kaggle.com/cdeotte/pseudo-labeling-qda-0-969
3.https://towardsdatascience.com/pseudo-labeling-to-deal-with-small-datasets-what-why-how-fd6f903213af
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419,加入微信群请扫码:
【机器学习】小数据集怎么上分? 几行代码生成伪标签数据集相关推荐
- 微信小程序flex布局怎么实现上中下3行铺满整个窗口。
问题描述: 在微信小程序中使用flex实现上中下3行布局铺满整个窗口. 如图 **WXML ** <!--/* ***HotApp云笔记,基于HotApp小程序统计云后台 ***免费云后台申请地 ...
- 王者荣耀连接不上服务器最新赛季排名,王者荣耀新赛季初不好上分 排位上分小技巧...
王者荣耀新赛季初不好上分?王者荣耀新赛季初期排位上分是件很困难的事情,那有没有在赛季初上分的小技巧呢?当然有的,想要赛季初就开始排位的小伙伴看过来吧. 都说赛季初排位难,到底难在哪里?大概可以分为两个 ...
- 图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用
转载公众号 | DataFunSummit 分享嘉宾:黄柯鑫 斯坦福大学 博士生 编辑整理:元玉蒲 西北大学 出品平台:DataFunTalk 导读:大家好,我叫黄柯鑫.我现在是斯坦福大学的计算机科学 ...
- 2015年《大数据》高被引论文Top10文章No.7——大数据机器学习系统研究进展(上)...
2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.7, ...
- 《大数据》第1期“专题”——大数据机器学习系统研究进展(上)
大数据机器学习系统研究进展 黄宜华1,2 1.南京大学计算机软件新技术国家重点实验室 南京 210023: 2.南京大学PASA大数据技术实验室 南京 210023 摘要:要实现高效的大数据机器学习, ...
- 28款GitHub最流行的开源机器学习项目,推荐GitHub上10 个开源深度学习框架
20 个顶尖的 Python 机器学习开源项目 机器学习 2015-06-08 22:44:30 发布 您的评价: 0.0 收藏 1收藏 我们在Github上的贡献者和提交者之中检查了用Python语 ...
- 2.机器学习小记录--机器学习常用的python包
目录: 一.numpy 二.pandas 三.matplot 四.seaborn 一.Numpy 1.numpy的介绍 numpy是python语言的一个第三方库,其支持大量高维度数组和矩阵运算(二位 ...
- 【直播】闫强:文本分类上分利器 -- Bert微调技巧大全
文本分类上分利器 – Bert微调技巧大全 直播信息 主讲人:ChallengeHub成员,中国人民大学硕士. 直播时间:2021年07月25日 15:00~16:00 直播内容: 经典论文介绍与解读 ...
- CV入门赛最全思路上分技巧汇总!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:安晟,算法工程师,Datawhale成员 赛题数据及背景 http ...
最新文章
- Jupyter Notebook——设置Jupyter Notebook默认目录
- 我在阿里招前端,我该怎么帮你?
- 两个排序数组的中位数
- angular directive自定义指令
- php长传文件到数据库,php上传文件并存储到mysql数据库的简单示例
- [Spring5]IOC容器_Bean管理注解方式_注入属性@Autowired_@Qualified_@Resource_@Value
- JPA实体锁定模式的差异
- hdu 4961 Boring Sum(高效)
- 【OpenCV】OpenCV函数精讲之 -- 通道分离:split()函数
- Python数据结构实战——哈希表中的冲突处理(Collision Handling In Hash Table)
- Unity Transform bug
- javafx 按钮中放置图片导致大小设置失效
- 网页设计期末作品_平面、网页、UI设计师该如何做作品集?
- 在自己的服务器上快速部署RSSHub
- sudo 切换用户 普通用户
- Android触摸屏突然没反应了
- Massve MIMO波束成形
- JAVA常见类(十二)Calendar类
- IntelliJ IDEA 2018.3 x64 安装激活教程(全面)
- Spring Integration Kafka
热门文章
- Excel Chart
- STC89C52RC内部EEPROM编程
- Visual Studio 2008 和 .NET Framework 3.5 Service Pack 1 Beta 发布
- python学习之 字符串前'r'的用法
- 深入理解C指针之四:指针和数组
- android应用框架搭建之BaseActivity
- ThinkPHP框架使用心得二 CURD操作
- java正则 链接_Java正则表达式获取网址和链接文字解析
- python hello world重复_从hello world开始学Python
- python sorted下标_全!Python基础之原生数据类型、判断和循环、函数和文件操作合集...