背景

伪标签(Pseudo-Labeling)的定义来自于半监督学习,其核心思想是通过借助无标签的数据来提升有监督模型的性能。伪标签技术在许多场景中被验证了它的有效性,例如在kaggle竞赛Santander Customer Transaction Prediction中,冠军方案就使用了这项技术,并获得了25,000刀的奖金。

使用伪标签技术的基本步骤

1

使用有标签的数据训练模型;

2

使用第一步训练出来的模型对无标签数据进行预测;

3

从第2步预测结果中选择出置信度比较大的样本,使用预测结果作为他们的标签(伪标签),这部分样本就是伪标签数据集;

4

将伪标签数据集合并到训练集中,重新训练模型。

实际使用时,以上4步有可能多次迭代进行。

伪标签技术为什么能work? (个人想法)

1

伪标签技术常常用于数据量较小的场景,伪标签数据集增大了样本量,虽然有可能带来噪音,但是对于模型收敛是有帮助的;

2

伪标签的数据带来了额外的正确信息, 模型对于不同类别之间的分界更加明确了。

伪标签技术适用场景(个人经验)

1

训练集数据量较小;

2

数据难度较小(例如baseline模型auc就能达到0.9以上)。

使用案例

我们的开源项目autox把自动生成伪标签数据集的函数进行了封装, 方便大家使用,使用简单的几行代码就能构造出伪标签数据集。

from autox.autox_competition.process_data import get_pseudo_label
id_ = 'id'
target = 'target'
used_cols = [col for col in test.columns if col not in [id_, target]]
pseudo_label_data = get_pseudo_label(train, test, id_ = id_, target = target, used_cols = used_cols)

案例地址

https://www.kaggle.com/poteman/pseudolabeling-autox

开源项目地址

https://github.com/4paradigm/autox

参考资料

1.https://www.kaggle.com/c/santander-customer-transaction-prediction/discussion/89003

2.https://www.kaggle.com/cdeotte/pseudo-labeling-qda-0-969

3.https://towardsdatascience.com/pseudo-labeling-to-deal-with-small-datasets-what-why-how-fd6f903213af

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419,加入微信群请扫码:

【机器学习】小数据集怎么上分? 几行代码生成伪标签数据集相关推荐

  1. 微信小程序flex布局怎么实现上中下3行铺满整个窗口。

    问题描述: 在微信小程序中使用flex实现上中下3行布局铺满整个窗口. 如图 **WXML ** <!--/* ***HotApp云笔记,基于HotApp小程序统计云后台 ***免费云后台申请地 ...

  2. 王者荣耀连接不上服务器最新赛季排名,王者荣耀新赛季初不好上分 排位上分小技巧...

    王者荣耀新赛季初不好上分?王者荣耀新赛季初期排位上分是件很困难的事情,那有没有在赛季初上分的小技巧呢?当然有的,想要赛季初就开始排位的小伙伴看过来吧. 都说赛季初排位难,到底难在哪里?大概可以分为两个 ...

  3. 图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用

    转载公众号 | DataFunSummit 分享嘉宾:黄柯鑫 斯坦福大学 博士生 编辑整理:元玉蒲 西北大学 出品平台:DataFunTalk 导读:大家好,我叫黄柯鑫.我现在是斯坦福大学的计算机科学 ...

  4. 2015年《大数据》高被引论文Top10文章No.7——大数据机器学习系统研究进展(上)...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.7, ...

  5. 《大数据》第1期“专题”——大数据机器学习系统研究进展(上)

    大数据机器学习系统研究进展 黄宜华1,2 1.南京大学计算机软件新技术国家重点实验室 南京 210023: 2.南京大学PASA大数据技术实验室 南京 210023 摘要:要实现高效的大数据机器学习, ...

  6. 28款GitHub最流行的开源机器学习项目,推荐GitHub上10 个开源深度学习框架

    20 个顶尖的 Python 机器学习开源项目 机器学习 2015-06-08 22:44:30 发布 您的评价: 0.0 收藏 1收藏 我们在Github上的贡献者和提交者之中检查了用Python语 ...

  7. 2.机器学习小记录--机器学习常用的python包

    目录: 一.numpy 二.pandas 三.matplot 四.seaborn 一.Numpy 1.numpy的介绍 numpy是python语言的一个第三方库,其支持大量高维度数组和矩阵运算(二位 ...

  8. 【直播】闫强:文本分类上分利器 -- Bert微调技巧大全

    文本分类上分利器 – Bert微调技巧大全 直播信息 主讲人:ChallengeHub成员,中国人民大学硕士. 直播时间:2021年07月25日 15:00~16:00 直播内容: 经典论文介绍与解读 ...

  9. CV入门赛最全思路上分技巧汇总!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:安晟,算法工程师,Datawhale成员 赛题数据及背景 http ...

最新文章

  1. Jupyter Notebook——设置Jupyter Notebook默认目录
  2. 我在阿里招前端,我该怎么帮你?
  3. 两个排序数组的中位数
  4. angular directive自定义指令
  5. php长传文件到数据库,php上传文件并存储到mysql数据库的简单示例
  6. [Spring5]IOC容器_Bean管理注解方式_注入属性@Autowired_@Qualified_@Resource_@Value
  7. JPA实体锁定模式的差异
  8. hdu 4961 Boring Sum(高效)
  9. 【OpenCV】OpenCV函数精讲之 -- 通道分离:split()函数
  10. Python数据结构实战——哈希表中的冲突处理(Collision Handling In Hash Table)
  11. Unity Transform bug
  12. javafx 按钮中放置图片导致大小设置失效
  13. 网页设计期末作品_平面、网页、UI设计师该如何做作品集?
  14. 在自己的服务器上快速部署RSSHub
  15. sudo 切换用户 普通用户
  16. Android触摸屏突然没反应了
  17. Massve MIMO波束成形
  18. JAVA常见类(十二)Calendar类
  19. IntelliJ IDEA 2018.3 x64 安装激活教程(全面)
  20. Spring Integration Kafka

热门文章

  1. Excel Chart
  2. STC89C52RC内部EEPROM编程
  3. Visual Studio 2008 和 .NET Framework 3.5 Service Pack 1 Beta 发布
  4. python学习之 字符串前'r'的用法
  5. 深入理解C指针之四:指针和数组
  6. android应用框架搭建之BaseActivity
  7. ThinkPHP框架使用心得二 CURD操作
  8. java正则 链接_Java正则表达式获取网址和链接文字解析
  9. python hello world重复_从hello world开始学Python
  10. python sorted下标_全!Python基础之原生数据类型、判断和循环、函数和文件操作合集...