大数据时代中,在推荐、广告领域样本的获取从来都不是问题,似乎适用于小样本学习的伪标签技术渐渐淡出了人们的视野,但实际上在样本及其珍贵的金融、医疗图像、安全等领域,伪标签学习是一把锋利的匕首,简单而有效。

伪标签的定义

伪标签的定义来自于半监督学习,半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。

举个简单的半监督学习例子,我想去训练一个通过胸片图像来诊断是否患有乳腺癌的模型,但是专家标注一张胸片图像要收费,于是我掏空自己的钱包让专家帮我标注了10张胸片,可是我这10张图片又要划分训练集测试集,咋训练看着都要过拟合哇,这可咋办?

聪明的我问了问专家,说不标注的胸片要钱吗?专家一愣,不要钱,随便拿(此处忽略病人隐私的问题,单纯举例子)。于是我掏出1张标注的胸片,换了10张没标注的胸片,在专家还没缓过劲之前先溜了。

回到家里,我就开始了如图所示的半监督学习过程~

粗略来讲,伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测,根据预测结果对样本进行筛选,再次输入模型中进行训练的一个过程。

但实际上,伪标签技术在具体应用的细节上,远没有说的如此简单,那让我们先看一下伪标签技术的具体做法吧。

伪标签的具体用法

伪标签技术的使用自由度非常高,在这里我们介绍最常用的也是最有效的三种,对于某些特殊场景,可能有更花哨的方法,这里希望能抛砖引玉,为大家拓宽一下视野。

入门版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测,得出预测概率P

3. 通过预测概率P筛选高置信度样本

4. 使用有标记数据以及伪标签数据训练新模型M’

进阶版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测,得出预测概率P

3. 通过预测概率P筛选高置信度样本

4. 使用有标记数据以及伪标签数据训练新模型M’

5. 将M替换为M’,重复以上步骤直至模型效果不出现提升

创新版

1. 使用标记数据训练有监督模型M

2. 使用有监督模型M对无标签数据进行预测,得出预测概率P

3. 将模型损失函数改为Loss = loss(labeled_data) + alpha*loss(unlabeled_data)

4. 使用有标记数据以及伪标签数据训练新模型M’

*loss(unlabeled_data)*

4. 使用有标记数据以及伪标签数据训练新模型M’

伪标签(Pseudo-Labelling)相关推荐

  1. CVPR 2022 | 商汤/上交/港中文提出U2PL:使用不可靠伪标签的半监督语义分割

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Pascal  |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhih ...

  2. CVPR 2022|U2PL:使用不可靠伪标签的半监督语义分割

    本文转自商汤学术 导读 半监督任务的关键在于充分利用无标签数据,商汤科技联合上海交通大学.香港中文大学,基于「 Every Pixel Matters」的理念,有效利用了包括不可靠样本在内的全部无标签 ...

  3. 【深度学习】半监督学习入门:伪标签学习和无监督SVM

    一.半监督学习 1-1.什么是半监督学习 让学习器不依赖外界交互.自动地利用未标记样本来提升学习性能,就是半监督学习(semi-supervised learning). 要利用未标记样本,必然要做一 ...

  4. IROS 2021 | 相机数据转化为2D激光伪标签的自监督学习行人检测

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨泡泡机器人 来源丨 泡泡机器人SLAM 标题:Self-Supervised Person De ...

  5. 【机器学习】小数据集怎么上分? 几行代码生成伪标签数据集

    背景 伪标签(Pseudo-Labeling)的定义来自于半监督学习,其核心思想是通过借助无标签的数据来提升有监督模型的性能.伪标签技术在许多场景中被验证了它的有效性,例如在kaggle竞赛Santa ...

  6. 一种基于伪标签半监督学习的小样本调制识别算法

    一种基于伪标签半监督学习的小样本调制识别算法 人工智能技术与咨询 来源:<西北工业大学学报>,作者史蕴豪等 摘 要:针对有标签样本较少条件下的通信信号调制识别问题,提出了一种基于伪标签半监 ...

  7. Kaggle数据竞赛——伪标签的使用

    1 致谢 感谢钟老师的讲述! 2 伪标签的使用 我感觉是这样的,我先有一个比较好的模型,我在test的时候发现的两种情况:好样本和坏样本:然后我在想,感觉对于好样本,我的模型还拟合的比较好,干脆再fi ...

  8. 基于噪声伪标签和对抗学习的医学图像分割标注高效学习

    目录 背景: 面临问题: 解决方案: 一   没有图像标注对的学习 二 为训练图像生成伪标签 2.1 为训练图像生成伪标签 2.2 VAE-Based鉴别器 2.3 鉴别器引导的发生器信道校准 这里有 ...

  9. 多模态对比互学习和伪标签再学习半监督医学图像分割

    文章目录 Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medica ...

  10. 关于使用jquery修改hover伪标签的样式

    HTML如下: <div class=".nav-subitem"><div classs="nav-subitem-link">标题& ...

最新文章

  1. R语言按组聚合求和实战(sum a variable by group):使用aggregate函数按组聚合求和、使用tapply函数按组聚合求和、按组聚合求和(使用dplyr包)
  2. 服务器宽带性能如何?----internet性能测试站点汇集
  3. Leetcode题目:House Robber II
  4. Java中sin、log、tan等复杂数学运算怎么搞?
  5. Angular 下的 directive (part 2)
  6. 有趣java_有趣的Java
  7. Hibernate(十):n-n关联关系
  8. AOC萌新探索:搭建和体验在线AOC环境
  9. ERP采购管理 金蝶
  10. ubuntun安装扫描仪
  11. 设备\Device\Harddisk1\DR1 有一个不正确的区块
  12. 详解Dijkstra算法(含数学证明和优化)
  13. CyanogenMod
  14. CAD数据不通过ArcGIS导出为MDB
  15. html5禁止浏览器缩放网页大小 (实用)
  16. 《Dreamweaver CS6 完全自学教程》笔记 第五章:网页中的图像编辑
  17. C语言约分、求最大公约数?三角形用分数格式输出其较小锐角的正弦值
  18. PTA新生训练赛----3
  19. Python+Selenium 实现新理念外语网络教学平台 自动答英语听力 -- 山东科技大学
  20. LeetCode 45. 跳跃游戏 II Jump Game II

热门文章

  1. flex的dataGrid:用checkbook和弹出窗口修改,返回修改本行
  2. 从细节入手为您的客户创造价值
  3. ubuntu 查看cpu运行频率_ubuntu cpu频率控制
  4. kippo mysql_浅析开源蜜罐识别与全网测绘
  5. 计算机辅助翻译与人工智能,2018年机器翻译行业概述与现状,人工智能让人人实现国际化交流...
  6. iOS - iOS6 越狱及必装源、软件
  7. 6U VPX数据存储板学习资料保存:基于6U VPX 的mSATA高性能数据存储板
  8. 解决 nvcc: command not found
  9. 485通讯的校验和_MCGS 与 FX3U PLC 之间的无线通讯实例
  10. 我为什么觉得程序员是个高危职业