DivideMix: Salesforce提出使用半监督学习大幅改进含噪声标签的学习
点击我爱计算机视觉标星,更快获取CVML新技术
分享一篇今天新出的论文DivideMix: Learning with Noisy Labels as Semi-supervised Learning,来自SalesForce研究院的工程师提出一种使用半监督学习方法改进含噪声标签数据的学习,显著改进了精度,大幅超越之前的State-of-the-art。
该文作者信息:
众所周知,近年来深度学习的长足进步离不开大规模高标准的标注数据,但在大多数现实问题中,获得数量可观的标注数据需要付出大量的时间和金钱代价。
而互联网上可以获得大量的含有标签噪声的数据,比如从搜索引擎查找返回的数据、从社交网络下载的含有tag的数据等,如何利用这些大规模含噪声标签的数据是降低标注成本的重要方向。
该文提出DivideMix方法,核心思想为 co-divide + 改进的MixMatch,其算法流程如下:
1. 提出了co-divide,该过程同时训练两个网络。对于每个网络,在其每个样本的损失分布上动态拟合高斯混合模型(GMM),以将训练样本分为有标签数据(最可能干净的数据)和无标签数据(最可能是噪声的数据)。然后,将分割后的数据用于训练另一个网络。同分使两个网络保持分开,以便它们可以过滤不同类型的错误并避免自训练中的确认偏差。
2. 在后续的半监督学习阶段,通过标签co-refinement和co-guessing来改进MixMatch,解决标签噪音问题。对于有标签的样本,我们使用GMM针对另一个网络的网络预测来完善其真实标签。对于没有标签的样本,我们使用两个网络的集成为它们的标记做出可靠的猜测。
算法流程:
实验结果
作者在多个数据集上不同的噪声比例下进行了实验,结果表明,DivideMix在多个基准数据集上显著提高了精度。齐刷刷站到最高点!
该文已经被ICLR 2020录用,作者也已将代码开源,感兴趣的小伙伴,赶紧实验下吧。
论文地址:
https://arxiv.org/pdf/2002.07394.pdf
代码地址:
https://github.com/LiJunnan1992/DivideMix
半监督学习交流群
关注最新最前沿的半监督学习、自监督学习技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)
(请务必注明:半监督)
喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。
(不会时时在线,如果没能及时通过验证还请见谅)
长按关注我爱计算机视觉
DivideMix: Salesforce提出使用半监督学习大幅改进含噪声标签的学习相关推荐
- 低耗时、高精度,微软提出基于半监督学习的神经网络结构搜索算法 SemiNAS
编者按:近年来,神经网络结构搜索(Neural Architecture Search, NAS)取得了较大的突破,但仍然面临搜索耗时及搜索结果不稳定的挑战.为此,微软亚洲研究院机器学习组提出了基于半 ...
- 半监督学习价值凸显!谷歌大脑83页PPT介绍最新进展
点击我爱计算机视觉标星,更快获取CVML新技术 最近52CV推送了好几篇关于半监督.自监督学习的文章: 自监督.半监督.无监督学习,傻傻分不清楚?最新综述来帮你! 解读自监督学习(Self-Super ...
- [论文学习]DIVIDEMIX:带噪声标签的半监督学习LEARNING WITH NOISY LABELS AS SEMI-SUPERVISED LEARNING
本文研究含噪声标签数据的训练,是目前该领域的SOTA.主要方法是:首先使用高斯混合模型,根据训练集每样本的损失函数值对样本进行分类,分为干净样本和噪声样本,把噪声样本作为无标签样本:然后使用半监督 ...
- 机器学习笔记(十三)半监督学习
13.半监督学习 这章介绍半监督学习方法. 13.1未标记样本 先说两个概念: 1)有标记样本(Labeled) 训练样本集Dl={(x1,y1), (x2,y2),-, (xl,yl)},这l个样本 ...
- 一种基于伪标签半监督学习的小样本调制识别算法
一种基于伪标签半监督学习的小样本调制识别算法 人工智能技术与咨询 来源:<西北工业大学学报>,作者史蕴豪等 摘 要:针对有标签样本较少条件下的通信信号调制识别问题,提出了一种基于伪标签半监 ...
- Hinton 新作!越大的自监督模型,半监督学习需要的标签越少
编译 | 青暮 转自 | AI科技评论 本文介绍了Hinton团队发表在NeurIPS 2020上的一项研究工作,一作是Ting Chen,研究人员首次在ImageNet上尝试了半监督学习的典型范式, ...
- 手把手教你实现GAN半监督学习
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 引言 本文主要介绍如何在tensorflow上仅使用200个带标 ...
- Hinton新作!越大的自监督模型,半监督学习需要的标签越少
来源:AI科技评论 编译:青暮 本文介绍了Hinton团队发表在NeurIPS 2020上的一项研究工作,一作是Ting Chen,研究人员首次在ImageNet上尝试了半监督学习的典型范式,并取得了 ...
- 生成对抗网络gan原理_生成对抗网络(GAN)的半监督学习
前言 如果您曾经听说过或研究过深度学习,那么您可能就知道MNIST, SVHN, ImageNet, PascalVoc或者其他数据集.这些数据集都有一个共同点: 它们由成千上万个有标签的数据组成. ...
最新文章
- Python的控制语句3
- Framework中的AIDL(原)
- linux命令音乐视频合并,Linux下基于命令行的音乐播放器 (1)
- javascript时间戳转换成yyyy-MM-DD格式
- activiti6创建28张表
- 影像篡改与识别(三):人工智能时代
- springboot框架图解
- ajax小猿圈面试题,小猿圈之2019年前端JavaScript面试题(二)
- 计算机视觉:图像映射与全景拼接
- 卫星图像地物判别标志(假彩色)
- [转] 程序员才懂的58张图片,哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈
- Android中的Picasso实现圆角图片
- 记录阿里云服务器mysql被黑
- Promise静态方法,then的顺延,resolve函数
- bp神经网络预测未来数据,bp神经网络数据预处理
- 详写VMware下安装windows7优化
- pod:Kubernetes(k8s)创建pod的两种方式
- Python将Excel表格按内容拆分为多个表格
- Kubernetes的网络架构
- 对野生动物的GPS信息,进行数据库查询
热门文章
- Hibernate框架 配置文件基本架构
- MyBatis框架 动态SQL
- mysql 分表_MySQL如何分库分表
- python 自动登录网站_python自动登录网页脚本
- matlab 求控制系统积分误差ise,基于MATLAB的自适应飞行控制系统参数整定
- jodd忽略ssl证书_关于java访问https资源时,忽略证书信任问题
- mysql dateformat 索引_DATE_FORMAT索引问题
- mysql数据库搜索引擎要先进入_Mysql搜索引擎都有哪些区别
- 执行sql语句_SQL查询语句的执行顺序解析
- python 3.7下载安装scrapy_win10上python3.7安装scrapy1.5.1