UDA(Unsupervised Data Augmentation)-半监督学习与数据增强
1 简介
当标注好的数据很少时,半监督学习在深度学习模型中有非常好的表现。目前常用的方法是一致性训练,基于大量的非标注数据进行训练来使模型可以应对各种输入噪声(或者隐状态的噪声)。
有些方法是来设计各种噪声注入模型进行训练,如附加高斯噪声、dropout、对抗噪声。
而UDA(Unsupervised Data Augmentation)是强调这些优秀数据增强方法的使用。不过从名字就可以看出来,UDA是对非标注数据进行数据增强,以前的方法一般是对标注数据增强。
本文依据2020年《Unsupervised Data Augmentation for Consistency Training》翻译总结。
主要贡献如下:
1)我们显示在监督学习中优秀的数据增强方法也适用于半监督学习的一致性训练中。
2)UDA可以媲美甚至超越监督学习的效果。而这些监督学习却使用了比UDA非常多的标注数据。无论是在视觉任务还是语言任务上。UDA只需使用很少的标注数据。
3)UDA也可以利用迁移学习,如fine-tuning后的BERT,加上UDA可以取得更好的成绩。同时UDA在大数据量的ImageNet上也有效。
4)同时我们进行了UDA的理论分析。
2 Unsupervised Data Augmentation
UDA的目标函数公式如下,示意图也如下。可以看到分为两部分,第一部分是Supervised Cross-entropy Loss,第二部分是Unsupervised Consistency Loss。第二部分又是求数据增强后和数据增强前的一致性(CE那部分)。可以看到数据增强部分是对非标注数据进行的,不像传统的方法是对标注数据进行的。
参数:
λ,权重因子,平衡第一部分Supervised Cross-entropy Loss和第二部分Unsupervised Consistency Loss。我们大部分的实验采用λ=1。
CE:表示交叉熵cross entropy。
3 采用的数据增强方法
1)在图片分类任务中使用RandAugment:从Python Image Library (PIL) 中均匀采样数据增强方法。
2)文本分类中采用Back-translation:将样本x翻译成另一种语言B,然后再翻译回来x ̂.
3) 将低TF-IDF分的单词替换掉,保持高TF-IDF分的。
4 额外的训练技巧
第二部分Unsupervised Consistency Loss采用如下公式:(1)引入了一个阈值β,分类概率大于β的才考虑。(2)Sharpening Predictions,采用一个低softmax温度控制参数τ。我们实验中采用0.4.
5 UDA理论分析
大体思路是(1)数据增强丰富了(覆盖了)子类别的各种情况,如下面c图。(2)子类列中的数据是可以通过各种转换操作进行互相转换的,所以UDA只需要很少的标注样本即可。
6 实验结果
下图可以看出来UDA只需要很少的标注数据就可以取得很好的成绩(较低的错误率)。
图像任务比较:其中ICT、MixMatch也是半监督学习方法。
文本任务比较:
ImageNet Dataset上比较:
UDA(Unsupervised Data Augmentation)-半监督学习与数据增强相关推荐
- [UDA]Unsupervised Data Augmentation for Consistency Training
目录 Abstract 1 Introduction 2 Unsupervised Data Augmentation (UDA) Discussion Augmentation Strategies ...
- UDA:Unsupervised Data Augmentation for Consistency Training
文章目录 摘要 创新点 UDA介绍 一些训练技巧 1.训练信号退火(Training Signal Annealing, TSA) 2.增强预测(Sharpening Predictions) 3.领 ...
- 机器学习的五大分类,监督学习 无监督学习 半监督学习 迁移学习 增强学习
机器学习的五大分类,监督学习 无监督学习 半监督学习 迁移学习 增强学习@监督学习 无监督学习 半监督学习 监督学习 在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和 ...
- 半监督学习之数据加载
图像分类数据集 半监督数据加载:把需要设置为无标签样本的标签设置为-1,这样可以在交叉熵的时候设置忽略-1的标签 class_criterion = nn.CrossEntropyLoss(reduc ...
- 文本分类半监督学习--UDA
2021SC@SDUSC 1.UDA简介: 半监督学习最近在标签数据匮乏的情况下,在改进深度学习模型方面显示出很大的前景.首先利用已标注数据训练出模型,再用该模型预测大量的未标注数据创造出伪标签,然后 ...
- 【深度学习】数据扩充 (Data Augmentation)
Introduction 数据扩充(data augmentation),又名 数据增强 / 数据增广. 其本质即: 缺少海量数据时,为了保证模型的有效训练,一分钱掰成两半花. 数据扩充方法包括: 简 ...
- NLP数据增强方法总结:EDA、BT、MixMatch、UDA
1. 数据增强的背景和应用场景 随着AI技术的逐步发展,更好的神经网络模型对数据规模的要求也逐步提升.而在分类任务中,若不同类别数据量相差很大,模型则会出现过拟合现象,严重影响预测的正确性. 从广义上 ...
- NLP中的数据增强:UDA、EDA
文章目录 NLP数据增强 1. UDA (Unsupervised Data Augmentation)[推荐使用] 2. EDA (Easy Data Augmentation) NLP数据增强 1 ...
- 文本增强、半监督学习,谁才是 NLP 少样本困境问题更优的解决方案?
2020-06-18 02:22:35 作者 | JayLou娄杰 编辑 | 丛 末 1 前言 在医疗.金融.法律等领域,高质量的标注数据十分稀缺.昂贵,我们通常面临少样本低资源问题.本文从「文本增强 ...
最新文章
- flex布局常用属性
- 经典面试题:在这个场景下,你怎么进行性能调优?
- oracle元数据存储在表空间,oracle db中数据和元数据的概念
- C语言 文件读写 fputc 函数 - C语言零基础入门教程
- ubuntu tomcat安装环境变量配置
- SSM-jsp页面放在web-INF下受保护,读取出现404页面tomcat获取不到资源-问题解决配置docBase
- 网页视频之H5+Mse
- 88se9230 linux raid,Gen10磁盘控制器Marvell 88SE9230阵列RAID设置方法教程图文
- PnL Explained FAQ
- 湖北2022农民丰收节 国稻种芯:麻城启动王忠林宣布活动
- 【已解决】群晖套件中心无法添加第三方源
- ceph monitor 选举leader和peon的过程
- bootstrap之data-toggle,data-dismiss,data-target用法
- 大学不会教,但是程序员第一天工作需要知道的事儿...
- Z50-70电脑加内存条+加固态硬盘+光驱处加机械硬盘+U盘启动重装系统+第三方装机软件重装系统
- 现代高性能连接器 Mold 1.0.2 发布
- android通用模板项目AndroidTemplate
- 数据结构实验九 下三角矩阵的压缩存储
- onbeforeunload与onunload事件 1
- Use of undefined constant MYSQL_ASSOC - assumed ‘MYSQL_ASSOC‘的解决方法
热门文章
- 好一场逗鹅冤:一瓶老干妈撬动BAT
- 三维立体绘图软件(golden software surfer 19) v19.1
- 自动驾驶论文:FisheyeMODNet: Moving Object detection on Surround-view Cameras for Autonomous Driving (2019)
- GPLT L2-040 哲哲打游戏
- 如何让图像过渡更自然 python_如何使用Python和OpenCV融合、拼接照片?
- CSS3中的径向渐变
- .net 发送电邮_关于如何使用.NET发送电子邮件的快速参考
- Java面向对象之接口
- “那些看似不起波澜的日复一日,终会在某天让你看到坚持的意义。”
- 测试下网站收录的问题