监督学习和无监督学习_让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法...

新智元报道

来源：GoogleAI

编辑：元子

【新智元导读】Google AI最新研究用无监督数据增强推进半监督学习，取得令人瞩目的成果。该方法超越了所有现有的半监督学习方法，并实现了仅使用极少量标记样本即可达到使用大量标记样本训练集的精度。

深度学习之所以能够成功的关键因素，是算法的进步，以及并行处理硬件(GPU / TPU)以及大型标记数据集(如ImageNet)。

然而，当标记数据稀缺时，深度学习就像缺了一条腿。在这种情况下，需要应用数据增强方法，例如对句子进行释义或将图像进行旋转，以有效地增加标记的训练数据的量。

如今，在诸如自然语言处理(NLP)，视觉和语音等各种领域的数据增强方法的设计上，已经取得了重大进展。不幸的是，数据增加通常仅限于监督学习，需要标签从原始示例转移到增强示例。

上图：基于文本(顶部)或基于图像(底部)训练数据的示例增强操作。

在谷歌最近“用于一致性训练的无监督数据增强(UDA)”的研究中，证明还可以对未标记数据执行数据增强，以显著改善半监督学习(SSL)。

谷歌的结果促进了半监督学习的复兴，而且还发现3点有趣的现象：(1)SSL可以匹配甚至优于使用数量级更多标记数据的纯监督学习。(2)SSL在文本和视觉两个领域都能很好地工作。(3)SSL能够与迁移学习很好地结合。

此外谷歌还开放了代码在GitHub。

GitHub地址：

https://github.com/google-research/uda

无监督数据扩充

无监督数据增强同时使用标记数据和未标记数据。在标记数据方面，它使用监督学习的标准方法来计算损失函数以训练模型，如下图的左侧部分所示。

而对于未标记的数据，则应用一致性训练来强制预测未标记的示例和增强的未标记示例是否相似，如下图的右侧部分所示。

这里，相同的模型被同时应用于未标记的示例和增强的对应物，以产生两个模型预测，从中计算一致性损失(即，两个预测分布之间的距离)。

然后，UDA通过联合优化标记数据的监督损失和未标记数据的无监督一致性损失，来计算最终损失。

通过最小化一致性损失，UDA允许标签信息从标记的示例平滑地传播到未标记的示例。

直觉上，人们可以将UDA视为隐含的迭代过程：该模型依赖于少量标记的示例，来对一些未标记的示例进行正确的预测，从中通过一致性损失，并将标签信息传播到增强的对应物。随着时间的推移，越来越多未标记的示例终将被正确预测，这反映了模型的改进的泛化。

谷歌对各种其他类型的噪声进行一致性训练测试(例如高斯噪声、对抗性噪声等)后，在各种各样的噪声上实现了最先进的性能。

UDA根据任务应用不同的现有增强方法，包括反向翻译、自动增强和TF-IDF单词替换。

新的NLP和计算机视觉的基准

UDA在低数据体系中出乎意料地有效。只用20个标记示例，UDA通过50000个未标记的示例，在IMDb情绪分析任务中实现了4.20的错误率。

该结果优于先前使用25000个标记示例训练的最先进模型(错误率为4.32)。在大数据制度中，通过完整的训练集，UDA也提供了强大的收益。

IMDb的基准，是一种情绪分析任务。UDA在不同培训规模的监督学习中超越了最先进的成果，如下图。

在CIFAR-10半监督学习基准测试中，UDA的表现同样优于所有现有的SSL方法，如VAT、ICT和MixMatch。

在4k示例情况下，UDA实现了5.27的错误率，与使用50k示例的完全监督模型的性能相匹配。

此外，通过更先进的PyramidNet+ShakeDro架构p，UDA实现了2.7的新的最新错误率，与之前的最佳半监督结果相比，错误率降低了45％以上。

在SVHN上，UDA仅使用250个标记示例，就实现了2.85的错误率，与使用70k标记示例训练的完全监督模型的性能相匹配。

CIFAR-10的SSL基准测试，图像分类任务。UDA超越了所有现有的半监督学习方法，所有这些方法都使用Wide-ResNet-28-2架构。在4000个示例中，UDA将完全监督设置的性能与50000个示例相匹配。

在具有10％标记示例的ImageNet上，UDA将TOP 1精度从55.1％提高到68.7％。

在具有完全标记集和1.3M额外未标记示例的高数据体系中，UDA继续为前1精度提供78.3％至79.0％的增益。

参考链接：

https://ai.googleblog.com/2019/07/advancing-semi-supervised-learning-with.html

监督学习和无监督学习_让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法...相关推荐

cut out数据增强_谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集...
近日,来自谷歌大脑的研究者在 arXiv 上发表论文,提出一种自动搜索合适数据增强策略的方法 AutoAugment,该方法创建一个数据增强策略的搜索空间,利用搜索算法选取适合特定数据集的数据增强策略 ...
生成对抗网络gan原理_生成对抗网络（GAN）的半监督学习
前言如果您曾经听说过或研究过深度学习,那么您可能就知道MNIST, SVHN, ImageNet, PascalVoc或者其他数据集.这些数据集都有一个共同点: 它们由成千上万个有标签的数据组成. ...
半监督学习技术在金融文本分类上的实践
垂直领域内的自然语言处理任务往往面临着标注数据缺乏的问题,而近年来快速发展的半监督学习技术为此类问题提供了有希望的解决方案.本文以 Google 在 2019 年提出的 UDA 框架为研究主体,详细探 ...
一文看懂半监督学习(Semi-supervised Learning)和自监督学习(Self-Supervised Learning)
前言网络上很多关于此的文章,在这里进行一个梳理参考: https://zhuanlan.zhihu.com/p/33196506 https://zhuanlan.zhihu.com/p/1395 ...
文本分类半监督学习--UDA
2021SC@SDUSC 1.UDA简介: 半监督学习最近在标签数据匮乏的情况下,在改进深度学习模型方面显示出很大的前景.首先利用已标注数据训练出模型,再用该模型预测大量的未标注数据创造出伪标签,然后 ...
文本增强、半监督学习，谁才是 NLP 少样本困境问题更优的解决方案？
2020-06-18 02:22:35 作者 | JayLou娄杰编辑 | 丛末 1 前言在医疗.金融.法律等领域,高质量的标注数据十分稀缺.昂贵,我们通常面临少样本低资源问题.本文从「文本增强 ...
lisp 线性标注自动避让_自动化数据增强：实践、理论和新方向
选自Stanford AI Lab Blog 作者:Sharon Y. Li 机器之心编译参与:Panda 对当今需要大量数据的机器学习模型而言,数据增强是一种具有显著价值的技术--既可用于缓解数据 ...
gan 总结数据增强_深度学习中的数据增强（下）
言有三毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人编辑 | 言有三今天带来深度学习中的数据增强方法的下篇.我们将从以下几个方向入手.1,介绍一下什么是无监督的数据增强方法.2,简单 ...
有监督学习和无监督学习_比监督学习做的更好：半监督学习
近期大热的半监督学习! 本文转载自:AI公园作者:Andre Ye | 编译:ronghuaiyang注:文末附CV学习交流群. 导读为什么半监督学习是机器学习的未来. 监督学习是人工智能领域的第 ...

监督学习和无监督学习_让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法...

【新智元导读】Google AI最新研究用无监督数据增强推进半监督学习，取得令人瞩目的成果。该方法超越了所有现有的半监督学习方法，并实现了仅使用极少量标记样本即可达到使用大量标记样本训练集的精度。

监督学习和无监督学习_让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法...相关推荐

最新文章

热门文章