作者：皮皮雷来源：投稿
编辑：学姐

论文题目

How Effective is Task-Agnostic Data Augmentation for Pretrained Transformers?

论文作者

S. Longpre, Y. Wang, and C. DuBois

论文发表于

2020 EMNLP findings

摘要

任务无关的数据增广（DA）在NLP中运用广泛，尤其是在数据稀少的情况下、或者在下游任务中接非预训练模型（如LSTM，CNN）效果显著。有时候，下游任务接预训练语言模型（如BERT）也会有所提升。

论文提出的问题是：

当DA运用在预训练语言模型上，到底有多少效果？

论文使用两种常规的数据增广方法：

Easy Data Augmentation (EDA) (Wei and Zou, 2019) 和回译(Sennrich et al., 2015)，在6个数据集、5种分类任务（情感分类SST2,RT、主观性SUBJ、问题类型TREC、句子相似STS-B、推理MNLI）、3个预训练语言模型（BERT, XL-NET, and ROBERTA）上比较DA的效果。

结果发现，尽管前人实验证实DA方法在非预训练语言模型上效果显著，但是不适用于预训练语言模型，哪怕是在数据稀少的情况下。

结论

在用PLM做文本分类时，增广手段不能起到提升作用。推测是因为PLM在预训练过程中已经拥有较多的语言知识（无需再次增强）。

数据集

·情感分类 SST2, RT·主观性 SUBJ·问题分类 TREC·句子相似 STS-B·推理 MNLI

用于测试的数据: 在这些数据集的测试集中随机抽取1000条。

训练数据大小: N ∈ {500, 1000, 2000, 3000, Full}，以模拟在数据稀疏情况下的表现

数据增广方法

1.Back Translation (回译) : 英语 → 德语

英语1句的德语翻译，再翻回6句不同的英语，取6句话中与原文编辑距离最长的。

目的：最大限度增加语言的丰富程度（linguistic variety）

2.Easy Data Augmentation (EDA) 包括同义词替换、随机交换词语顺序、随机插入和删除词语

变量：数据增广的总量，设置参数τ ∈ {0.5, 1, 1.5, 2}. N ×τ 是增广的数据量。

模型

研究者测试了3种预训练语言模型在数据增广下的表现。

BERT-BASE

XLNET-BASE

ROBERTA-BASE

实验

先调参：对于每一种数据增广策略（不增广、回译、EDA）分别调参，采用30次随机搜索方法调参，确保模型发挥较好的效果。

实验数据发现数据增广的方法收效甚微。研究者接下来讨论产生这种情况的原因。

讨论：为什么数据增广的策略没有效果?

现象1：数据增广对BERT的增益比另外两个模型大。而且BERT的预训练数据量相对了另外两个模型小。所以推测预训练过程达到了和数据增广相似的效果。

研究者建议：数据增广可以增加任务相关语料的语言学丰富度，尤其是当预训练不足够的时候。

现象2：RT情感分类数据集中，少见的、别出心裁的表达构成了很多难例（如“wishy-washy”），模型较难归纳出这些词所属的情感类别。在这些难例上，预训练模型做对了，而LSTM没做对。

这些结果表明数据增广和预训练都提高了模型处理复杂语言结构、歧义词和标签类别中未出现的词语的能力。

评价

在竞赛中，我们常常看到数据增广的方法能够提分，而且提分不少，因此数据增广被当做一个有口皆碑的刷分利器。而这篇Apple公司的论文正是关注数据增广在预训练模型上的表现，做了一系列的实验，结果却和我们以前的认知大相径庭。

这是为什么呢？在读的过程中我也意识到了一些问题。比如，分类效果没有提升，是因为总数据量的增加导致的？还是数据增广方法的应用导致的？如果把这个变量分离出来做比较，可能会更有说服力一些。

而且，在我们的经验中，数据增广方法在一些数据集上有神奇的效果、在另一些上没有，这也是符合“no free lunch”定律的：天下没有一种普适的模型和算法能一下找到所有问题的最优解。

不过这篇论文的优点在于提出的问题非常基础、有建设性。相信里面有更多的东西有待挖掘，比如，数据增广方法能够奏效的数据集，它们本身有什么特点？而数据增广收效甚微的数据集又有什么特点？这些都是这篇文章引出的问题和思考。

论文链接：

https://arxiv.org/abs/2010.01764

关注下方《学姐带你玩AI》

数据增广真有那么神奇吗？相关推荐

嵌入式AI —— 6. 为糖葫芦加糖，浅谈深度学习中的数据增广
没有读过本系列前几期文章的朋友,需要先回顾下已发表的文章: 开篇大吉集成AI模块到系统中模型的部署 CMSIS-NN介绍从穿糖葫芦到织深度神经网络又和大家见面了,上次本程序猿介绍了CMSIS- ...
常用数据增广方法，解决数据单一问题
Datawhale干货作者:陈信达,Datawhale优秀学习者寄语:本文将对传统图像算法的数据增广方式进行学习,以最常用的平移和旋转为例,帮助大家梳理几何变换的概念和应用,并对其在OpenCV的 ...
计算机视觉的数据增广技术大盘点！附涨点神器，已开源！
如果要把深度学习开发过程中几个环节按重要程度排个序的话,相信准备训练数据肯定能排在前几位.要知道一个模型网络被编写出来后,也只是一坨代码而已,和智能基本不沾边,它只有通过学习大量的数据,才能学会如何作 ...
谷歌简单粗暴“复制-粘贴”数据增广，刷新COCO目标检测与实例分割新高度
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达近日,谷歌.UC伯克利与康奈尔大学的研究人员公布了一篇论文 Sim ...
python ssd目标检测_【目标检测】SSD amp; pyramidbox数据增广
1.本文pyhton代码参考:DSFD数据增广,RandomBaiduCrop类的代码有重构,其他基本一致 2.标题图是用来数据增广的原图 SSD数据增广 SSD的数据增广堪称经典,论文中,使用数据增 ...
【深度学习】利用一些API进行图像数据增广
[深度学习]利用一些API进行图像数据增广文章目录 [深度学习]利用一些API进行图像数据增广 1 先送上一份最强的翻转代码(基于PIL) 2 Keras中的数据增强API种类概述 3 特征标准化 ...
深度学习之数据增广（包含源码及注释文件更改）
数据增广:平移,水平/垂直翻转,旋转,缩放,剪切,对比度,色彩抖动,噪声 #coding=utf-8 ################################################ ...
【深度学习】基于深度学习的数据增广技术一览
◎作者系极市原创作者计划特约作者Happy 周末在家无聊,偶然兴心想对CV领域常用的数据增广方法做个简单的调研与总结,重点是AI时代新兴的几种反响还不错的方法.各种第三方与官方实现代码等.那么今天由H ...
Mixup vs. SamplePairing：ICLR2018投稿论文的两种数据增广方式
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

数据增广真有那么神奇吗？

论文题目

摘要

结论

数据集

数据增广方法

模型

实验

评价

数据增广真有那么神奇吗？相关推荐

最新文章

热门文章