数据增广真有那么神奇吗?
作者:皮皮雷 来源:投稿
编辑:学姐
论文题目
How Effective is Task-Agnostic Data Augmentation for Pretrained Transformers?
论文作者
S. Longpre, Y. Wang, and C. DuBois
论文发表于
2020 EMNLP findings
摘要
任务无关的数据增广(DA)在NLP中运用广泛,尤其是在数据稀少的情况下、或者在下游任务中接非预训练模型(如LSTM,CNN)效果显著。有时候,下游任务接预训练语言模型(如BERT)也会有所提升。
论文提出的问题是:
当DA运用在预训练语言模型上,到底有多少效果?
论文使用两种常规的数据增广方法:
Easy Data Augmentation (EDA) (Wei and Zou, 2019) 和回译(Sennrich et al., 2015),在6个数据集、5种分类任务(情感分类SST2,RT、主观性SUBJ、问题类型TREC、句子相似STS-B、推理MNLI)、3个预训练语言模型(BERT, XL-NET, and ROBERTA)上比较DA的效果。
结果发现,尽管前人实验证实DA方法在非预训练语言模型上效果显著,但是不适用于预训练语言模型,哪怕是在数据稀少的情况下。
结论
在用PLM做文本分类时,增广手段不能起到提升作用。推测是因为PLM在预训练过程中已经拥有较多的语言知识(无需再次增强)。
数据集
·情感分类 SST2, RT·主观性 SUBJ·问题分类 TREC·句子相似 STS-B·推理 MNLI
用于测试的数据: 在这些数据集的测试集中随机抽取1000条。
训练数据大小: N ∈ {500, 1000, 2000, 3000, Full},以模拟在数据稀疏情况下的表现
数据增广方法
1.Back Translation (回译) : 英语 → 德语
英语1句的德语翻译,再翻回6句不同的英语,取6句话中与原文编辑距离最长的。
目的:最大限度增加语言的丰富程度(linguistic variety)
2.Easy Data Augmentation (EDA) 包括同义词替换、随机交换词语顺序、随机插入和删除词语
变量:数据增广的总量,设置参数τ ∈ {0.5, 1, 1.5, 2}. N ×τ 是增广的数据量。
模型
研究者测试了3种预训练语言模型在数据增广下的表现。
BERT-BASE
XLNET-BASE
ROBERTA-BASE
实验
先调参:对于每一种数据增广策略(不增广、回译、EDA)分别调参,采用30次随机搜索方法调参,确保模型发挥较好的效果。
实验数据发现数据增广的方法收效甚微。研究者接下来讨论产生这种情况的原因。
讨论:为什么数据增广的策略没有效果?
现象1:数据增广对BERT的增益比另外两个模型大。而且BERT的预训练数据量相对了另外两个模型小。所以推测预训练过程达到了和数据增广相似的效果。
研究者建议:数据增广可以增加任务相关语料的语言学丰富度,尤其是当预训练不足够的时候。
现象2:RT情感分类数据集中,少见的、别出心裁的表达构成了很多难例(如“wishy-washy”),模型较难归纳出这些词所属的情感类别。在这些难例上,预训练模型做对了,而LSTM没做对。
这些结果表明数据增广和预训练都提高了模型处理复杂语言结构、歧义词和标签类别中未出现的词语的能力。
评价
在竞赛中,我们常常看到数据增广的方法能够提分,而且提分不少,因此数据增广被当做一个有口皆碑的刷分利器。而这篇Apple公司的论文正是关注数据增广在预训练模型上的表现,做了一系列的实验,结果却和我们以前的认知大相径庭。
这是为什么呢?在读的过程中我也意识到了一些问题。比如,分类效果没有提升,是因为总数据量的增加导致的?还是数据增广方法的应用导致的?如果把这个变量分离出来做比较,可能会更有说服力一些。
而且,在我们的经验中,数据增广方法在一些数据集上有神奇的效果、在另一些上没有,这也是符合“no free lunch”定律的:天下没有一种普适的模型和算法能一下找到所有问题的最优解。
不过这篇论文的优点在于提出的问题非常基础、有建设性。相信里面有更多的东西有待挖掘,比如,数据增广方法能够奏效的数据集,它们本身有什么特点?而数据增广收效甚微的数据集又有什么特点?这些都是这篇文章引出的问题和思考。
论文链接:
https://arxiv.org/abs/2010.01764
关注下方《学姐带你玩AI》
数据增广真有那么神奇吗?相关推荐
- 嵌入式AI —— 6. 为糖葫芦加糖,浅谈深度学习中的数据增广
没有读过本系列前几期文章的朋友,需要先回顾下已发表的文章: 开篇大吉 集成AI模块到系统中 模型的部署 CMSIS-NN介绍 从穿糖葫芦到织深度神经网络 又和大家见面了,上次本程序猿介绍了CMSIS- ...
- 常用数据增广方法,解决数据单一问题
Datawhale干货 作者:陈信达,Datawhale优秀学习者 寄语:本文将对传统图像算法的数据增广方式进行学习,以最常用的平移和旋转为例,帮助大家梳理几何变换的概念和应用,并对其在OpenCV的 ...
- 计算机视觉的数据增广技术大盘点!附涨点神器,已开源!
如果要把深度学习开发过程中几个环节按重要程度排个序的话,相信准备训练数据肯定能排在前几位.要知道一个模型网络被编写出来后,也只是一坨代码而已,和智能基本不沾边,它只有通过学习大量的数据,才能学会如何作 ...
- 谷歌简单粗暴“复制-粘贴”数据增广,刷新COCO目标检测与实例分割新高度
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 近日,谷歌.UC伯克利与康奈尔大学的研究人员公布了一篇论文 Sim ...
- python ssd目标检测_【目标检测】SSD amp; pyramidbox数据增广
1.本文pyhton代码参考:DSFD数据增广,RandomBaiduCrop类的代码有重构,其他基本一致 2.标题图是用来数据增广的原图 SSD数据增广 SSD的数据增广堪称经典,论文中,使用数据增 ...
- 【深度学习】利用一些API进行图像数据增广
[深度学习]利用一些API进行图像数据增广 文章目录 [深度学习]利用一些API进行图像数据增广 1 先送上一份最强的翻转代码(基于PIL) 2 Keras中的数据增强API种类概述 3 特征标准化 ...
- 深度学习 之 数据增广(包含源码及注释文件更改)
数据增广:平移,水平/垂直翻转,旋转,缩放,剪切,对比度,色彩抖动,噪声 #coding=utf-8 ################################################ ...
- 【深度学习】基于深度学习的数据增广技术一览
◎作者系极市原创作者计划特约作者Happy 周末在家无聊,偶然兴心想对CV领域常用的数据增广方法做个简单的调研与总结,重点是AI时代新兴的几种反响还不错的方法.各种第三方与官方实现代码等.那么今天由H ...
- Mixup vs. SamplePairing:ICLR2018投稿论文的两种数据增广方式
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
最新文章
- Invalid indirect reference 0x28 in decodeIndirectR
- 数字货币HD钱包 BIP32、BIP44、BIP39 简介
- Android中Activity启动模式详解
- IIS7报“假”正式版随Server 2008发布
- 兰州交通大学计算机科学与技术学院,兰州交通大学计算机科学与技术
- 关于字符串截取的函数
- 给 Android 研发的一些的建议
- 闽南师范大学计算机学院研究生,闽南师范大学计算机学院2019考研调剂信息
- sql 求相交的行_SQL相交
- 换IP的几种常见方法
- 使用wget下载整个网站
- 微信小程序ui布局常用技巧
- 土木保研可以跨计算机专业吗,本科土木跨考计算机专业研究生可行吗?本科土木跨考计算机专业研...
- 【应届生必看】技术岗面试应答有哪些话术和技巧?
- 第十次ccf 分蛋糕
- 【C语言】计算圆周长以及面积
- java基于ssm的自助旅游管理系统
- 使用iframe时候调用钉钉要注意啦!
- 数字图像的获取(摘记,非原创)
- Inno setup 打包教程
热门文章
- 反射型XSS攻击原理
- 安装Ubuntu14.04系统简易教程(使用rufus-3.1)
- 常见的Eclipse排版设置
- excel基础知识大全_24套广联达算量计价软件操作合集丨施工资料+170个建筑excel模板...
- 大厂直通车【C认证】踵磅来袭
- 优麒麟linux安装教程,百度网盘Linux版安装指引:搭配优麒麟运行更完美
- IDEA换主题白色,调整字体样式大小,设置背景豆沙绿
- RFC3261 SIP协议---- invite
- es倒排索引和mysql索引的_【漫画】ES原理 必知必会的倒排索引和分词
- uClinux编译方法(uClinux-dist-20041215.tar.gz+S3C44B0X)