Raki的读paper小记:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification
Abstract & Introduction & Related Work
- 研究任务
NLP数据增强 - 已有方法和相关工作
- 将句子翻译成法语再翻译回英语
- 面临挑战
- NLP中的通用数据增强技术还没有被彻底探索过
- 相关工作具有创造性,但往往很复杂,它们在实践中不常被使用,因为相对于性能增益而言,它们的实施成本很高
- 创新思路
使用四种方法进行数据增强:同义词替换、随机插入、随机互换和随机删除 - 实验结论
在五个数据集上使用一半的数据达到了之前用全部数据同样的准确率
EDA
- 同义词替换:随机从句子里面选取n个不是停用词的词,随机选择一个它们的同义词
- 随机插入:在句子中随机找到一个非停止词的同义词。将该同义词插入句子中的一个随机位置。这样做n次
- 随机互换:随机选择句子中的两个词并交换它们的位置。这样做n次
- 随机删除:以概率p随机删除句子中的每个词
由于长句比短句有更多的词,它们可以吸收更多的噪音,同时保持它们原来的类别标签。为了补偿,我们根据句子的长度 lll 来改变 SR、RISR、RISR、RI 和 RSRSRS 的单词数量n,公式为 n=αln=αln=αl,其中 ααα 是一个参数,表示一个句子中单词被改变的百分比(我们对RD使用p=α)。此外,对于每一个原始句子,我们都会生成一个增强的句子。表1中显示了增强的句子的例子。我们注意到,同义词替换以前也被使用过(Kolomiyets等人,2011;Zhang等人,2015;Wang和Yang,2015),但就我们所知,随机插入、交换和删除还没有被广泛研究过
Experimental Setup
Benchmark Datasets
Text Classification Models
模型选用LSTM和CNN文本分类模型
Results
Does EDA conserve true labels?
在数据扩增中,输入数据被改变,而类别标签保持不变。然而,如果句子被大大改变,那么原来的类标签可能就不再有效。我们采取了一种可视化的方法来检查EDA操作是否明显改变了增强的句子的含义。首先,我们在没有增强的情况下,在亲缘分类任务(PC)上训练一个RNN。然后,我们将EDA应用于测试集,为每个原始句子生成九个增强的句子。这些句子与原始句子一起被送入RNN,我们从最后的密集层中提取输出。我们对这些向量应用t-SNE(Van Der Maaten,2014),并绘制其二维表示(图2)。我们发现,增强后的句子的潜空间表征与原始句子的潜空间表征密切相关,这表明在大多数情况下,用EDA增强的句子保留了其原始句子的标签
How much augmentation
下一步自然是确定每个原始句子所生成的增强句子的数量(naugn_{aug}naug)如何影响性能。在图4中,我们显示了 naugn_{aug}naug = {1,2,4,8,16,32}\{1, 2, 4, 8, 16, 32\}{1,2,4,8,16,32}的所有数据集的平均性能。对于较小的训练集,过拟合的可能性较大,因此生成许多增强的句子会产生较大的性能提升。对于较大的训练集,每个原始句子增加四个以上的增强句子是无益的,因为当大量的真实数据可用时,模型倾向于适当的概括。基于这些结果,我们建议使用表3中的参数
Comparison with Related Work
EDA既不需要训练语言模型,也不需要使用额外的数据
Discussion and Limitations
我们的论文旨在解决NLP中缺乏标准化数据增强的问题(与视觉相比),介绍了一套简单的操作,可能作为未来调查的基线。随着近年来NLP研究的进展速度,我们猜测研究人员很快就会找到性能更高的增强技术,而且也会很容易使用。
值得注意的是,最近在NLP方面的许多工作都集中在使神经模型更大或更复杂。然而,我们的工作则采取了相反的方法。我们引入了简单的操作,这是提出基本问题的结果,即我们如何才能在不改变句子的真实标签的情况下生成用于扩增的句子?
我们并不期望EDA成为NLP的首选增强方法,无论是现在还是将来。相反,我们希望我们的思路可能会给通用或特定任务的数据扩增带来新的方法。
现在,让我们注意一下EDA的许多限制。最重要的是,在数据充足的情况下,性能增益可能是微不足道的;对于我们的五个分类任务,在用完整的数据集训练时,平均性能增益不到1%。虽然小数据集的性能增益似乎很明显,但EDA在使用预训练的模型时可能不会产生实质性的改进。一项研究发现,在使用ULMFit时,EDA的改进可以忽略不计(Shleifer,2019),我们预计ELMo(Peters等人,2018)和BERT(Devlin等人,2018)的结果也类似。最后,尽管我们在五个基准数据集上进行了评估,但其他关于NLP中的数据增强的研究使用了不同的模型和数据集,因此与相关工作的公平比较是非常不简单的
Conclusions
我们已经证明,简单的数据增强操作可以提高文本分类任务的性能。尽管改进有时是微不足道的,但EDA大大提升了性能,并减少了在较小数据集上训练时的过拟合。关于这个主题的继续工作可以探索EDA操作的理论基础。我们希望EDA的简单性能够为进一步的思考提供一个令人信服的理由
Remark
NLP竞赛里常用的数据增强,简单好用
Raki的读paper小记:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification相关推荐
- Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)
Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...
- Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务 基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战 基于判别模型的预训练模型的f ...
- Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...
- Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务 多模式预训练的统一范式 包括图像生成.visual-grounding(visual grounding ...
- Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务 用子网络做CL 已有方法和相关工作 彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
- Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作 面临挑战 创新思路 利用持续学习过程中的持续稀 ...
- Data Augmentation techniques in time series domain: A survey and taxonomy
本文是对<Data Augmentation techniques in time series domain: A survey and taxonomy>的翻译. 时间序列域的数据增强 ...
- Stetman读paper小记:ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
- Use Data Caching Techniques to Boost Performance and Ensure Synchronization(转)
原文地址 Level of Difficulty 1 2 3 SUMMARY Performance is an important concern for any application, but ...
- Stetman读paper小记:BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要 这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
最新文章
- APUE(第三章)文件IO
- Make GNN Great Again:图神经网络上的预训练和自监督学习
- python语言程序设计基础第二版第六章答案-Python语言程序设计基础(第2版) 课后题 第六章...
- TensorFlow example示例 Process finished with exit code -1073741819 (0xC0000005)
- 【广告】我妹妹导演的毕设——数字传媒摄影作品
- ASP.NET企业开发框架IsLine FrameWork系列之十一--HttpContentProvider 访问缓存
- useful websites for constructing your own website
- mysql中创建表并添加约束_创建表并添加约束
- 工业大数据分析平台有哪些价值
- java day37【web相关概念回顾 、web服务器软件:Tomcat 、Servlet入门学习】
- Android Studio个人所得税首页布局制作
- 学习周刊-2021年第19周
- 如何批量将 Excel 文档转为 Xps 格式
- 市面上有哪些程序化软件?
- 阿里铁军幕后推手邓康明:核心团队是剩出来的,不是选出来的
- Jenkins 自动构建之日程表配置
- 2022年度总结与2023未来规划
- 自动清理内存linux,linux 过滤内存使用率并于计划任务结合来自动清理内存缓存...
- 如何成为数据分析师系列(二):可视化图表进阶
- 简化 java.lang.Long 类的源码
热门文章
- .NET 2.0 的压缩功能
- linux命令比较命令,Linux命令 比较文件
- exe文件打不开应该怎么办?
- 中国石油大学c语言程序设计答案,中国石油大学《C语言程序设计》期末复习题和答案.doc...
- 前端-----小米商城模块练习
- C程序设计--指针(用“ 函数 ”对“ 数组 ” 进行操作)
- 能运行c语言的最便宜电脑配置,低配置电脑流畅运行Win7的技巧
- 关于python的文章_关于python的一篇介绍文章
- java byte转integer_Java 八大基本数据
- 【UVA1599】Ideal Path理想路径--两种约束条件(!!双向bfs+非简单图的最短路+无向图邻接记录法)