Abstract & Introduction & Related Work

研究任务
NLP数据增强
已有方法和相关工作
- 将句子翻译成法语再翻译回英语
面临挑战
- NLP中的通用数据增强技术还没有被彻底探索过
- 相关工作具有创造性，但往往很复杂，它们在实践中不常被使用，因为相对于性能增益而言，它们的实施成本很高
创新思路
使用四种方法进行数据增强：同义词替换、随机插入、随机互换和随机删除
实验结论
在五个数据集上使用一半的数据达到了之前用全部数据同样的准确率

EDA

同义词替换：随机从句子里面选取n个不是停用词的词，随机选择一个它们的同义词
随机插入：在句子中随机找到一个非停止词的同义词。将该同义词插入句子中的一个随机位置。这样做n次
随机互换：随机选择句子中的两个词并交换它们的位置。这样做n次
随机删除：以概率p随机删除句子中的每个词

由于长句比短句有更多的词，它们可以吸收更多的噪音，同时保持它们原来的类别标签。为了补偿，我们根据句子的长度 lll 来改变 SR、RISR、RISR、RI 和 RSRSRS 的单词数量n，公式为 n=αln=αln=αl，其中 ααα 是一个参数，表示一个句子中单词被改变的百分比（我们对RD使用p=α）。此外，对于每一个原始句子，我们都会生成一个增强的句子。表1中显示了增强的句子的例子。我们注意到，同义词替换以前也被使用过（Kolomiyets等人，2011；Zhang等人，2015；Wang和Yang，2015），但就我们所知，随机插入、交换和删除还没有被广泛研究过

Experimental Setup

Benchmark Datasets

Text Classification Models

模型选用LSTM和CNN文本分类模型

Results

Does EDA conserve true labels?

在数据扩增中，输入数据被改变，而类别标签保持不变。然而，如果句子被大大改变，那么原来的类标签可能就不再有效。我们采取了一种可视化的方法来检查EDA操作是否明显改变了增强的句子的含义。首先，我们在没有增强的情况下，在亲缘分类任务（PC）上训练一个RNN。然后，我们将EDA应用于测试集，为每个原始句子生成九个增强的句子。这些句子与原始句子一起被送入RNN，我们从最后的密集层中提取输出。我们对这些向量应用t-SNE（Van Der Maaten，2014），并绘制其二维表示（图2）。我们发现，增强后的句子的潜空间表征与原始句子的潜空间表征密切相关，这表明在大多数情况下，用EDA增强的句子保留了其原始句子的标签

How much augmentation

下一步自然是确定每个原始句子所生成的增强句子的数量（naugn_{aug}naug）如何影响性能。在图4中，我们显示了 naugn_{aug}naug = {1,2,4,8,16,32}\{1, 2, 4, 8, 16, 32\}{1,2,4,8,16,32}的所有数据集的平均性能。对于较小的训练集，过拟合的可能性较大，因此生成许多增强的句子会产生较大的性能提升。对于较大的训练集，每个原始句子增加四个以上的增强句子是无益的，因为当大量的真实数据可用时，模型倾向于适当的概括。基于这些结果，我们建议使用表3中的参数

Comparison with Related Work

EDA既不需要训练语言模型，也不需要使用额外的数据

Discussion and Limitations

我们的论文旨在解决NLP中缺乏标准化数据增强的问题（与视觉相比），介绍了一套简单的操作，可能作为未来调查的基线。随着近年来NLP研究的进展速度，我们猜测研究人员很快就会找到性能更高的增强技术，而且也会很容易使用。

值得注意的是，最近在NLP方面的许多工作都集中在使神经模型更大或更复杂。然而，我们的工作则采取了相反的方法。我们引入了简单的操作，这是提出基本问题的结果，即我们如何才能在不改变句子的真实标签的情况下生成用于扩增的句子？

我们并不期望EDA成为NLP的首选增强方法，无论是现在还是将来。相反，我们希望我们的思路可能会给通用或特定任务的数据扩增带来新的方法。

现在，让我们注意一下EDA的许多限制。最重要的是，在数据充足的情况下，性能增益可能是微不足道的；对于我们的五个分类任务，在用完整的数据集训练时，平均性能增益不到1%。虽然小数据集的性能增益似乎很明显，但EDA在使用预训练的模型时可能不会产生实质性的改进。一项研究发现，在使用ULMFit时，EDA的改进可以忽略不计（Shleifer，2019），我们预计ELMo（Peters等人，2018）和BERT（Devlin等人，2018）的结果也类似。最后，尽管我们在五个基准数据集上进行了评估，但其他关于NLP中的数据增强的研究使用了不同的模型和数据集，因此与相关工作的公平比较是非常不简单的

Conclusions

我们已经证明，简单的数据增强操作可以提高文本分类任务的性能。尽管改进有时是微不足道的，但EDA大大提升了性能，并减少了在较小数据集上训练时的过拟合。关于这个主题的继续工作可以探索EDA操作的理论基础。我们希望EDA的简单性能够为进一步的思考提供一个令人信服的理由

Remark

NLP竞赛里常用的数据增强，简单好用

Raki的读paper小记：EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification相关推荐

Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）
Abstract & Introduction & Related Work 研究任务无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptat ...
Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战基于判别模型的预训练模型的f ...
Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务语言+视觉模态预训练任务已有方法和相关工作 masked data已经成为一种主流面临挑战现有的多 ...
Raki的读paper小记：OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务多模式预训练的统一范式包括图像生成.visual-grounding(visual grounding ...
Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务用子网络做CL 已有方法和相关工作彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
Raki的读paper小记：Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作面临挑战创新思路利用持续学习过程中的持续稀 ...
Data Augmentation techniques in time series domain: A survey and taxonomy
本文是对<Data Augmentation techniques in time series domain: A survey and taxonomy>的翻译. 时间序列域的数据增强 ...
Stetman读paper小记：ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
Use Data Caching Techniques to Boost Performance and Ensure Synchronization(转）
原文地址 Level of Difficulty 1 2 3 SUMMARY Performance is an important concern for any application, but ...
Stetman读paper小记：BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...

Raki的读paper小记：EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification