©PaperWeekly 原创 · 作者 | 王馨月

学校 | 四川大学本科生

研究方向 | 自然语言处理

概要

数据增强,即通过转换为机器学习人工创建训练数据,是跨机器学习学科广泛研究的研究领域。它不仅对于提高模型的泛化能力很有用,也可以解决许多其他挑战和问题,从克服有限数量的训练数据到规范目标到限制用于保护隐私的数据量。

基于对数据增强的目标和应用的精确描述以及对现有工作的分类,本篇综述关注用于文本分类的数据增强方法,旨在为研究人员和从业者提供简明而全面的概述。根据分类法,我们将 100 多种方法分为 12 个不同的组,并提供了最先进的参考资料,阐述了哪些方法非常有前途。最后,给出了可能构成未来工作基石的研究观点。

论文标题:

A Survey on Data Augmentation for Text Classification

论文链接:

https://arxiv.org/abs/2107.03158

引言

训练数据的增加并不总是导致学习问题的解决方案。尽管如此,数据对于监督分类器的质量仍然是决定性的。计算机视觉领域中就存在着许多不同的方法来人工创建此类数据,称为数据增强。对于图像,RGB 通道的旋转或变化等变换是合理的,这些模型应该是不变的。与计算机视觉类似,语音识别使用改变声音或速度的程序。相比之下,自然语言处理(NLP)中的数据增强研究难以为文本数据的转换建立通用的可以在保持标签质量的同时自动执行规则。这就是为什么尽管存在广泛的应用领域,在 2019 年之前该领域的研究还是十分有限。

如今,这一挑战仍然存在,但许多科学家正在不同的研究方向中解决。在这些方向中,遵循着各种目标,例如,为低数据制度生成更多数据、平衡不平衡的数据集类别或针对对抗性示例的安全性。

因此,文本数据增强有许多对比形式,在本次综述中进行了分组和解释。我们进行了深入分析,并尝试将这些方法与最先进的方法联系起来。由于迁移学习的兴起,这些方法面临着另一个挑战。

例如,Longpre 等人表明,许多数据增强方法在使用大型预训练语言模型时无法获得收益,因为它们本身已经对各种变换保持不变。他们假设数据增强方法只有在创建以前从未见过的新语言模式时才能真正有益。需要牢记,本综述以对方法的元视角结束。因此,本次调查追求以下方面的贡献:

  • 目标和应用:我们强调了从综合回顾中得出的数据增强的目标和应用。这些在以前的研究论文中仅在有限且不完整的程度上进行了介绍。

  • 分类法和分类:文本分类数据增强方法将根据高级分类法进行聚类,然后细分为更细粒度的组。这也存在于 Shorten 和 Khoshgoftaar 以及 Wen 等人的调查中,现在适用于文本分类领域。

  • 概述和深入细节:对文本数据增强方法以清晰的形式进行了解释,并提供了分隔和相互比较所需的细节。与其他作品相比,我们广泛的研究包含 12 个组,其中包含 100 多种不同的方法。

  • 最先进的综述:在文献调查中,我们试图检索最新的最先进的考虑因素,例如,使用大型预训练模型的文本数据增强方法的有限好处,这些在当前工作中经常被忽视的点。

  • 未来的研究前景。我们确定了未来的研究机会,这些机会要么是SOTA的比较所必需的,要么是由于当前文本数据增强的挑战所需要的研究机会。

数据增强方法分类

如图,是不同数据增强方法的分类和分组:

用于文本分类的的数据增强方法集合

如图,是一些最先进的文本分类数据增强技术的集合:

总结

这篇综述概述了适用于文本领域的数据增强方法。数据增强有助于实现许多目标,包括正则化、最小化标签工作、降低敏感领域中真实世界数据的使用、平衡不平衡的数据集以及提高对抗对抗性攻击的鲁棒性。在高层次上,数据增强方法分为应用于特征空间和数据空间的方法。然后将这些方法细分为更细粒度的组,从噪声诱导到全新实例的生成。

此外,我们提出了几个与未来工作相关的有前景的研究方向。尤其是在这方面,需要对当前技术水平进行全面了解。例如,随着迁移学习方法的使用越来越多,一些数据增强方法已经过时,因为它们遵循类似的目标。因此,需要更复杂的方法,例如 Longpre 等人所建议的那样,引入在预训练期间未见过的新语言模式。

虽然数据增强得到越来越多的研究并且非常有前途,但它也有一些局限性。例如,许多数据增强方法只有在原始数据量足够大的情况下才能创建高质量的增强数据。此外,就像 Shorten 和 Khoshgoftaar 描述的那样,数据增强无法涵盖所有转换可能性并消除原始数据中的所有类型的偏差。

以 Shorten 和 Khoshgoftaar 的例子为例,在没有包含体育文章的新闻分类任务中,标准数据增强方法肯定也不会创建体育文章,即使这是必要的。相比之下,数据增强可能会导致新的不良偏差。例如,像 GPT-2 这样的语言模型可以包含偏差,然后将偏差传播到数据集中。各种各样的技术和一些非常复杂的方法也带来了另一层需要理解的复杂性。

此外,数据增强可能需要大量时间,因此并非所有方法都适用于时间关键的机器学习开发领域,例如,在危机信息学的某些领域。随着数据增强,也需要更多资源,尤其是在训练生成模型的背景下。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

???? 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

最新综述:用于文本分类的数据增强方法相关推荐

  1. 201912一种改进动物音频分类的数据增强方法

    Data augmentation approaches for improving animal audio classification 标题:一种改进动物音频分类的数据增强方法 作者: Lori ...

  2. 6个你应该用用看的用于文本分类的最新开源预训练模型 忆臻

    作者:PURVA HUILGOL 编译:ronghuaiyang (AI公园) 原文链接: 6个你应该用用看的用于文本分类的最新开源预训练模型​mp.weixin.qq.com 导读 文本分类是NLP ...

  3. 【ACL 2022】Text Smoothing:针对文本分类任务的数据增强方法

    文章目录 1.前言 2.详细过程 3.实验 4.总结 1.前言 数据增强一直都是 CV.NLP 领域广泛应用的技术,尤其是在数据资源极少的情况下.简单来说,就是扩充训练集的规模来缓解过拟合的问题,提高 ...

  4. 一篇就够!数据增强方法综述

    作者 | 太子长琴 整理 | NewBeeNLP 数据增强(Data Augmentation, DA)缓解了深度学习中数据不足的场景,在图像领域首先得到广泛使用,进而延伸到 NLP 领域,并在许多任 ...

  5. 基于图像的数据增强方法发展现状综述

    基于图像的数据增强方法发展现状综述 人工智能技术与咨询 2022-03-22 20:57 点击蓝字 · 关注我们 来源:< 计算机科学与应用> ,作者冯晓硕等 关键词: 数据增强:图像数据 ...

  6. 【NLP】6种用于文本分类的开源预训练模型

    来源 | PURVA HUILGOL 编译 | VK 作者 | Analytics Vidhya [导读]我们正站在语言和机器的交汇处,这个话题我很感兴趣.机器能像莎士比亚一样写作吗?机器能提高我自己 ...

  7. 文本摘要常用数据集和方法研究综述

    [1]侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(05):1-16. 文章目录 LCSTS 数据集定义 NLPCC 数据集定义 自建数据集及其对应方法 ...

  8. 六种用于文本分类的开源预训练模型

    作者|PURVA HUILGOL 编译|VK 来源|Analytics Vidhya 介绍 我们正站在语言和机器的交汇处,这个话题我很感兴趣.机器能像莎士比亚一样写作吗?机器能提高我自己的写作能力吗? ...

  9. NLP中的数据增强方法综述

    论文链接:A Survey of Data Augmentation Approaches for NLP 摘要 由于越来越多的研究在低资源领域.新任务和需要大量训练数据的大规模神经网络中,NLP中的 ...

最新文章

  1. matlab拟合未定义函数或变量,关于matlab的未定义函数或变量的问题
  2. ASP.NET 父页面取子页面的值
  3. 近期北京动点软件发现XXX公司盗用我公司WPF项目案例
  4. 常见的排序算法(1)
  5. escape、encodeURI 、encodeURIComponent 编码与解码
  6. c#开发-基础知识及有用技巧(一)
  7. Jeecg 切换默认首页方法
  8. Hadoop Hive概念学习系列之HDFS、Hive、MySQL、Sqoop之间的数据导入导出(强烈建议去看)(十八)...
  9. React Portals与Error Boundaries
  10. java excel添加公式_Java添加、读取Excel公式
  11. 前端每周清单第 39 期: OpenAI 与 gRPC, Gitlab 的 Vue 年度总结,GraphQL 技术栈漫游
  12. python—itertools模块常用函数
  13. Hadoop上传文件到HDFS失败
  14. 调试网页PAIP HTML的调试与分析工具
  15. psp记忆棒测试软件,psp记忆棒修复工具
  16. java linux 时间戳转时间_java算法unix时间戳转换(java算法)
  17. 微信小程序如何引用阿里icon字体
  18. Java发送mail报错“java.util.ServiceConfigurationError: com.sun.mail.imap.IMAPProvider not a subtype”
  19. 蓝牙抓包工具使用教程
  20. OSChina 周四乱弹 —— 月中发工资还没到家……

热门文章

  1. 有什么办法动态更改yml的值吗_基于Redis实现Spring Cloud Gateway的动态管理
  2. Android之使用AchartEngineActivity引擎绘制柱状图、曲线图
  3. String类为什么是final的
  4. Hadoop源码解读系列目录
  5. 错误提示 - QQMGameBoxUpdater 无法找到入口(GetFileVersionInfoExW)
  6. 当singleton Bean依赖propotype Bean,可以使用在配置Bean添加look-method来解决
  7. JSON 分析数据格式
  8. 让Vs2013 完美支持EF6.1 Code First with Oracle 2015年12月24日更新
  9. [SPOJ] 1043 Can you answer these queries I [GSS1]
  10. mysql调用函数可以打断点吗_糖尿病人可以吃杂粮粥吗?不用纠结,注意2点即可...