做图像的同学都知道图像的数据扩充可以带来巨大的提升,包括:

  • 裁剪、旋转、缩放等等。

那么在NLP中都有哪些数据扩充的策略呢?

这个很简单,就是替换文中的某些词汇,而不改变文本原由的意思。一般的操作是:

  • 我们从句子中随机抽取一个或者多个单词,使用同义词对其进行替换。在英语中,常用的有WordNet等英语数据库来查找同义词。

词Embedding替换的策略和近义词有些类似,直接计算词embedding的距离,然后用距离最近的N个词的embedding进行替换。该策略在TinyBert等论文中有提及。

BERT、ROBERTA和ALBERT等模型已经在大量的文本上进行了训练,我们可以使用其进行文本的扩充,随机Mask个文本中的某个单词,然后使用模型对其进行预测。

使用MLM的好坏取决于Mask的Mask的质量。

该策略的思路是先将原先的文本转化为其它回家的语义,然后再转化回来得到新的重新翻译之后的文本。该策略经常在一些小数据集的文本上被使用。

该转换的策略也非常简单,例如下面的就是She's ——> She has.

我们将拼写错误添加到句子中的一些随机词中。这些拼写错误可以通过编程方式添加,也可以使用常见拼写错误的映射。

QWERTY键盘错误注入是直接模拟键盘输入出错的策略,

该方法由Xie等人在他们的论文中提出。这种思想是使用占位符标记替换随机单词。论文使用“_”作为占位符标记。

句子Shuffliing的策略就是对整个句子进行shuffle,切换句子的位置。

该策略是Luque在关于TASS2019情感分析的论文中介绍的,例如在tweet的文本情感中,一个tweet被分成两半,并且具有相同标签(正/负)的两个随机tweet被随机分开。假设是,即使结果不符合语法和语义,新的文本仍然会保留相同的情感。

十大NLP数据扩充策略

NLP十大数据扩充策略相关推荐

  1. NLP十大Baseline论文简述(一) - Word2vec

    文章目录 前言: 目录 1. Paper: 2.论文摘要: 3. 论文介绍: 4. 论文原理 4.1 CBOW模型: 4.2 Skip-gram模型: 4.3 降低复杂度 - Hierachical ...

  2. 2021年全球十大数据安全事件

    点击"终码一生",关注,置顶公众号 每日技术干货,第一时间送达! 2021年,数据隐私泄露事件频发,涉及面广,影响力大,企业因此陷入数据保护合规与社会舆情压力的双重危机.近日,有国 ...

  3. 全球十大数据安全事件

    2021年,数据隐私泄露事件频发,涉及面广,影响力大,企业因此陷入数据保护合规与社会舆情压力的双重危机.近日,有国外媒体梳理了2021年十大数据泄密事件,并对事件进行了点评分析,可供读者参考.据数据统 ...

  4. 十大数据爱好者必备书籍

    十大数据爱好者必备书籍 转载请注明! 这是一个独一无二的书籍前十推荐,对每个十大推荐展示出顶级付费或免费书籍推荐.如果你对数据书籍感兴趣,这个列表可能合你口味. Matthew Mayo 发表于 KD ...

  5. PPT下载 | 中国联通5G部署十大挑战及策略探讨

    今天,我们分享一份来自华为5G营销专家李春林的PPT--<中国联通5G部署十大挑战及策略探讨>,讲述了中国联通5G部署所面临业务.终端.覆盖.语音.站点.TCO.承载网.核心网.运营和人才 ...

  6. Gartner:2019年十大数据与分析技术趋势

    来源:网络大数据 近日,全球领先的信息技术研究和顾问公司Gartner指出,增强型分析(augmented analytics).持续型智能(continuous intelligence)与可解释型 ...

  7. 一文读懂十大数据存储加密技术

    数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出.密码技术,是实现数据安全最经济.最有效.最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环境中实现对数据的强访问控制, ...

  8. 【大数据】大数据企业策略与法则

    对企业而言,大数据实质上是一种管理思维,其支点在于业务信息资源与社交媒体的融合,以及内外部数据的融合,在这样的支点上反思企业的组织形态.运作范式和价值创造模式,是"大数据企业"的真 ...

  9. 【风控策略】大数据风控策略逻辑

    从现金贷平台方面来看,一是完善大数据体系和风控模型,放款给那些急需用钱的人,需要快速判断用户画像,需要很强的大数据和风控模型来做支撑.二是准确评估用户属性,产品定价回归理性.筛选出相对优质的客户群体, ...

最新文章

  1. MyBatis常规CURD详解及拓展~
  2. python装饰器作用-理解python中的装饰器
  3. 【机器学习PAI实践四】如何实现金融风控
  4. ASP.NET AJAX入门系列(9):在母版页中使用UpdatePanel
  5. 一群人围成一圈从123报数,如果报到3就退出该圈中,直到最后一个人留下来!...
  6. Apache Rewrite伪静态基本及URL跳转
  7. 剑指offer - 二维数组中的查找
  8. tomcat-内存溢出java.lang.OutOfMemoryErrory:PermGen space解决方法
  9. java 3d文字旋转_3d多物体点旋转
  10. 以ASK调制解调为例观察采样与成型滤波的MATLAB仿真
  11. ug浩强工具有什么作用_ug浩强工具 v2.45 官方版
  12. matlab egarch,EGARCH模型参数的拟蒙特卡洛估计方法及其在股票指数上的应用
  13. ios Reading from private effective user settings
  14. 计算机内存不足提示栻框,【计算机】CIMS概论6.ppt
  15. 双硬盘SSD+HDD+ win10装双系统Ubuntu16.04
  16. SSH-keygen linux教程
  17. 终极算法——第一章:机器学习的革命
  18. 【译文】如何培养自信的习惯(How to Bulid the Confidence Habit)
  19. 目前应用最多的四种制图软件!
  20. UVa 12563 Jin Ge Jin Qu hao(01背包)

热门文章

  1. Normalization,Regularization 和 standardization
  2. 关于异步IO与同步IO的写操作区别
  3. 2.异步回调检测线程结束
  4. sqlserver计算时间差DATEDIFF 函数
  5. JSBing-js自动绑定C++
  6. Linux 学习笔记之超详细基础linux命令 Part 3
  7. songbirds for ubuntu 12.10
  8. DataSet操作数据库
  9. 如何采集病变脏器照片和处理图像?
  10. 箱线图怎么判断异常值_箱形图(Box-plot)识别异常值,是否有数据依据?还是经验法则?...