文本数据增强二（EDA、同义词替换-新增-交换-删除-生成同义句）

一.中文文本数据增强

（中文、同义句生成、enhance、augment、text、data、nlp、样本不均衡、语料不够、数据不足、扩充增加），相较于图片，中文文本数据强的效果似乎没那么靠谱（效果没那么好），也更加困难，但是捏，很多时候，使用中文文本数据增强还是很有必要的，尤其是项目初期语料不够（估计只能手工构建），或者是样本严重不均衡的情况（比如说分类中一个类有200条数据，另外一个类有100万条数据）。

这个时候，我们就需要使用中文文本数据增强了，通俗的说，也可理解成同义句生成。看见过paperweekly上的一篇论文介绍，说中文文本的语序不是那么重要，如果存在部分词语顺序错误、错别字，人类也能get这句话是什么意思，比如说“大漠帝国并不是一个历史上存在的国度，人类在实真的史历上没有录记，这是真的。”一眼看去，我们就能识别这句话什么意思，少部分语序错误我们也能够区分。

又比如如果遮挡住，一句话的小半边或者是一半，我们依旧可以理解它们。

所以，在分类、阅读理解、对话系统、检索......大多数领域，是可以容忍噪声的，我们引入同义句，也是有一定道理的。

二.同义词方案

记得有一篇分类augment论文《Easy data augmentation techniques for boosting performance on text classification tasks》，

paper地址是: https://arxiv.org/abs/1901.11196

github实现是: https://github.com/jasonwei20/eda_nlp

主要还是对英文语料进行词语操作，替换（用同义词替换文本中的部分词语，这个很容易想得到的）、删除（删除一个词语可以理解吧，这个也容易想到）、插入（即随机选择一个原句的词语的同义词插入，这个确实没想到，感觉比较赏心悦目）、交换（随机抽取词语交换顺序，这也很有意思）。

EDA对不同模型的提升:

EDA对分类准确率的提升:

EDA四个方法的效果:

EDA的增强比率:

虽然看起来效果不明显，但也聊胜于无吧，尤其是分类训练语料少的时候，比如说几十条数据，想想都让人绝望呀。

三、中文实现:

相信这个算法很容易理解，自己的中文版在初始版本的基础上加了一些过滤，同时调高了同义词替换、同义词插入的权重。

github的实现在: https://github.com/yongzhuo/nlp_xiaojiang/blob/master/AugmentText/augment_eda/enhance_eda.py

初始版本在: https://github.com/zhanlaoban/eda_nlp_for_Chinese

四. 改进:

1. 同义词获取的方案，除了那个Synonyms，你也可以用自己的，或者公开的词向量模型，获取最相似的。

希望对你有所帮助！

文本数据增强二（EDA、同义词替换-新增-交换-删除-生成同义句）相关推荐

文本数据增强（EDA、同义词替换-新增-交换-删除-生成同义句）
在中文数据少的情况下,可以尝试做数据增强,进行同义词替换-新增-交换-删除-生成同义句,刚好用到,效果还可以,转载一篇使用博客原文链接: https://blog.csdn.net/rensihu ...
数据增强_NLP 数据增强方法 EDA
当数据集比较少的时候,往往会导致模型陷入过拟合.数据增强是一种比较有效的扩充数据集的方法,在计算机视觉领域有比较重要的作用.但是在 NLP 领域数据增强的方法相对少一些,本文介绍一种比较传统的 NLP ...
文本数据增强三（回译，不同语种间的翻译）
一.中文文本数据增强 (中文文本.同义句生成.扩充,增加,enhance.augment.text.nlp.样本不均衡.语料不够.数据不足.扩充增加),相较于图片,中文文本数据强的效果似乎没那么靠谱( ...
文本数据增强-同义词替换、随机交换、随机插入、随机删除
根据zhangy代码改写,主要针对千言问题匹配进行文本数据增强. 依赖安装 pip install jieba pip install synonyms eda.py import jieba imp ...
人机交互系统（3.1）——NLP文本数据增强方法
一.数据增强的背景和应用场景随着AI技术的逐步发展,更好的神经网络模型对数据规模的要求也逐步提升.而在分类任务中,若不同类别数据量相差很大,模型则会出现过拟合现象,严重影响预测的正确性. 从广义上来 ...
文本数据增强一（概述、中文、同义句生成、enhance、augment、text、nlp）
文本数据增强(扩充增加.中文.同义句生成.enhance.augment.text.nlp) AugmentText 概述 - 相较于图像数据增强,文本数据增强,现在还是有很多问题的: - 往更严格的 ...
NLP文本数据增强热门技术
NLP文本数据增强热门技术背景 word替换同义词替换词向量替换掩码语言模型(Masked Language Model,MLM) 基于tfidf的词替换反向翻译文本表面转换随机噪声注 ...
nlp文本数据增强_如何使用Texthero为您的NLP项目准备基于文本的数据集
nlp文本数据增强 Natural Language Processing (NLP) is one of the most important fields of study and researc ...
【NLP】文本数据分析文本特征处理文本数据增强
一.文本数据分析文本数据分析的作用: 文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择. 常用的几种文本数据分析方法: 标签数量分 ...

文本数据增强二（EDA、同义词替换-新增-交换-删除-生成同义句）

文本数据增强二（EDA、同义词替换-新增-交换-删除-生成同义句）相关推荐

最新文章

热门文章