NLP中数据增强的方法
为什么使用数据增强
当在一些任务中需要大量数据,但是实际上数据量不足时,可以考虑使用数据增强的方式增加数据量
数据增强的方法
数据增强主要有两种方法:
法一:简单数据增强(Easy Data Augmentation,EDA)
(1) 同义词替换:从句子中随机选择不属于停用词的单词,并选择其同义词替换它们
(2) 随机插入:从句子中随机选择不属于停用词的单词,随机取出它们的同义词,并把它们随机插入句子中的某个位置
(3) 随机交换:随机选择句子中两个单词,并交换他们的位置
(4) 随机删除:以一定的概率随机删除句子中的某个单词
法二:回译
用机器翻译把一段中文翻译成另一种语言,然后再翻译回中文。回译的方法不仅有类似同义词替换的能力,它还具有在保持原意的前提下增加或移除单词并重新组织句子的能力
参考文章
参考文章1
参考文章2
NLP中数据增强的方法相关推荐
- NLP中数据增强的综述,快速的生成大量的训练数据
作者:amitness编译:ronghuaiyang 导读 深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是有一些方法的. 与 ...
- 人机交互系统(3.1)——NLP文本数据增强方法
一.数据增强的背景和应用场景 随着AI技术的逐步发展,更好的神经网络模型对数据规模的要求也逐步提升.而在分类任务中,若不同类别数据量相差很大,模型则会出现过拟合现象,严重影响预测的正确性. 从广义上来 ...
- nlp文本数据增强_如何使用Texthero为您的NLP项目准备基于文本的数据集
nlp文本数据增强 Natural Language Processing (NLP) is one of the most important fields of study and researc ...
- NLP:数据增强/Data Argumentation【词汇替换、随机Mask、回译、添加噪声】
数据增强技术在计算机视觉中应用的比较广泛,但是在 NLP 中却很少能得到有效的应用.本质原因在于图像中的一些数据增强方法,比如将图像旋转几度或将其色度转换为灰度,在增强数据的同时并不会改变图像本身的含 ...
- NLP文本数据增强热门技术
NLP文本数据增强热门技术 背景 word替换 同义词替换 词向量替换 掩码语言模型(Masked Language Model,MLM) 基于tfidf的词替换 反向翻译 文本表面转换 随机噪声 注 ...
- 【直播预告】计算机视觉中数据增强原理和实践
应广大粉丝要求,以后有三AI会多组织直播,分享更多实践的干货知识,下面预告一下下周六的知乎Live直播-计算机视觉中数据增强原理和实践. 1.直播基本信息 时间:2019年4月20日20:00开始. ...
- Python PIL库处理图片常用操作,图像识别数据增强的方法
在博客AlexNet原理及tensorflow实现训练神经网络的时候,做了数据增强,对图片的处理采用的是PIL(Python Image Library), PIL是Python常用的图像处理库. 下 ...
- 目标检测:python实现多种图像数据增强的方法(光照,对比度,遮挡,模糊)
图像数据增强的内容(可根据需要自定义选择): 1.直方图均衡化 2.clahe自适应对比度直方图均衡化 3.白平衡 4.亮度增强 5.亮度,饱和度,对比度增强 6.去除图像上的高光部分 7.自适应亮度 ...
- php 获取数据库中的信息,php获取数据库中数据的实现方法
废话不多说,直接上代码 header("Content-type:text/html;charset=utf-8");//字符编码设置 $servername = "lo ...
最新文章
- 太赞了:中文版开源!这或许是最经典的计算机编程教材
- sicily 1004 I Conduit!
- Java源码分析之HashMap(JDK1.8)
- 微服务集成——《微服务设计》读书笔记
- Latex \bibliographystyle+修改字体字号的大小
- 前端学习(2589):前端权限的设计思路
- jquery设置video的宽度_jquery html5 视频播放控制代码
- webview img照片旋转_Python图像处理,照片去色、翻转、模糊、缩略图统统搞定
- C++高级教程之多线程
- 实现div半透明效果
- GVRP-LNP-VCMP讲解
- 橡胶密封圈的作用和优点
- 微信开放平台-第三方平台-全网发布接入【java版本】
- 金山云郝明非:一年上线整套流媒体处理服务
- 艺术聚焦:#DRIVE
- AndroidStudio设置EditText输入的文字全部变成大写或小写
- PostgreSQL入门基本语法之DDL-(user、database、schema)
- 集训队作业2018: 青春猪头少年不会梦到兔女郎学姐(多限制容斥)(生成函数)(组合数学)
- 【蓝桥杯—单片机学习笔记(四)】共阳数码管的动态显示
- Hibernate高级映射技术(二)自定义数据类型StringMap(转)