数据增强:FactMix: Using a Few Labeled In-domain Examples to Generalize to Cross-domain Named Entity Reco
在小样本学习中的数据增强方法,基于实体的数据增强和基于非实体的数据增强方法
。
文章目录
- 1.1 Semi-factual Generation-半事实生成
- 1.2 Entity-level Semi-fact Generation - 反事实生成器
- 1.3 数据混合
跨域是怎么体现的呢?
FactMix方法自动为标准微调和提示调优生成半事实和反事实的示例。我们的方法如图3所示,由三个部分组成:(1)反事实实例生成器;(2)半事实实例生成器;(3)增强数据选择和混合。
1.1 Semi-factual Generation-半事实生成
我们在每句话中随机删除一个 (非实体)符号。具体来说就是通过随机mask一个非实体词来引入上下文之外的信息,然后使用掩码语言模型(MLM)填充span。直观地说,我们可以生成大量的半事实样本,因为MLM模型可以用多个预测填充masked span。更重要的是,选择所选词的数量和顺序是一个组合排列问题。然而,在实践中,作者发现替换更多的非实体数据并不总是能得到更好的结果;因此对于每个半事实样本,作者只在句子中替换一个或两个词短语。形式上,给定输入NER为 ,其中 是选中的非实体词。首先mask ,用 标记替换它,从而得到 然后填充 标记,最终得到半事实实例 。如图3所示,“sheep”可能先被mask,然后被一个脱离上下文的单词coffee填充,这个词可以由预训练语言模型PLMs生成。所选单词可能会影响其他单词的实体标记,并向数据集引入额外的噪声。因此,作者采用一种去噪机制,通过利用在包含NER任务先验知识的原始数据集上训练的预测模型,过滤掉有噪声的示例。
1.2 Entity-level Semi-fact Generation - 反事实生成器
通过干预现有的实体词来生成反事实的实例。具体来说,对于每个训练样本,随机选择其中一个实体单词,并将其替换为准备好的Entity_Base中相同类型的单词。对于数据不是非常稀缺的情况,例如在我们的Fine-tuning实验设置中,Entity_Base可以通过提取和分类原始数据集中的所有实体词来构建。但是在5-shot设置的Prompt-tuning实验中,Entity_Base从其他可用的数据集构造。
形式上,假设输入为 , 作为所选的实体词。我们假设 的标签是B-LOC,并提取Entity_Base中的所有B-LOC实体,并将它们表示为B-LOC Set。接下来,在B-LOC Set中选择一个词替换 ,记为 。这样,生成的反事实样本为 。例如,如图3所示,B-LOC集合中的B-LOC实体词German被替换为Israel。所有增强的样本都被标记为与原始样本相同的标签,以节省人工工作量。
1.3 数据混合
在最后一步中,作者通过混合策略将两种自动生成的数据组合在一起。尽管从理论上讲,FactMix方法可以生成无限数量的数据,但过去的经验表明,更多基于事实的数据实例并不总是能带来相应的性能优势。作者将反事实数据生成的最大扩充比例设置为1:8。而对于半事实数据,作者将比例设置为1:5,得到最终的FactMix增强训练数据。
数据增强:FactMix: Using a Few Labeled In-domain Examples to Generalize to Cross-domain Named Entity Reco相关推荐
- nlp文本数据增强_如何使用Texthero为您的NLP项目准备基于文本的数据集
nlp文本数据增强 Natural Language Processing (NLP) is one of the most important fields of study and researc ...
- 一种单独适配于NER的数据增强方法:DAGA
链接:http://www.elecfans.com/d/1468784.html 本文首先介绍传统的数据增强在NER任务中的表现,然后介绍一种单独适配于NER的数据增强方法,这种方法生成的数据更具丰 ...
- 吴恩达神经网络和深度学习-学习笔记-38-使用开源的方案+迁移学习+数据增强data augmentation
使用别人的开源成果 想要用现成的网络,最好在网络上找到开源的实现,这要比从头开始实现快得多. 比如:直接在Google上搜索resnets github,找到合适的后点击下载会得到URL,然后在cmd ...
- Generalizing from a Few Examples: A Survey on Few-Shot Learning 小样本学习最新综述 | 三大数据增强方法
原文链接:小样本学习与智能前沿 文章目录 01 Transforming Samples from Dtrain 02 Transforming Samples from a Weakly Label ...
- DAGA : 基于生成方法的低资源标记任务数据增强 精读笔记
DAGA : 基于生成方法的低资源标记任务数据增强 精读笔记 文章目录 DAGA : 基于生成方法的低资源标记任务数据增强 精读笔记 1 Introduction 2 Background Name ...
- 深度学习--TensorFlow(7)拟合(过拟合处理)(数据增强、提前停止训练、dropout、正则化、标签平滑)
目录 拟合 1.拟合情况 2.抵抗过拟合方法 过拟合处理(防止过拟合): 一.数据增强 1.设置图像生成器 2.载入图片 3.图像转三维数据 4.三维转四维 5.生成图片(用图像生成器) 代码 二.提 ...
- 二、深度学习数据增强方法汇总
深度学习模型训练数据增强方法汇总 一.随机裁剪 二.RGB-->BGR通道互换 三.仿射变换(缩放) 三.随机旋转 四.对比度调整 五.随机抠图 六.bound box 中心点随机抠图 七.随机 ...
- CV08-数据预处理与数据增强
复现车道线分割项目(Lane Segmentation赛事说明在这里),学习数据预处理和数据增强.学习分为Model.Data.Training.Inference.Deployment五个阶段,也就 ...
- 各种 AI 数据增强方法,都在这儿了
来源 | 算法进阶 责编 | 寇雪芹 头图 | 下载于视觉中国 数据.算法.算力是人工智能发展的三要素.数据决定了Ai模型学习的上限,数据规模越大.质量越高,模型就能够拥有更好的泛化能力. 然而在实际 ...
最新文章
- AdminIII连接linux Postgresql过程中的几个小问题
- ExtJS 4.2菜单
- 使用 NLTK 对文本进行清洗,索引工具
- python中常见的流程结构-【Python2】04、Python程序控制结构
- package.json文件||项目依赖||开发依赖
- [数据结构与算法]平衡二叉树实现
- 访问javaweb服务器sessionid存放问题
- python部署阿里云_python部署到阿里云
- 上海自考计算机应用基础实践,2001年4月份全国高教自考计算机应用基础试题及答案...
- 摩托罗拉e2 linux 软件,摩托罗拉ROKR E2 JAVA应用程序安装指南
- 【验证小白】只有SV+modelsim学验证(3)——加checker到环境中
- Excel如何在表格内打勾
- 一篇学完:王道考研408计算机网络(全)
- 如何实现类似淘宝商城的七天自动确认收货???
- java8 foreach 抛异常_Java Stream中的异常处理
- 华硕天选2/系列切换应用声音消失问题的解决方法
- laravel 邮件发送
- VRRP配置上联口down时,优先级减10实验配置步骤
- 做谷歌广告投放关键字英文,只懂英文可以吗?
- ⅠB2期和ⅡA2期子宫颈腺癌及腺鳞癌新辅助化疗后手术治疗疗效观察
热门文章
- 计算机键盘如何修理,电脑键盘出问题了该怎么办? 键盘清理修复教程
- vue中点击加号_vue 组件之间事件触发($emit)与event Bus($on)的用法说明
- 杭四中2021高考成绩如何查询,杭四中一本率
- “转转”要做58赶集下一个入口级产品?
- 如何在python中使用表情(emoji)符号?
- VxWorks中怎么从Flash Boot(转贴)
- android通过adb命令获取boot.img镜像
- 9-19作业-宋俊杰
- APISpace中秋API推荐
- console.log()和console.dir()的区别