在小样本学习中的数据增强方法,基于实体的数据增强和基于非实体的数据增强方法

文章目录

  • 1.1 Semi-factual Generation-半事实生成
  • 1.2 Entity-level Semi-fact Generation - 反事实生成器
  • 1.3 数据混合

跨域是怎么体现的呢?

FactMix方法自动为标准微调和提示调优生成半事实和反事实的示例。我们的方法如图3所示,由三个部分组成:(1)反事实实例生成器;(2)半事实实例生成器;(3)增强数据选择和混合。

1.1 Semi-factual Generation-半事实生成

我们在每句话中随机删除一个 (非实体)符号。具体来说就是通过随机mask一个非实体词来引入上下文之外的信息,然后使用掩码语言模型(MLM)填充span。直观地说,我们可以生成大量的半事实样本,因为MLM模型可以用多个预测填充masked span。更重要的是,选择所选词的数量和顺序是一个组合排列问题。然而,在实践中,作者发现替换更多的非实体数据并不总是能得到更好的结果;因此对于每个半事实样本,作者只在句子中替换一个或两个词短语。形式上,给定输入NER为 ,其中 是选中的非实体词。首先mask ,用 标记替换它,从而得到 然后填充 标记,最终得到半事实实例 。如图3所示,“sheep”可能先被mask,然后被一个脱离上下文的单词coffee填充,这个词可以由预训练语言模型PLMs生成。所选单词可能会影响其他单词的实体标记,并向数据集引入额外的噪声。因此,作者采用一种去噪机制,通过利用在包含NER任务先验知识的原始数据集上训练的预测模型,过滤掉有噪声的示例。

1.2 Entity-level Semi-fact Generation - 反事实生成器

通过干预现有的实体词来生成反事实的实例。具体来说,对于每个训练样本,随机选择其中一个实体单词,并将其替换为准备好的Entity_Base中相同类型的单词。对于数据不是非常稀缺的情况,例如在我们的Fine-tuning实验设置中,Entity_Base可以通过提取和分类原始数据集中的所有实体词来构建。但是在5-shot设置的Prompt-tuning实验中,Entity_Base从其他可用的数据集构造。

形式上,假设输入为 , 作为所选的实体词。我们假设 的标签是B-LOC,并提取Entity_Base中的所有B-LOC实体,并将它们表示为B-LOC Set。接下来,在B-LOC Set中选择一个词替换 ,记为 。这样,生成的反事实样本为 。例如,如图3所示,B-LOC集合中的B-LOC实体词German被替换为Israel。所有增强的样本都被标记为与原始样本相同的标签,以节省人工工作量。

1.3 数据混合

在最后一步中,作者通过混合策略将两种自动生成的数据组合在一起。尽管从理论上讲,FactMix方法可以生成无限数量的数据,但过去的经验表明,更多基于事实的数据实例并不总是能带来相应的性能优势。作者将反事实数据生成的最大扩充比例设置为1:8。而对于半事实数据,作者将比例设置为1:5,得到最终的FactMix增强训练数据。

数据增强:FactMix: Using a Few Labeled In-domain Examples to Generalize to Cross-domain Named Entity Reco相关推荐

  1. nlp文本数据增强_如何使用Texthero为您的NLP项目准备基于文本的数据集

    nlp文本数据增强 Natural Language Processing (NLP) is one of the most important fields of study and researc ...

  2. 一种单独适配于NER的数据增强方法:DAGA

    链接:http://www.elecfans.com/d/1468784.html 本文首先介绍传统的数据增强在NER任务中的表现,然后介绍一种单独适配于NER的数据增强方法,这种方法生成的数据更具丰 ...

  3. 吴恩达神经网络和深度学习-学习笔记-38-使用开源的方案+迁移学习+数据增强data augmentation

    使用别人的开源成果 想要用现成的网络,最好在网络上找到开源的实现,这要比从头开始实现快得多. 比如:直接在Google上搜索resnets github,找到合适的后点击下载会得到URL,然后在cmd ...

  4. Generalizing from a Few Examples: A Survey on Few-Shot Learning 小样本学习最新综述 | 三大数据增强方法

    原文链接:小样本学习与智能前沿 文章目录 01 Transforming Samples from Dtrain 02 Transforming Samples from a Weakly Label ...

  5. DAGA : 基于生成方法的低资源标记任务数据增强 精读笔记

    DAGA : 基于生成方法的低资源标记任务数据增强 精读笔记 文章目录 DAGA : 基于生成方法的低资源标记任务数据增强 精读笔记 1 Introduction 2 Background Name ...

  6. 深度学习--TensorFlow(7)拟合(过拟合处理)(数据增强、提前停止训练、dropout、正则化、标签平滑)

    目录 拟合 1.拟合情况 2.抵抗过拟合方法 过拟合处理(防止过拟合): 一.数据增强 1.设置图像生成器 2.载入图片 3.图像转三维数据 4.三维转四维 5.生成图片(用图像生成器) 代码 二.提 ...

  7. 二、深度学习数据增强方法汇总

    深度学习模型训练数据增强方法汇总 一.随机裁剪 二.RGB-->BGR通道互换 三.仿射变换(缩放) 三.随机旋转 四.对比度调整 五.随机抠图 六.bound box 中心点随机抠图 七.随机 ...

  8. CV08-数据预处理与数据增强

    复现车道线分割项目(Lane Segmentation赛事说明在这里),学习数据预处理和数据增强.学习分为Model.Data.Training.Inference.Deployment五个阶段,也就 ...

  9. 各种 AI 数据增强方法,都在这儿了

    来源 | 算法进阶 责编 | 寇雪芹 头图 | 下载于视觉中国 数据.算法.算力是人工智能发展的三要素.数据决定了Ai模型学习的上限,数据规模越大.质量越高,模型就能够拥有更好的泛化能力. 然而在实际 ...

最新文章

  1. AdminIII连接linux Postgresql过程中的几个小问题
  2. ExtJS 4.2菜单
  3. 使用 NLTK 对文本进行清洗,索引工具
  4. python中常见的流程结构-【Python2】04、Python程序控制结构
  5. package.json文件||项目依赖||开发依赖
  6. [数据结构与算法]平衡二叉树实现
  7. 访问javaweb服务器sessionid存放问题
  8. python部署阿里云_python部署到阿里云
  9. 上海自考计算机应用基础实践,2001年4月份全国高教自考计算机应用基础试题及答案...
  10. 摩托罗拉e2 linux 软件,摩托罗拉ROKR E2 JAVA应用程序安装指南
  11. 【验证小白】只有SV+modelsim学验证(3)——加checker到环境中
  12. Excel如何在表格内打勾
  13. 一篇学完:王道考研408计算机网络(全)
  14. 如何实现类似淘宝商城的七天自动确认收货???
  15. java8 foreach 抛异常_Java Stream中的异常处理
  16. 华硕天选2/系列切换应用声音消失问题的解决方法
  17. laravel 邮件发送
  18. VRRP配置上联口down时,优先级减10实验配置步骤
  19. 做谷歌广告投放关键字英文,只懂英文可以吗?
  20. ⅠB2期和ⅡA2期子宫颈腺癌及腺鳞癌新辅助化疗后手术治疗疗效观察

热门文章

  1. 计算机键盘如何修理,电脑键盘出问题了该怎么办? 键盘清理修复教程
  2. vue中点击加号_vue 组件之间事件触发($emit)与event Bus($on)的用法说明
  3. 杭四中2021高考成绩如何查询,杭四中一本率
  4. “转转”要做58赶集下一个入口级产品?
  5. 如何在python中使用表情(emoji)符号?
  6. VxWorks中怎么从Flash Boot(转贴)
  7. android通过adb命令获取boot.img镜像
  8. 9-19作业-宋俊杰
  9. APISpace中秋API推荐
  10. console.log()和console.dir()的区别