20. Learning to Perturb Word Embeddings for Out-of-distribution QA 阅读笔记
20. Learning to Perturb Word Embeddings for Out-of-distribution QA
论文地址:https://arxiv.org/pdf/2105.02692.pdf
Author Information::Seanie Lee1,* Minki Kang1,*Juho Lee1, Sung Ju Hwang1,2
Institutions Information:
1. KAIST, South Korea
2. AITRICS, South Korea
ACL 2021
0 Abstract
基于预训练语言模型的QA模型在各种基准数据集上取得了显著的性能。然而,由于分布的变化,QA模型不能很好地推广到训练分布之外的未见数据。通过drop或替换单词的数据增强(DA:Data Augmentation )技术,已经被证明在正则化从过拟合到训练数据的模型上是有效的。但是,此种方式的数据增强可能会对QA任务产生不利的影响,因为它们会引起语义的变化,从而会导致QA任务产生错误的答案。
为了解决这个问题,本文提出了一个基于随机噪声生成器(stochastic noise generator)的简单并且有效的数据增强模型。该方法在不改变语义的前提下,打乱输入的问题(question)和文本(context)的词向量的表示。
在单个源数据集上,在五个不同的目标域上,我们验证了用我们的词嵌入扰动训练的QA模型的性能。结果表明,我们的方法明显优于基线DA方法。值得注意的是,用我们的模型训练的模型优于用240K以上人工生成的QA对训练的模型。
1 Introduction
深度学习模型在各种真实世界的自然语言理解任务上取得了令人印象深刻的表现,如文本分类、机器翻译、问答和文本生成等。最近,使用大量未标记数据进行预训练的语言模型在这些下游任务的表现上取得了突破,甚至在其中一些任务上超过了人类的表现。
这种数据驱动语言模型预训练的成功在很大程度上取决于可用的训练数据的数量和多样性,因为当使用少量高偏差数据进行等量贡献训练时,预训练的模型可能会过拟合,并可能不能很好地推广到非分布数据。数据增强(DA)技术可以在一定程度上防止这种情况的发生,但大多数都是针对图像域开发的,并不能直接应用于单词和文本的增强。也许在监督学习中,扩充方法最重要的要求是,它不应该改变例子的标签。对图像领域而言,有几个比较好的数据增强技术,可以在不改变语义的前提下,产生多样性的数据。相反,在NLP领域,在不改变其语义的情况下增加输入文本是不简单的。保留语义的一种简单的增强技术是用同义词替换单词或使用反向翻译。然而,它们并不能有效地提高泛化性能,因为使用这种技术的可行转换的多样性非常有限。
近期的研究,提出通过删除或替换同义词的方法来实现数据增强,并且该方法在本领域(in-domain)或其它领域(out-of-domain)均取得了不错的效果。
然而,如图1所示,我们发现大多数现有的NLP数据增强方法改变了原始输入的语义。虽然语义上的这种变化对于某些任务可能不是一个严重的问题,但对于问答(QA)任务可能是关键的,因为它对输入的语义很敏感。
例如,用同义词替换单个单词(图1中的Hesburgh→Vanroth)可能会导致答案的语义严重漂移。因此,词级的数据增强方式,对QA任务而言,是没用的。大多数现有的QA任务数据增强工作都采用问题或QA对生成。但是,这种方法需要大量的训练时间,因为我们必须训练一个单独的生成器,从它们中生成QA对,然后使用生成的对来训练QA模型。此外,qa对生成方法并不是样本效率高的,因为它们通常需要大量生成的对来获得有意义的性能增益
为了解决现有QA数据增强技术的这些局限性,我们提出了一种基于可学习的词级扰动的数据增强方法,该方法有效地将模型规范化,以提高其对不可见问题和具有分布转移的上下文的泛化能力。具体来说,我们训练一个随机扰动函数来学习如何在不改变语义的情况下扰动输入的每个词的嵌入,并利用扰动样本来增强训练数据。我们将这种数据增强方法称为随机词嵌入扰动(SWEP:Stochastic
Word Embedding Perturbation )。
Contributions
- 我们提出了一种简单而有效的数据增强方法来提高预训练语言模型在QA任务中的泛化性能。
- 我们证明了我们所学习的依赖于输入的扰动函数在不改变原始输入语义的情况下对其进行转换,这是DA问答成功的关键。
- 我们广泛地验证了我们的方法在不同的数据集上的领域泛化任务,在这些数据集上,它很大程度上优于强基线,包括qa对生成方法。
3 Model
模型解读
将长度为T = L+M+3(具体为:L的context、长度为M的question,以及[CLS]、[SEP]、[SEP])作为输入;
过Bert,得到对应的Embeddings;
使用编码器函数f(·;θf)将输入x上下文化为隐藏表示(h1,…,hT),并将其输入扰动函数(perturbation function);
继续上传,得到LMLE
将得到的隐状态{ht}过MLP(多层感知机),得到
通过采样,得到分布zt,具体计算方法为:
通过将zt和最开始得到的词向量表示et,进行点乘,得到想要的结果
8. 继续往上传,得到Lnoise
9. 最后,通过Lnoise和LMLE两个损失函数调参,公式为:
20. Learning to Perturb Word Embeddings for Out-of-distribution QA 阅读笔记相关推荐
- Learning salient boundary feature for anchor-free temporal action localization AFSD阅读笔记及代码复现
论文地址:Lin_Learning_Salient_Boundary_Feature_for_Anchor-free_Temporal_Action_Localization_CVPR_2021_pa ...
- 论文《Learning both Weights and Connections for Efficient Neural Network》阅读笔记
因为对深度压缩中的剪枝不太理解遂读了原文作者更早的这篇详细讲网络剪枝的文章点击打开链接 剪枝的过程为: 1.首先剪枝的前提是对已完成训练的网络 2.进行剪枝 要点:根据一个阈值去裁剪参数 a.阈值 ...
- 文献 Application of deep learning tothe diagnosis of cervical lymph node metastasis from thyroid阅读笔记
文献 2019.02-Application ofdeeplearning tothe diagnosis of cervical lymph node metastasis from thyroid ...
- Task 4: Contextual Word Embeddings (附代码)(Stanford CS224N NLP with Deep Learning Winter 2019)
Task 4: Contextual Word Embeddings 目录 Task 4: Contextual Word Embeddings 词向量的表示 一.Peters et al. (201 ...
- 【2015】CWE:字符嵌入和词嵌入的联合学习(Joint Learning of Character and Word Embeddings)
文章目录 摘要 引言 模型 CBOW 字符增强的词嵌入 多原型字符嵌入 基于位置的字符嵌入 基于集群的字符嵌入 基于非参数集群的字符嵌入 2.5 初始化和优化 单词选择 3 实验和分析 结论 论文链接 ...
- 吴恩达《序列模型》精炼笔记(2)-- NLP和Word Embeddings
AI有道 不可错过的AI技术公众号 关注 1 Word Representation 上节课我们介绍过表征单词的方式是首先建立一个较大的词汇表(例如10000),然后使用one-hot的方式对每个单词 ...
- Coursera吴恩达《序列模型》课程笔记(2)-- NLP Word Embeddings
红色石头的个人网站:redstonewill.com <Recurrent Neural Networks>是Andrw Ng深度学习专项课程中的第五门课,也是最后一门课.这门课主要介绍循 ...
- Word embeddings in 2017: Trends and future directions (2017年里的词嵌入:趋势和未来方向)
Word embeddings in 2017: Trends and future directions 原文作者:anonymous 原文地址:http://ruder.io/word-embed ...
- 第二周 自然语言处理与词嵌入(Natural Language Processing and Word Embeddings)
第二周 自然语言处理与词嵌入(Natural Language Processing and Word Embeddings) 文章目录 第二周 自然语言处理与词嵌入(Natural Language ...
- [C5W2] Sequence Models - Natural Language Processing and Word Embeddings
第二周 自然语言处理与词嵌入(Natural Language Processing and Word Embeddings) 词汇表征(Word Representation) 上周我们学习了RNN ...
最新文章
- window opengl
- android从放弃到精通 第五天 excellent
- javascript+dom
- 数据结构八-Trie树
- 以太坊私有链 使用dev模式
- linux标准I/O——按字符输入和输出
- SQL 数据库的自动备份(Procedures实现)
- 三年亏了近50亿,网易云音乐终于熬到上市了
- python while for 只循环一次,如何在python 3中为每个inside和while循环只执行一次代码块...
- BZOJ3230 相似子串 【后缀数组】
- ios html5 exif,IOS中html5上传图片方向问题解决方法
- 如何提高缓存命中率(Redis)
- Ubuntu 16.04 双网卡 同时上内外网
- 数据驱动VR流体仿真技能
- java 计算日期相差天数_Java 计算两个日期相差的天数
- Java面试题:单核CPU支持多线程吗?
- 使用 Abp.Zero 搭建第三方登录模块(四):微信小程序开发
- 将Raspberry Pi用作台式PC的17个最佳Raspbian应用
- 坐月子“一嫂难求”,月嫂为何这么有“钱景”?
- 用户故事地图,产品经理必须掌握的分析利器
热门文章
- 海马玩安卓模拟器linux,海马玩模拟器下载安装_海马玩模拟器Droid4X官方下载「手游模拟器」-太平洋下载中心...
- 整理收纳的概念和意义
- 新一代天气雷达文件三维可视化
- 联通服务器信号设置,联通手机服务器设置
- 《OpenGL编程指南(原书第9版)》——2.8 SPIR-V
- 个人数据泄露问题的数据_非个人的个人数据
- 看过这篇文章,再也不要说你是凭实力单身了
- C#自动换ip功能或者ip代理功能要这么实现
- win7计算机的ip地址设置,如何将win7ip地址设置成自动获取
- idea 去掉author波浪线