论文浅尝 - ACL2022 | 基于多语言语义解耦表示的跨语言迁移方法实现多语言阅读理解...
论文作者:吴林娟,天津大学,研究方向为自然语言理解
论文链接:http://arxiv.org/abs/2204.00996
代码地址:https://github.com/wulinjuan/SSDM_MRC
摘要
多语言预训练模型在机器阅读理解(Machine Reading Comprehension, MRC)任务上能够将知识从资源丰富的语言上零资源迁移到低资源语言。然而,不同语言中固有的语言差异可能会使零资源迁移后预测的答案跨度违反目标语言的句法约束。我们提出了一种新的多语言机器阅读理解框架,该框架配备了孪生语义解耦模型(Siamese Semantic Disentanglement Model, ),实现在多语言预训练模型学习的表示中将语义与语法分离。为了显式地将丰富的语义知识迁移到目标语言,我们提出了两组针对语义和句法编码和解开的损失。在三个多语言机器阅读理解评估集上实验证明了我们提出的方法的有效性。
动机和思路
随着多语言预训练模型和多语言机器阅读理解评估数据集的提出,多语言机器阅读理解任务受到了越来越多的关注。基于多语言预训练模型的跨语言迁移方法也成为了多语言MRC的主流方法。但是我们发现基于预训练模型的迁移方法在目标语言上获取的答案跨度存在不符合句法约束的现象,如下图(b)中的例子所示,跨语言迁移模型获得的答案“月光不住”跨越了句法树的两个子树。在双语语料BiPaR上我们也进行了实验统计,跨语言迁移的方法降低了目标语言答案跨度和句法约束的一致性。
为了解决这类由于语言间句法差异带来的目标语言答案跨度不符合句法约束的问题,我们提出了基于多语言语义解耦表示的跨语言迁移方法实现多语言阅读理解。将多语言预训练表示的语义和句法部分分离,通过迁移解耦的语义表示减少句法信息对于跨语言带来的消极影响。
贡献
我们的贡献包括以下三点:
1.提出了一种多语言MRC框架,通过显式迁移源语言解耦的语义知识来减少由于句法差异带给目标语言答案跨度识别的消极影响;2.提出了一种多语言孪生语义解耦模型,可以有效将多语言预训练模型中的语义和句法分离;3.在三个公开权威的多语言MRC数据集(XQuAD、MLQA和TyDiQA)上证明了我们的模型相比
模型:
•多语言机器阅读理解模型
我们提出了一种新的多语言机器阅读理解框架,如图(a)所示,主要由多语言预训练模型、语义解耦模块和用于MRC预测的线性输出层组成。其中语义解耦模块来自于孪生解耦语义模型(Siamese Semantic Disentanglement Model, )的一部分,模型最终输出对于答案跨度的起始和终止位置的预测。我们的多语言MRC模型的训练主要分为两步:首先使用带标注的平行语料对孪生语义解耦模型S2DM进行训练,期间固定预训练模型的参数;然后将训练好的 模型中的语义编码模块((b)中绿色的模块)嵌入到MRC框架中,通过在源语言MRC数据集上微调预训练模型和线性输出层实现阅读理解。训练好的模型可以在其他目标语言上测试阅读理解的效果。
•多语言孪生语义解耦模型
模型构建的假设是:句子 是由语义变量 和句法变量 组成。模型基于VGVAE将语义变量假设为vMF分布,将句法变量假设为高斯分布,句子和两个变量的联合分布形式化为:
其中 θ 表示生成模型,由简单词袋编码器组成。
VGVAE的目标函数为:
包括重构损失RL和两个变量分布的KL散度损失。除此之外,为了让句法和语义变量获取更多相应的信息我们设计了多个损失。
为了鼓励语义变量y捕捉语义信息,我们额外设计了跨语言重构损失CRL和语义辨别损失SDL:
其中下标s表示源语言,下标t表示目标语言,n代表非平行的样例,sim()是相似度计算函数。
为了让句法信息和语义分离,我们也引入了了句法相关的损失,包含无监督的词序预测损失WPL和有监督的词性标注损失POS以及句法树预测损失STL。WPL和POS表示如下:
也就是对每个词进行位置的预测和词性的预测,然后计算交叉熵损失。
为了学习结构化的句法信息,我们设计了句法树损失STL。这也是基于现有工作研究发现,预训练模型已经编码了句子的句法结构。为了将结构信息转化为序列信号进行学习和预测,我们参考结构探针的设计把句法树的预测看作两个子任务:单个词在句法树的深度预测以及两个词在句法树中的距离预测。通过给定一个矩阵 对解耦的句法变量表示进行线性变换,两个子任务的损失计算为:
其中 表示句子树中第i和第j个词之间的边数,而 是经过线性变换后两个词表示的L2距离平方:
句法树损失就是两个子任务的和:
为了验证不同粒度的句法信息对于解耦模型的影响,我们根据不同的句法任务设置了两个解耦模型: 和 ,对应的损失分别为:
•泛化性分析
由于解耦模型需要在带有标注的平行语料上训练,然而不是所有语言都有相应的训练语料,于是我们对模型的泛化性进行了分析。从两个重构损失和语义判别损失分别证明了解耦后的语义和句法表示的语言无关性。
将两个重构损失变换后我们可以得到:
由于无论源语言还是目标语言的句法(或语义)变量最终都会拟合到相同的分布:标准正态分布和均匀vMF分布。所以 θ 和 θ 最终会拟合到相同的分布, θ 和 θ 最终也会拟合到相同的分布。这符合我们使用孪生网络结构的动机。
然后我们对语义判别损失进行变换得到:
最大化 鼓励目标语言语义向量接近并行的源语言语义向量,保障了语义向量的语言无关性。
综上可以证明 模型获得的语义和句法向量的语言无关性。
实验结果
基于mBERT和XLM-100实现了我们的MRC模型,两阶段的训练集分别来自多语言通用依存树库UD 2.7和英语MRC数据集SQuAD1.0。我们在三个公开的多语言评估数据集上对模型进行了评估,基线模型为基于mBERT和XLM-100微调的多语言MRC模型,在MLQA数据集上和现有工作LAKM进行了比较(在预训练模型的基础上引入短语知识库增加了短语边界检测预训练任务)。实验结果如下几个表格,
我们的模型在三个数据集上有效提升了基于mBERT和XLM-100微调的多语言MRC模型,而且对于没有S2DM模型训练集的语言也得到了提升,例如XQuAD中和XLM相比,模型在希腊语(el)、 罗马尼亚语(ro)和越南语(vi)上的EM值分别提升了6.2%、2.4%和1.8%。
和LAKM对比,其外部训练数据大小高于我们三个数量级,但是我们获得了和LAKM差不多的效果。
TyDiQA-GoldP数据集比XQuAD和MLQA更具挑战性。模型在所有8种低资源目标语言的EM或F1分数上都有提升。其中,在与英语语系不同的芬兰语(fi)和俄语(ru)中,模型 的EM性能相比基线分别提高8.4%和9.5%。 在无解耦训练语料的斯瓦希里语(sw)的EM比mBERT基线高13.6%。我们对设计的loss也进行了消融实验,证明了每个loss的有效性和必要性。消融实验结果如下:
更进一步的,我们对孪生网络结构、解耦效果进行了验证,结合语义表示可视化说明解耦的效果。在BiPaR数据集中证明了我们的模型有效提高了目标语言答案跨度和句法约束的一致性,符合我们的动机。
总结
本文对由于句法差异导致跨语言迁移过程中存在目标语言答案跨度和句法约束不一致的问题进行了探究,通过解耦多语言的语义和句法表示,然后显式迁移语义表示减少句法差异带来的消极影响。通过在三个多语言阅读理解评估集上证明我们方法的有效性,并进一步通过理论分析和实验验证证明了MRC模型的泛化性以及解耦的有效性。文章从句法入手解决跨语言阅读理解的问题,初步证明了句法对于跨语言语义理解任务的助益,后期工作将深入探索句法信息和跨语言任务的结合,欢迎大家与我们探讨交流。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。
论文浅尝 - ACL2022 | 基于多语言语义解耦表示的跨语言迁移方法实现多语言阅读理解...相关推荐
- 论文浅尝 | AMUSE: 基于 RDF 数据的多语言问答语义解析方法
来源:ISWC 2017 链接:https://link.springer.com/content/pdf/10.1007%2F978-3-319-68288-4.pdf 本文主要关注基于RDF数据的 ...
- 论文浅尝 - ICML2020 | 基于子图推理的归纳式关系预测
论文笔记整理:陈名杨,浙江大学在读博士生,主要研究方向为知识图谱表示学习. 论文来源:ICML 2020 Introduction 当前在知识图谱上(KnowledgeGraph,KG)进行关系预测的 ...
- 论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习
论文笔记整理:耿玉霞,浙江大学直博生.研究方向:知识图谱,零样本学习等. 来源:AAAI2020 论文链接:https://arxiv.org/pdf/2001.02332.pdf 本文是发表在AAA ...
- 论文浅尝 | 为基于知识库的问答构建形式查询生成
论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生. Citation: H.Zafar, G. Napolitano, and J. Lehmann. Formal query generat ...
- 论文浅尝-综述 | 基于强化学习的知识图谱综述
转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...
- 论文浅尝 - ACL2022 | 面向推理阅读理解的神经符号方法
转载公众号 | 南大Websoft 概述 近两年来NLP领域出现了一些富有挑战性的机器阅读理解数据集,如ReClor和LogiQA.这两个数据集中的问题需要对文本进行逻辑推理,然而传统的神经模型不足以 ...
- 论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统
论文笔记整理:李爽,天津大学. 链接:https://arxiv.org/pdf/2001.03615v1.pdf 动机 随着"自下而上"注意力的普及,基于边界框(或区域)的视觉特 ...
- 论文浅尝 | Data Intelligence - 多篇语义资源论文
本文转载自公众号:DI数据智能 . 编者按:Data Intelligence最新发表一组语义资源论文,包括世界著名语义网技术专家荷兰阿姆斯特丹自由大学计算机科学系Frank van Harmelen ...
- 论文浅尝 | GraphSAINT—基于图采样的归纳学习方法
论文笔记整理:杨海宏,浙江大学博士生,研究方向为开放世界下的多语言知识问答. 1. 简介 受显存的因素限制,应用图神经网络于大规模图学习任务上面临"邻居爆炸(Neighbor Explosi ...
最新文章
- ios Develop mark
- 从网上找到一个清晰CSS视频教程和大家分享一下
- intellij tomcat配置
- Mysql访问新数据时先查表
- Linux设备驱动中的并发控制总结
- oracle 删除用户 递归,ORACLE递归查询遍历详解
- oracle缺失值表示,Oracle SQL,用最接近的非缺失填充缺失值
- mysql 命令限制_MySQL 命令总结
- 帕萨特加载模式启用怎么解除_大众帕萨特VCDS刷隐藏功能方法
- Python读取PDF文档并翻译
- 3d真人试衣php源码,VR3D虚拟试衣App开发 实现在线试衣购买
- Windows无法连接到无线网络
- 关于数据库表、视图、存储过程、函数、分区表等的创建使用
- Linux内存管理(一):综述
- java 校验网站域名格式是否为(xxx.xxx.xxx/xxx/xxx..)正则
- 职业解读 | 如何成为一名SQL开发人员
- 随机种子 seed()
- 威盾IIS防火墙升级到V3.7
- CenterOS安装MongoDB教程
- MFC对话框应用程序中谷歌CEF浏览器内核的使用
热门文章
- 如何计算MP3总时长的问题(三)--对于变比特率MP3求总时长
- 有效创建Oracle dblink的两种方式
- 西安下雪了,做了一个室内温度计
- 每日一题(42)—— 已知一个数组table,用一个宏定义,求出数据的元素个数
- c 语言指针教学视频,[C语言] 猎豹网校 C和指针视频教程
- 四、PHP基础——会话技术Cookie 和 Session
- Web框架——Flask系列之abort函数与自定义异常处理(十三)
- 已安装Anaconda情况下,命令行pip,python报错(详细 已解决)
- LeetCode 1871. 跳跃游戏 VII(贪心)
- LeetCode 835. 图像重叠