©PaperWeekly 原创 · 作者 | 李朝卓

单位 | 微软

研究方向 | 图挖掘、自然语言处理

论文标题:

RAPO: An Adaptive Ranking Paradigm for Bilingual Lexicon Induction

收录会议:

EMNLP 2022

论文链接:

https://arxiv.org/abs/2210.09926

代码链接:

https://github.com/Jlfj345wf/RAPO

背景

双语词典归纳(BLI,Bilingual Lexicon Induction)指在缺少平行语料时,基于两种语言的单语语料进行单词翻译并生成双语词典。给定两组单语语料下训练得到的单语词向量(Word Embedding)以及数量很少的种子词典(seed dictionary),BLI 的核心是学习一个理想的映射函数,将这两组独立的单语词向量空间对齐到同一空间中,以便根据单词间词向量的相似性进行单词翻译。

基于不同语言间词向量空间的同构性假设 [1],以前的方法 [2] 往往使用线性变换作为映射函数来保持空间的同构关系,并在此基础上通过增加正交限制 [3]、正则化词向量 [4]、迭代扩充词典 [5] 等方式来提高单词翻译的准确率。

动机

▲ 图1:部分单词(英语与西班牙语)在词向量空间的映射关系

现有的方法在学习映射函数时,通常将学习目标设定为:最小化互为翻译的单词对的词向量之间的距离(例如图1中crow与cuervo)。例如,一类常见的方式是将映射函数看作投影矩阵 ,并且将训练目标定义为:(其中 与 为种子词典中两种语言的单词所对应的词向量矩阵)。

但实际上,我们认为 BLI 本质上是一个排序的问题,而不是上述训练目标定义的回归问题。因为 BLI 的目标是:对于每一个源语言中的词,寻找目标语言中置信度最高的 k 个候选词。也就是说,映射函数实际上应当具备辨别正确翻译与错误翻译之间的相对顺序的能力。以前的工作使用的目标函数只关注正例(互为翻译的单词对)之间的距离,没有明确地提供重要的排序信息,导致不能有效的提高模型的判别能力。

另外,现有工作一般通过一个所有单词共享的映射函数来对齐双语空间,因此,同一语言中的不同单词倾向于沿着相同方向变换。然而,从图 1 中我们可以发现,即使是英语和西班牙语这两种语系相近、词向量空间结构相似的语言,由于不同训练语料库中词频分布的偏差以及低频单词词向量的不充分训练,不同词的最优映射方向略有偏移 [6] [7]。因此,我们认为,如果能够自适应的为不同单词学习个性化的映射函数,那么单词翻译的准确度有可能进一步提高。

方法

▲ 图2:RAPO进行双语词典归纳的主要步骤

如图 2 所示,RAPO 由三个主要部分组成:给定原始词向量空间(Original embedding space):

1. 首先,个性化适配器(Personalized adapter)基于单语词向量和种子词典,利用单词上下文语义信息(Contextual semantic information)为每个词生成个性化偏移,使得原本的词向量被校准到更合适的位置;

2. 接着,Householder 投影(Householder projection)将两个校准后的词向量空间正交地映射到一个共享的隐空间,并在模型优化中保持映射的正交性;

3. 最后,我们为模型制定了基于排序的学习目标(Ranking-oriented objective)以及有效的负采样策略,使得 RAPO 可以具备更强的正负例的区分能力,进而提升 BLI 任务的表现。

3.1 个性化适配器

由于不同语料库词频分布的偏差和词向量的不平衡训练,我们希望为每个单词提供自适应的个性化映射函数。目前相关工作一般基于人为假设定义一系列的后处理规则(post-processing)[6],根据每个单词在种子词典中的最近邻,对其映射方向进行微调。但这种基于人工假设的后处理方法可能并不可靠,并且不能保证适用于针对不同语言的翻译任务。

因此,我们设计了一种新颖的可学习的个性化适配器。它可以为每个单词自适应的学习到与任务相关的个性化偏移,并且能够通过梯度下降进行训练,从而将词向量调整到与下游任务更契合的位置。

不同的语言拥有自己独特的个性化词向量适配器,以源语言为例。给定源语言中的一个单词的词向量 ,我们首先通过对其邻居单词的词向量进行均值聚合,得到其包含上下文语义信息的向量 。相比于单个单词,这样的相似词的集合可以提供更丰富、更准确的信息,帮助学习单词的个性化偏移。上下文语义向量 的计算公式如下:

接着,考虑到语义相似的词在不同语言的词向量空间中具有更强的同构结构,我们认为具有相似上下文语义的单词也往往具有相似的个性化偏移量。因此,我们以 作为个性化适配器的输入,让个性化适配器模块根据BLI任务的目标,学习其个性化的偏移。

具体来说,我们实现了一个单层的前馈神经网络网络(FFN,Feed-Forward Network)作为个性化适配器的结构。它将根据   的上下文语义向量 计算得到个性化的偏移,然后再将计算得到的偏移与原词向量进行组合,得到校准后的词向量 :

3.2 Householder 投影

得到校准的词向量后,我们还需要设计理想的映射函数,将它们映射到共享的隐空间中。以前的工作已经证明了正交变换 [2] 作为一种“保距映射“,可以更好的保证词向量空间的结构信息不被破坏,从而更好的将少量的种子词典中的对齐知识迁移到其他单词上。

以前的工作一般通过在学习目标中增加额外的限制,来强制让映射函数向正交方向优化,最终得到一个近似正交的映射矩阵(例如,)。但这种优化目标函数在梯度下降优化中,并不能保证严格的正交性。因此,我们引入 Householder 矩阵,并基于 Householder 矩阵构造出一种可以在优化中严格保持映射正交性的 Householder 投影。

Householder 矩阵表示了一种关于过原点的超平面的反射变换。具体来说,给定一个向量 ,我们可以得到以 为参数的大小为 的 Householder 矩阵  。得到该矩阵后,给定任意向量 ,  可以关于一个过原点且与 垂直的平面将该向量反射到 ,计算公式如下:

Householder 矩阵是正交矩阵。基于这样的 Householder 矩阵,我们设计了一种映射函数 Householder 投影来保证映射过程是严格正交的。具体来说,给定一个向量序列 ,Householder 投影 可以定义为以这些向量为参数的连续的 Householder 矩阵变换(反射变换)。我们在原文中证明了,包含了n个向量的 可以完全的表示大小为 的正交矩阵空间中的任意一个正交矩阵,从而保证了 拥有充足的表示能力。

具体到我们的任务中,两种语言各自有一个参数不共享的 Householder 投影模块。以源语言为例,我们使用参数为 的 Householder 投影作为源语言的映射函数,其中 n 的大小取值为 d(词向量的维度),来保证其能够充足的表示任意 的正交矩阵。给定经过个性化适配器调整后的词向量 ,我们可以得到映射后的词向量 。

注意到,无论梯度下降中 Householder 投影的参数(即反射向量 )被优化成任何数值,整个 Householder 投影的过程依然是严格正交的。并且我们通过数学公式的简化和推导,保证了整个计算过程仍然具有 的复杂度,与简单的线性变换相同。

3.3 基于排序的学习目标

以前的工作使用的目标函数只关注正例(种子词典提供的单词对)之间的距离,没有明确地提供重要的排序信号,导致模型对候选词的排序能力没有被充分学习。实际上,BLI 更像是一个排序任务,因为我们希望为每个单词选择置信度最高的几个词作为翻译结果的候选集。因此,不同于之前基于回归学习目标的工作,我们提出了一种基于排序的损失函数来优化模型参数。

具体来说,我们使用贝叶斯个性化排序损失(Bayesian Personalized Ranking Loss,BPR Loss)作为损失函数。给定一对正例和若干负例(错误翻译),BPR Loss 要求正例之间相似度高于负例,从而提升模型对相对顺序的判断能力。

其中,关于负例的选择,我们采用了随机负采样和动态困难负例采样的混合方式,来同时保证训练的稳定性和排序的效果。

我们还额外添加了均方误差损失(Mean Squared Error Loss,MSE loss),要求模型在具有判断相对顺序的能力的同时,最小化正例之间的距离。

最终训练目标为两种损失函数的组合,并额外添加了 L2 正则项:

实验与分析

我们在 MUSE 数据集中的 20 个翻译任务上对模型进行了评估。如表 1 和表 2 所示,无论是监督学习(仅利用给定种子词典训练模型)还是半监督学习(迭代进行训练模型和利用模型扩充词典的步骤来提高模型效果)的场景下,RAPO 都在大多数的翻译任务上都达到了最好的结果,体现出了 RAPO 的高效性与泛化性。

此外,如表 2 所示,RAPO 在一些低资源的语言对上取得了更显著的提升,这表明我们提出的个性化适配器能够通过校准原始词向量来减小语言之间的结构差距,更好的完成 BLI 的任务。总体来说,RAPO 效果的提升可以归功于我们所提出的基于排序学习的目标函数,个性化的偏移和严格正交的变换。

▲ 表1:在5个资源丰富的语言对上的Top1翻译准确度评估

▲ 表2:在5个低资源的语言对上的Top1翻译准确度评估

我们针对所提出个性化适配器、Householder 投影、基于排序的学习目标,在几个翻译任务上进行了消融实验,来验证不同组件对整个模型的影响。实验结果分别如表 3、表 4、表 5 所示。

1. 对于个性化适配器,我们比较了去掉该模块,或是替换适配器中的激活函数时,模型在不同语言对上的翻译效果。从表 3 的结果中,我们可以发现去掉个性化适配器会导致模型在各个任务上效果变差,这说明了适配器的有效性。

不同的语言最合适的激活函数是不同的,这可能是因为不同语言间同构程度不同,例如:英语和意大利语(en-it)为同系语言,词向量空间同构性可能更强,适合线性激活函数来减小对词向量空间结构的改变;而英语和土耳其语(en-tr)同构性较差,则需要使用表达能力更强的非线性激活函数。

▲ 表3:关于个性化适配器的消融实验

2. 对于所提出的 Householder 投影,我们比较了将 household 投影替换为简单的线性变换以及加上正交惩罚项的正交变换。从表 4 的实验结果可以看出,正交的确对模型效果有帮助,而严格正交的 householder 投影也因此取得了最好的效果。

▲ 表4:关于Householder投影的消融实验

3. 对于提出的基于排序的学习目标,我们同样比较了去掉其中的 BPR 部分或是 MSE 部分对模型效果的影响。从表 5 的实验结果,我们可以看出两种损失函数都对模型的性能有帮助,并且在去掉排序相关的 BPR loss 后,模型效果下降的更多。这证明了我们所提出的排序目标对 BLI 任务来说更为重要。

▲ 表5:关于损失函数的消融实验

结语

在本文中,我们提出了一个新的基于自适应排序学习的双语词典归纳模型,RAPO。与以往的工作不同,RAPO 将 BLI 看作排序任务,并使用一个基于排序的学习目标对模型进行优化。除此之外,通过深入挖掘 BLI 任务的独特特征,我们进一步设计了两个新的模块:在梯度下降优化中严格正交的映射函数 Householder 投影,和为每个单词提供个性化偏移的个性化适配器。我们在 MUSE 数据集的 20 个翻译任务上对模型进行评估,并且进行了充足的实验分析,证明了 RAPO 的优越性。

参考文献

[1] Tomás Mikolov, Quoc V. Le, and Ilya Sutskever. 2013. Exploiting similarities among languages for machine translation. CoRR, abs/1309.4168.

[2] Chao Xing, Dong Wang, Chao Liu, and Yiye Lin. 2015. Normalized word embedding and orthogonal transform for bilingual word translation. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1006–1011, Denver, Colorado. Association for Computational Linguistics.

[3] Alexis Conneau, Guillaume Lample, Marc’Aurelio Ranzato, Ludovic Denoyer, and Hervé Jégou. 2018. Word translation without parallel data. In 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings.

[4] Mikel Artetxe, Gorka Labaka, and Eneko Agirre. 2018a. Generalizing and improving bilingual word embedding mappings with a multi-step framework of linear transformations. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pages 5012–5019.

[5] Xu Zhao, Zihao Wang, Hao Wu, and Yong Zhang. 2020. Semi-supervised bilingual lexicon induction with two-way interaction. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2973–2984, Online. Association for Computational Linguistics.

[6] Goran Glavaš and Ivan Vulic. 2020. Non-linear instance-based cross-lingual mapping for non-isomorphic embedding spaces. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7548–7555, Online. Association for Computational Linguistic.

[7] Shuo Ren, Shujie Liu, Ming Zhou, and Shuai Ma. 2020. A graph-based coarse-to-fine method for unsupervised bilingual lexicon induction. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 3476–3485, Online. Association for Computational Linguistics.

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

EMNLP 2022 | RAPO: 基于自适应排序学习的双语词典归纳相关推荐

  1. 【代码+论文】基于自适应排序学习的个性化推荐方法

    题目: Adaptive Pointwise-Pairwise Learning-to-Rank for Content-based Personalized Recommendation 论文地址: ...

  2. 基于自适应图学习的不完整多视图谱聚类

    论文:IEEE Xplore Full-Text PDF:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8587123&am ...

  3. ACL 2020 | 基于多级排序学习的层次化实体标注

    ©PaperWeekly 原创 · 作者|龚俊民 学校|新南威尔士大学硕士生 研究方向|NLP.可解释学习 论文标题:Hierarchical Entity Typing via Multi-leve ...

  4. 基于自适应反向学习的黏菌算法

    文章目录 一.理论基础 1.黏菌算法 2.自适应反向学习黏菌算法 (1)反向学习 (2)自适应决策策略 (3)AOSMA算法伪代码 二.仿真实验与结果分析 三.参考文献 一.理论基础 1.黏菌算法 请 ...

  5. IJCAI 2022 | 基于自适应虚词增强的小样本逆关系分类

    ©作者 | 窦春柳 单位 | 天津大学 来源 | 开放知识图谱 论文标题: Function-words Adaptively Enhanced Attention Networks for Few- ...

  6. 第七章 人工智能,7.1 基于深度强化学习与自适应在线学习的搜索和推荐算法研究(作者:灵培、霹雳、哲予)...

    7.1 基于深度强化学习与自适应在线学习的搜索和推荐算法研究 1. 搜索算法研究与实践 1.1 背景 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好 ...

  7. MICCAI 2022 | CLFC:基于对比学习的多模态脑肿瘤分割与单模态正常脑图像的特征比较

    MICCAI 2022 | CLFC基于对比学习的多模态脑肿瘤分割与单模态正常脑图像的特征比较 Multimodal Brain Tumor Segmentation Using Contrastiv ...

  8. 基于深度强化学习的进化多目标优化自适应算子选择

    进化算法(EA)已经成为多目标优化的最有效技术之一,其中已经开发了许多变异算子来处理具有各种困难的问题. 虽然大多数EA始终使用固定的运算符,但 为新问题确定最佳EA 是一个劳动密集型过程. 因此,最 ...

  9. [排序学习】基于Pairwise和Listwise的排序学习

    [排序学习]基于Pairwise和Listwise的排序学习_飞桨PaddlePaddle的博客-CSDN博客导语PaddlePaddle提供了丰富的运算单元,帮助大家以模块化的方式构建起千变万化的深 ...

最新文章

  1. Python应用——自定义函数:分割PDF文件函数
  2. mysql 数据库中心_mysql数据库管理中心
  3. python公历转农历_Python如何实现阳历转阴历的方法分享
  4. CABR:Beamer的内容自适应速率控制算法
  5. Intel(R) 处理器产品型号/CPUID标识/签名对照表 (Family Model)
  6. 继爱奇艺之后,腾讯视频、优酷宣布:取消剧集超前点播服务
  7. 联想USB键盘功能键驱动问题
  8. 项目上拿来的 有演示 类似kindlePush微信小程序 内容值得
  9. 简书 echarts mysql_echarts入门教程
  10. deepin linux隐藏磁盘,Deepin 20下开机不自动挂载(隐藏)NTFS分区(Windows分区)的方法...
  11. 计算机收不到打印机,打印机接收不到任务,如何添加打印机
  12. 编程语言大牛王垠的过去和现状
  13. 设计稳定的COT转换器以实现所需的负载和线路调节
  14. iOS--通过assetURL获取到视频
  15. Tomcat环境搭建以及闪退问题
  16. Python实例6: 贺卡制作
  17. Charles 乱码解决办法
  18. qt 设置背景图片方法
  19. Fama-French五因子模型
  20. 快手616战报首发,次抛精华引新浪潮,快品牌跃入热榜top3

热门文章

  1. Java SSM springmvc spring mybatis 集代码生成器 后台框架源码
  2. 计算机教室防火防盗防潮制度,微机室管理员岗位职责
  3. (Ryan的Koa系列博客)2.严谨模式(未全部完成)
  4. Html简易表单制作
  5. java jre 32_【JRE】JRE32/64位官方下载 V8.0 官方版-趣致软件园
  6. C语言正反比例函数代码格式,c语言推箱子代码.doc
  7. java个人主页作业,个人项目 - 作业 - 18软件前端、JAVA WEB方向 - 班级博客 - 博客园...
  8. extra qualification 'classname::' on member 'membername' [-fpermissive]|
  9. ubuntu14.04中文输入法安装
  10. 【手写数字识别】RBM神经网络手写数字识别【含GUI Matlab源码 1109期】