论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答。


来源:WWW2019

链接:https://dl.acm.org/citation.cfm?doid=3308558.3313502

本文提出了一种面向cQA的跨语言问题检索方法,旨在对于给定的问题检索出其对应另一目标语言的相似问题或查询。这个任务(跨语言信息检索)的常规做法是:1.将给定问题翻译为目标语言;2.应用单语信息检索方法完成查询。这种做法的缺陷在于翻译可能存在错误,并传递到之后的检索过程。针对这一缺陷,作者基于上述方法提出改进:1.利用单语cQA数据提升翻译质量;2.在现有的神经信息检索模型的训练过程添加译回机制(back-translation),提升模型的鲁棒性。

贡献   

本文贡献包括以下几点:

1.    研究了technical cQA上的跨语言问题检索方法,并发现翻译质量是严重影响检索性能的因素

2.    评估cQA问题检索中NMT领域适应性产生的影响

3.    基于现有的商用MT服务也可以达到较好的性能

方法

首先对任务进行一个描述:

给定一个输入问题q0和规模为N的相关问题list Q=q1, q2,…,qN(来自cQA),目标是对list进行重排序,从而找到list中与q0最相关的问题qi。跨语言问题检索的给定问题语言为德语(L1),list问题语言为英语(L2)。

整体的pipeline如图1所示,给定问题q0首先由一个NMT神经翻译模型转换为L2语言,而后经过一个QR模型将翻译后的给定问题q0和待对比问题qi转换为向量表示,而后通过余弦相似度衡量两者的相关性。

NMT模型

本文使用Transformer实现给定问题的翻译,作者使用WMT’13和WMT’18数据集训练了英语-德语,德语-英语的翻译模型,包含4.5M的英德technical topic平行语料。作为对比,作者引入了谷歌翻译服务

QR模型

本文QR过程基于RCNN实现,该方法将循环单元(unit)与卷积网络相融合,将输入的问题q学习为一个修正维度的特征向量表示r,从而用于下一步的相似性计算。

目标函数方面,作者通过随机产生负例,构建了联合损失函数形式如下:

面向跨语言改进

基于合成平行语料的领域神经机器翻译(In-Domain NMT)

具体做法就是,首先利用当前数据训练两个方向的翻译系统(英-德,德-英),而后将大规模领域单语数据(英语)翻译为德语,从而得到更大规模的英德领域平行语料,用于德-英翻译系统性能强化(即译回方法,back-translation)。由于这里的单语数据是本文任务需要的目标语言(英语),即生成的平行语料中即使存在错误也不在于目标语言句子中。因此在译文生成方面,并不会严重影响输出译文的语法错误或不通顺。

作者举了一些例子在表1

在 QR 过程中,back-translation 则用于生成多种问题的复述形式(paraphrase),从而扩充问题自然语言表达的多样性(当然也存在翻译错误,尤其基于少量数据训练得到的Transformer翻译系统存在大量的噪声,所以这里作者依赖于翻译性能更好的谷歌翻译服务来完成)。

实验

数据集

表2列举了本文问答实验数据集的一些统计信息,均来自technical领域。

模型与Baseline与实验结果

作者将实验分为了单语和跨语言两组,单语方面主要对比了QR模型(RCNN,RCNN-A)在添加back-translation数据调优之后的性能变化。双语方面在此基础上则增加了直接使用谷歌翻译与自主训练Transformer模型之间的性能对比。

      作者也给出了一些实例进行对比,如表4,5所示:


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 面向 cQA 的跨语言问题检索方法相关推荐

  1. 论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战

    论文笔记整理:谭亦鸣,东南大学博士. 来源:EMNLP 2020 链接:https://arxiv.org/pdf/2005.00692.pdf 1.背景介绍 跨语言实体链接(XEL)旨在将任一非英语 ...

  2. 论文浅尝 | XQA:一个跨语言开放域问答数据集

    论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生. Citation: Liu, J., Lin, Y., Liu, Z., & Sun, M. (2019,July). XQA: A ...

  3. 论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

    来源: IJCAI2018 链接: https://www.ijcai.org/proceedings/2018/0556.pdf 动机 近年来,随着多语言知识图谱嵌入(Multilingual KG ...

  4. 论文浅尝 | 面向自动问题生成的跨语言训练

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:ACL 2019 链接:https://128.84.21.199/pdf/1906.02525.pdf 动机 现有问题生成 ...

  5. 论文浅尝 | 面向多语言语义解析的神经网络框架

    论文笔记整理:杜昕昱,东南大学本科生. 来源:ACL2017 链接:https://aclweb.org/anthology/P17-2007 论文训练了一个多语言模型,将现有的Seq2Tree模型扩 ...

  6. 论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

    笔记整理:谭亦鸣,东南大学博士生 来源:EACL'21 链接:https://aclanthology.org/2021.eacl-main.284.pdf 概述 本文关注将语言模型(LM)视作一个知 ...

  7. 论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...

    论文笔记整理:潘锐,天津大学硕士. 来源:AAAI 2020 链接:https://arxiv.org/pdf/1912.01795.pdf 摘要 义原被定义为人类语言的最小语义单位.义原知识库(KB ...

  8. 论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

    论文笔记整理:刘克欣,天津大学硕士 链接:https://dl.acm.org/doi/abs/10.1145/3475731.3484957 动机 视觉常识推理(VCR)任务旨在促进认知水平相关推理 ...

  9. 论文浅尝 | 面向开放域的无监督实体对齐

    笔记整理 | 谭亦鸣,东南大学博士生 来源:DASFAA'21 链接:https://arxiv.org/pdf/2101.10535.pdf 概述与动机 知识图谱对齐的目的是建立两个不同知识图谱之间 ...

最新文章

  1. 《C++ Primer 4th》读书笔记 第5章-表达式
  2. RocketMQ几种搭建模式说明
  3. code iban 是有什么组成_「面试」new String(abc)和abc有什么区别?反编译看看原理吧...
  4. Hash——字符串匹配(求s1在s2中出现的次数)
  5. Springmvc的服务端数据验证-----Hibernate Validator
  6. python requests发送websocket_Pywss - 用python实现WebSocket服务端
  7. VisualVM:通过SSH监视远程JVM(是否为JMX)
  8. 补第一阶段冲刺站立会议5(5月17日)
  9. net core获取客户端ip
  10. sdformatter格式化选项设置_教大家sdformatter如何进行sd卡低级格式化
  11. ❤️❤️新生代农民工熬夜整理Python入门教程,包教包会!附源码❤️❤️
  12. pr如何跳到关键帧_必收藏的PR常用快捷键大全
  13. 使用SQL管理数据库
  14. 使用 Entrust Lar…
  15. C# Excel命名区域(一)-创建命名区域
  16. java调用默认打印机打印发货标签
  17. 无线充qi2来了,快来了解下~
  18. 旅游流的概念_旅游流的概念界定与理论内涵新论
  19. 腾讯 X5 不能加载内核
  20. NB-IoT SIM7000C调试笔记 01 NB-IoT及GPRS加网测试

热门文章

  1. 邹建老大写的经典SQL
  2. c/c++整理--c++面向对象(5)
  3. 如何学好单片机?​嵌入式第一门课
  4. Android Input 子系统初探
  5. multi-line comment In file
  6. C++ —— C++程序编译的四个过程
  7. centos7 开机后进去了命令行_Linux系统管理:开机启动流程(二)
  8. 数据结构链表之栈,Python3简单实现——5
  9. 如何阅读一本书 pdf_《如何阅读一本书》:一本书,四个层次,看阅读小白如何逆袭?...
  10. react父子组件通信案例