《使用篇章上下文提升 Transformer 翻译模型》是搜狗和清华大学天工研究院合作发表在 EMNLP 2018 的工作。机器翻译在搜狗公司的多个产品线得到广泛应用,包括搜狗英文搜索、搜狗输入法、搜狗翻译 APP、搜狗旅行翻译宝等。许多产品场景下,都需要使用句子的上下文信息来帮助翻译。

为此,我们提出了一个基于自注意力翻译模型 Transformer 的篇章级别翻译模型,利用丰富的上下文信息来帮助进行句子的翻译。与此同时,该模型对机器翻译领域篇章级别翻译质量的提升也有贡献。

篇章翻译可以解决机器翻译中的上下文依赖等问题,是机器翻译的重要研究问题,也是今年的一个热点,我们的模型是在 Transformer 效果上最好的之一。

论文方法

已有的考虑篇章上下文的 NMT 工作主要存在以下几个问题:

1. 大多数方法是基于循环神经网络的翻译模型 RNNsearch 的,无法移植到最新的基于自注意力的翻译模型 Transformer 上;

2. 大多数只在解码器端利用篇章上下文信息,而没有在源端编码时使用;

3. 只能使用篇章级别的语料进行训练,但是篇章级别的语料规模比句级别语料小的多。


我们针对以上几个问题进行改进。首先先在建模方面,我们通过在自注意力模型上添加模块来融入篇章上下文信息(图 1),其中红色部分是我们新增的模块。最左边这一列是上下文编码器,其输入是源端待翻译的句子同一个文档中的前 k 个句子。上下文编码器是一个多层结构,每一层都包含一个自注意力层和一个前向层(类似于 Transformer 的编码器)。

图1. 本文提出的模型

但是在实验中我们发现,上下文编码器只用 1 层就达到了很好的效果,使用更多层不仅不能得到更好的效果,还会对模型的计算效率产生负面影响。接下来,我们使用 multi-head 注意力机制将得到的篇章上下文的隐层表示同时融入到源端编码器和解码器中。我们将此称为上下文注意力(Context Attention)。

为了得到更好的模型,我们采用了两步训练法来利用充足的句级别语料。第一步,我们使用所有可用语料(包括句级别和篇章级别)训练一个标准的自注意力翻译模型。第二步,我们再使用篇章级别的语料训练我们加入的模块。在这一步,我们会冻结其他参数,防止模型在较小规模的篇章级别语料上过拟合。


实验结果

实验(表 1)表明,我们的方法显著好于 Transformer 和基于 RNNsearch 的篇章翻译模型。

表1. 实验结果

点击以下标题查看更多论文解读:

#投 稿 通 道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 |阅读原文 | 下载论文 & 源码

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量相关推荐

  1. IJCAI 2019 | 通过交互提升机器翻译质量

    自从神经网络模型在机器翻译任务(Machine Transoformer,MT)得到了应用,该任务得到了飞速的发展,机器翻译的质量也在不断地提高.尽管如此,机器翻译的质量也难以与人类译者相提并论.但是 ...

  2. EMNLP2018论文解读 | 三种提升多语言翻译模型的高效策略

    本文(<三种提升一对多多语言翻译策略>)是搜狗和中科院自动化所合作发表在 EMNLP 2018 上的工作.搜狗翻译目前采用业界领先的神经网络机器翻译框架支持 60 种以上不同语言之间的互译 ...

  3. 论文解读 | 利用自适应图推理的光流学习方法

    此篇论文已被 AAAI 2022 收录,论文链接请见"阅读原文". 研究动机 光流可以表达视频两帧图像之间的像素级对应关系,它是视频理解和分析领域中的一项基本任务.尽管基于深度学习 ...

  4. 遮挡也能识别?地平线提出时序信息提升行人检测准确度|​CVPR 2020

    来源 | 驭势科技 行人检测作为计算机视觉领域最基本的主题之一,多年来被广泛研究.尽管最先进的行人检测器已在无遮挡行人上取得了超过 90% 的准确率,但在严重遮挡行人检测上依然无法达到满意的效果.究其 ...

  5. 【论文解读】从可扩展的远程情感监督构建的附有结构和主次标记的MEGA RST 篇章树库

    前言 本文是EMNLP 2020年的论文<MEGA RST Discourse Treebanks with Structure and Nuclearity from Scalable Dis ...

  6. CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状

    CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Sha ...

  7. 直播实录 | AAAI 2018论文解读:零资源机器翻译的最新进展

    本文为 4 月 11 日,香港大学博士生--陈云博士在第 26 期 PhD Talk 中的直播分享实录. 4 月 11 日晚,来自香港大学的博士生陈云现身 PaperWeekly 斗鱼直播间,向大家介 ...

  8. 今晚直播 | AAAI 2018论文解读:零资源机器翻译的最新进展

    「PhD Talk」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义 ...

  9. 直播实录 | 非自回归神经机器翻译 + ICLR 2018 论文解读

    本文为 3 月 9 日,香港大学博士生--顾佳涛博士在第 24 期 PhD Talk 中的直播分享实录. 在本期 PhD Talk 中,来自香港大学的博士生顾佳涛,向大家介绍了他们在加速神经机器翻译( ...

最新文章

  1. NB-IoT与eMTC差异全解析
  2. css中那些容易被我们程序猿所忽略的选择器
  3. 比较常规治疗登记中阿巴西谱、阿达木单抗、依那西普和英夫利昔单抗治疗类风湿关节炎的疗效和起效时间...
  4. Android Gradle Plugin 源码阅读与编译
  5. element table 表格设置max-height 没有出现滚动条,多渲染了一列。
  6. Requirejs与r.js打包,AMD、CMD、UMD、CommonJS、ES6模块化
  7. linux系统MVS安装,Ubuntu 环境 openMVG+openMVS 配置
  8. 设某链表中最常用的操作是在链表的尾部_面试官:“双向链表”都不会,谁给你跳槽的勇气?...
  9. hdu-acm steps Common Subsequence
  10. 好用的滚动式截图工具picpick
  11. 原生开发什么意思_原生App是什么意思
  12. 学习笔记(01):程序员的数学:微积分-常用导数(一):最常用到的技巧
  13. 项目UML设计--日不落战队
  14. 东方证券万字报告:微信视频号进入稳定的发展期
  15. Linux系统中xz命令用法详解(压缩和解压缩)
  16. Looking up JNDI object with name [LOGGING_PATTERN_LEVEL]
  17. 5-RNN-01_字符集RNN
  18. MySQL中date、datetime、timestamp、time、year的区别
  19. 面试时,可以问面试官问题总结
  20. Scrapy项目 - 数据简析 - 实现斗鱼直播网站信息爬取的爬虫设计

热门文章

  1. Javascript 程序放在哪
  2. Scrapy中的splash的安装应用
  3. [z]如何在一台windows主机上安装多个mysql服务
  4. 【web】Good ad ~
  5. CBitMap的用法 from http://www.cnblogs.com/toconnection/archive/2012/08/04/mfc.html
  6. php 实现时时更新地图,PHP实现隔15分钟自动更新网站地图功能
  7. groupby多个字段性能_MySQL今天我们说下分组(group by)
  8. 用javascript实现以下功能!_模电小实验:用三极管实现触摸开关功能
  9. iframe嵌套页面 跨域_跨域解决方案
  10. 蒙特卡洛粒子滤波定位算法_ROS -- 最简单的自主ACML定位