EMNLP2018论文解读 | 三种提升多语言翻译模型的高效策略
本文(《三种提升一对多多语言翻译策略》)是搜狗和中科院自动化所合作发表在 EMNLP 2018 上的工作。搜狗翻译目前采用业界领先的神经网络机器翻译框架支持 60 种以上不同语言之间的互译,考虑到当前支持单一语言对的翻译模型需要较大规模存储和计算资源,而支持一对多多语言翻译模型虽然能较好的解决资源占用却面临着翻译质量不高的问题,所以搜狗翻译对实现和优化多语言翻译模型存在客观需要。
论文方法
当前主流的一对多的多语言翻译模型在该研究之前还存在一定的不合理性。 这种不合理性主要体现在不同语言都包含其特有的语义信息和句法结构,用同一套分布式向量表征会导致模型存在相应的偏差。
鉴于此,该工作提出了三种策略,改进了多语言翻译框架来提升多语言神经翻译模型的翻译质量。
▲ 图1. “一到多”多语言翻译示意图
该策略首先将目标端句子初始位置加上表征翻译方向的标签,指示翻译生成的方向。其次,考虑对于不同的语言而言,结构具有不一致性,这里针对不同的语言尝试使用不同的位置向量来表征相应的时序信息。该工作对比了绝对位置和相对位置两种不同的建模方式。
最后,由于神经网络结构的隐层向量包含着语义信息和句法结构,区别于使用同一套隐层单元表示不同的语言,该策略采用了共享和特有的方式,其中共享一部分隐层向量表征不同语言的共性,而其他部分隐层向量用来表示不同语言特有的属性。
▲ 图2. 解码器网络隐层状态表示图。其中,蓝色表示共享的单元,黄色、绿色、红色分别表示不同具备不同语言特征的隐层单元。
实验结果
该工作是针对当前多语言翻译模型的表征问题来提升多语言翻译性能的一次尝试,将不同语言特有属性融合到翻译模型当中,取得了显著的提升。
▲ 表1. 我们的方法在中英日和英德法两个翻译任务上的表现。其中,Indiv表示仅包含双语句对的模型翻译结果。O2M是我们复现的谷歌多语言翻译模型,作为基线系统。①, ②和 ③分别代表我们提出的三种不同的策略。
▲ 图3. 不同共享隐层单元数的比较
点击以下标题查看更多往期内容:
自动机器学习(AutoML)最新综述
自然语言处理中的语言模型预训练方法
从傅里叶分析角度解读深度学习的泛化能力
深度解读DeepMind新作:史上最强GAN图像生成器
两行代码玩转Google BERT句向量词向量
这16篇最新论文,帮你轻松积攒知识点
TensorSpace:超酷炫3D神经网络可视化框架
NIPS 2018:基于条件对抗网络的领域自适应方法
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
?
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文
EMNLP2018论文解读 | 三种提升多语言翻译模型的高效策略相关推荐
- EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量
<使用篇章上下文提升 Transformer 翻译模型>是搜狗和清华大学天工研究院合作发表在 EMNLP 2018 的工作.机器翻译在搜狗公司的多个产品线得到广泛应用,包括搜狗英文搜索.搜 ...
- CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状
CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Sha ...
- 回望云计算发展 重新解读三种云服务
本文讲的是回望云计算发展 重新解读三种云服务,云计算在非常短的时间里迅速兴起,并在个人和企业用户使用和运营计算的模式上发生了重要的演变.从概念上来说,云计算可以被视为在由虚拟化技术(虽然云计算并不总是 ...
- 解读三种虚拟化之路连载一:x86虚拟化概述
从1998年开始,VMware创造性的将虚拟化引入x86平台,通过二进制翻译(BT)和直接执行的模式,让x86芯片可以同时运行不同的几种操作系统,并且确保性能.稳定性和安全性. 从那时起,数以万计的企 ...
- java 三种错误类型 区别_请列举至少三种在java语言中发生“严重错误”的情况...
[简答题]自已编写一个自定义非整数异常类,来处理一个异常 [填空题]捕获异常时,可以把catch捕获的异常对象( ),使上层try-catch结构继续处理该异常事件;也可以把异常对象转换为其它异常对象 ...
- 计算机组成原理 王道考研2021 第一章:计算机组成原理概述 -- 计算机的工作过程(从源程序到可执行文件)、计算机的层次结构、计算机软件的分类、三种级别的语言
1. 计算机的工作过程 计算机的工作过程分为以下三个步骤: 把程序和数据装入主存储器. 将源程序转换成可执行文件. 从可执行文件的首地址开始逐条执行指令. 1.1 从源程序到可执行文件 预处理阶段:预 ...
- 论文解读二十七:文本行识别模型的再思考
摘要:本文研究了两个解码器(CTC[1]和 Transformer[2])和三个编码器模块(双向LSTM[3].Self-Attention[4]和GRCL[5]),通过大量实验在广泛使用的场景和手写 ...
- 哈佛NLP组论文解读:基于隐变量的注意力模型 | 附开源代码
作者丨邓云天 学校丨哈佛大学NLP组博士生 研究方向丨自然语言处理 摘要 Attention 注意力模型在神经网络中被广泛应用.在已有的工作中,Attention 机制一般是决定性的而非随机变量.我们 ...
- 三种方式实现生产者-消费者模型
前言 生产者消费者问题(英语:Producer-consumer problem),也称有限缓冲问题(英语:Bounded-buffer problem),是一个多线程同步问题的经典案例.该问题描述了 ...
最新文章
- python 函数参数传递 格式_Python学习6.1_函数参数及参数传递
- python编写爬虫的步骤-python网络爬虫(二)编写第一个爬虫
- 修改httpd默认端口号
- 【机器学习】贝叶斯学派与频率学派有何不同?
- 同步/异步移动文件列表框选中的文件
- python爬取多页数据_python爬虫实现爬取同一个网站的多页数据代码实例
- 编译原理:文法及其二义性(判定及消除)
- c++ gdb 绑定源码_2020重学Go系列:30. 非常详细的 Go 语言 GDB 调试指南
- iOS 处理pfx文件
- Linux电脑弹出网络认证,linux局域网Dr.COM宽带认证客户端上网指南
- C语言(郝斌)内容整理
- 透视分析和即席查询区别
- 二项式展开推广与微积分的关系
- Insert键与vs黑标
- java 时区-东八区
- 推荐算法(推广搜)——广告和推荐有什么不同?
- python动态与静态语言_Python编程笔记--动态属性
- Xcode中的隐藏宝藏:模拟器里如何快速预览动态字体显示效果
- Python求一元二次方程的根
- 旺旺消息上传到服务器,旺旺在线却发送不了消息怎么办
热门文章
- centos7装机教程
- 我们无法在你选择的位置安装Windows。0x80300002
- MS SQL 获取字符串最后出现的字符串及位置
- JavaScript浏览器的对象
- SVN合并(merge)的使用
- vb.net中的-String类
- 报错 插入更新_自增主键,三类插入测验答案,在这里。
- java负数右移_Java中负数的右移
- mysql.net开发驱动_mysql数据库.net开发驱动(mysql connector net )
- linux核能软件,ARM big.LITTLE大小核架构在Linux和Android内核下多核调度算法