对抗神经机器翻译:GAN+NMT 模型,中国研究者显著提升机翻质量
今天介绍的是中山大学、中国科技大学、微软亚洲研究院与广东省信息安全技术重点实验室合作完成的一项研究。
第一作者 Lijun Wu 来自中山大学数据与计算机科学学院,二作 Yingce Xia 是中国科技大学,Li Zhao、Fei Tian、Tao Qin 都属于微软亚洲研究院,Jianhuang Lai、Tie-Yan Liu 则是广东省信息安全技术重点实验室的研究人员。Jianhuang Lai 同时也属于中山大学数据与计算机科学学院。
作者认为,最新的 NMT 系统虽然相比以前的统计机器翻译(SMT)性能有了显著提升,但翻译质量还有很大的改进空间。作者认为,其中一个主要原因是 NMT 在训练时通常采用最大似然估计(MLE)原理,换句话说,也就是尽可能将机器生成的译文与人类对源语的翻译进行匹配(maximize the probability of the target groundtruth sentence conditioned on the source sentence)。
作者认为,这样做并不能确保机器翻译的结果比人类翻译的更自然、准确和到位。
对抗 NMT,将模型翻译结果与人类翻译的差距最小化
于是,他们在研究 NMT 的学习范式后,采取了一种新的思路——训练 NMT,让模型翻译结果与人类翻译的差距最小化。为此,他们借助了生成对抗网络(GAN)的力量,并将新模型命名为“对抗 NMT”(Adversarial-NMT)。
在对抗 NMT 中,除了典型的 NMT 模型,还有一个对手(adversary)用于区分 NMT 生成的翻译与人类翻译。这个对手是一个精心设计的 CNN。训练时,NMT 和 作为对手的 CNN 这两个模块相互提升性能。
需要指出的是,作者写道,与以往 GAN 生成器都处于连续空间中不同,在他们提出这个新框架里,NMT 模型并非典型的生成模型,而是将源语言句子映射到目标语言句子的概率转换, 而且都处于离散空间中。
这样的差异使得在训练 NMT 模型时需要设计新的网络架构和优化方法。于是,作者专门设计了一个卷积神经网络(CNN,如上图所示)模型作为对手,并将在强化学习中得到广泛应用的 REINFORCE 这一策略梯度方法用于优化。
上图展示了对抗 NMT 架构。“Ref”是 Reference 的缩写,代表人类的(ground-truth)翻译结果,“Hyp”则是 Hypothesis 的缩写,表示模型生成的翻译句子。所有黄色部分代表 NMT 模型 G,将源句子 x 映射为译文。红色部分代表对抗网络 D,负责预测给定目标句子是真实翻译还是机器根据源句 x 生成的翻译。G 和 D 相互对抗,生成翻译样本 y’ 训练 D,以及训练 G 的奖励信号策略下降(蓝色箭头表示)。
BLEU 基准测试结果,性能提升显著
下图是论文中给出的对抗 NMT 性能测试实例。
作者提供了 2 个德语→英语的例子,分为上下两栏。从上到下分别显示了德语源句 x、实际(也即人类的)翻译 y、RNNSearch 生成的翻译句子 y’,以及对抗 NMT 生成的翻译 y’。D(x,y’)是模型译文 y’是真实翻译 x 的概率,x 由对手 CNN 计算得出。BLEU 是每个翻译句子的单句翻译 bleu 得分。
下图是不同 NMT 系统在英语→法语之间翻译的性能。默认设置是单层 GRU + 30k 语料库(vocabs)+ 最大似然估计(MLE)训练对象,不是使用单语种数据训练,也即 Bahdanau 等人在 2014 年提出的 RNNSearch 模型。
下面是不同 NMT 系统在德语→英语之间翻译的性能。默认设置是使用 MLE 训练对象的单层 GRU 编码器-解码器模型,也即 Bahdanau 等人在 2014 年提出的 RNNSearch 模型。
论文:对抗神经机器翻译
摘要
在本文中,我们研究了神经机器翻译(NMT)的新学习范式。以往的研究都将人类翻译的可能性最大化,我们则将人类翻译与 NMT 模型给出的翻译的差异最大限度地减少。为了实现这个目标,受近来生成对抗网络(GAN)成功的启发,我们采用对抗训练架构,并将其命名为对抗 NMT。在对抗 NMT 中,NMT 模型的训练对手是一个精心设计的卷积神经网络(CNN)。这个对手 CNN 的目标是区分 NMT 模型生成的翻译结果与人类翻译结果。NMT 模型的目标则是生成高质量的翻译,从而骗过对手。我们还利用策略梯度法协助训练 NMT 模型和对手 CNN。实验结果表明,在英语→法语和德语→英语的翻译任务中,对抗 NMT 在几个强大的基准上都显著提升了翻译质量。
文章转自新智元公众号,原文链接
对抗神经机器翻译:GAN+NMT 模型,中国研究者显著提升机翻质量相关推荐
- 神经机器翻译(NMT)中的不确定性(Uncertainty)应用思考
神经机器翻译(NMT)中的不确定性(Uncertainty)应用思考 前言 什么是不确定性? Uncertainty 应用 NMT中量化Uncertainty的常见思路 总结 前言 本文的目的是帮助笔 ...
- [转]神经机器翻译(NMT)相关资料整理
1 简介 自2013年提出了神经机器翻译系统之后,神经机器翻译系统取得了很大的进展.最近几年相关的论文,开源系统也是层出不穷.本文主要梳理了神经机器翻译入门.进阶所需要阅读的资料和论文,并提供了相关链 ...
- 神经机器翻译(NMT)详细资料整理
1 简介 自2013年提出了神经机器翻译系统之后,神经机器翻译系统取得了很大的进展.最近几年相关的论文,开源系统也是层出不穷.本文主要梳理了神经机器翻译入门.进阶所需要阅读的资料和论文,并提供了相关链 ...
- 神经机器翻译(NMT)的一些重要资源分享
教程: · 由Thang Luong编写的NMT教程 -这是一个简短的教程,循序渐进的介绍神经机器翻译的原理.但稍微令人感到失望的是,没有详细记录基础实验的运行和评估情况.当然,解决这些问题很简单,但 ...
- TensorFlow+TVM优化NMT神经机器翻译
TensorFlow+TVM优化NMT神经机器翻译 背景 神经机器翻译(NMT)是一种自动化的端到端方法,具有克服传统基于短语的翻译系统中的弱点的潜力.本文为全球电子商务部署NMT服务. 目前,将Tr ...
- 神经机器翻译(Neural machine translation, NMT)学习笔记
神经机器翻译(Neural machine translation, NMT)是最近提出的机器翻译方法.与传统的统计机器翻译不同,NMT的目标是建立一个单一的神经网络,可以共同调整以最大化翻译性能.最 ...
- Seq2Seq and NMT(基于cs224n的最全综述神经机器翻译技术)
文章目录 Machine Translation的简介: 统计机器翻译模型(SMT): 神经机器翻译(NMT)-sequence 2 sequence Greedy decoding Beam sea ...
- 「自然语言处理(NLP)」神经机器翻译(NMT)论文整理(一)
来源: AINLPer 微信公众号(每日更新-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-02-27 引言: 下面是作者整理的关于神经机器翻译(NMT)相关的论文文章,下面这 ...
- 线上直播 | NVIDIA TensorRT在神经机器翻译中的应用
神经机器翻译(Neural Machine Translation,简称 NMT)存在于各种各样的消费者应用程序中,包括 web 站点.路标.在外语中生成字幕等. NVIDIA 的可编程推理加速器 T ...
最新文章
- java.lang.NoSuchMethodError: antlr.collections.AST.g(truts2与hibernate jar包(antlr-2.7.2.jar)冲突)
- java解析lrc_java中用正则表达式解析LRC文件
- leetcode 236. Lowest Common Ancestor of a Binary Tree | 236. 二叉树的最近公共祖先(Java)
- SIGGRAPH 2021丨OPPO与南大提出双流网络:仅输入单张图片,就能“看”出物体材质...
- 畅通工程(HDU-1232)
- java类成员方法(成员函数)的初步介绍
- pip install scrapy安装scrapy库出现error: Microsoft Visual C++ 14.0 is required.问题解决
- bzoj3993 [SDOI2015]星际战争 二分答案+网络流检验
- html5期末考试题答案,HTML5期末考试题型
- 读取本地IP地址和子网页码
- 牛客——数据库实战(31~61)
- 使数据可供ArcGIS Server访问
- 什么牌子真无线蓝牙耳机适合运动,高续航舒适小巧这五款蓝牙耳机不要错过
- 大豆技术面分析_大豆高产栽培技术分析,科学施肥很关键,建议收藏
- CAD 二次开发 图层操作(1)创建图层
- 直播弹幕系统(三)- 直播在线人数统计
- 图灵机器人php调用案例,使用httpclient实现图灵机器人web api调用实例
- 常州大学计算机专业研究生怎么样,常州大学计算机应用技术考研经验
- ListView与ListView适配器
- 上市连续12季高增长的秘密|多肽链对话1药网于刚
热门文章
- java 管理后台前台分离_系统前台后台是否应该分离(包括部署)
- 图像处理论坛_【活动】CSIG菁英青云论坛第三期活动预告!!
- 一文快速理解Java反射(详细对比图)
- 软件开发中Alpha、Beta、RC、GA版本的含义
- 12864液晶使用例程
- 问题:使用jdk11 报错:java.lang.TypeNotPresentException: Type javax.xml.bind.JAXBContext not present
- R语言基础篇-----画图
- CentOS6.5 安装MongoDB
- java开放地址法和链地址法解决hash冲突
- 超详细的Hadoop2配置详解