【NAACL2021】基于隐式类别建模的非自回归式翻译
点击上方,选择星标,每天给你送干货!
来自:南大NLP
01
—
研究背景及动机
机器翻译(Machine Translation),作为自然语言处理的代表性研究,在国际交流日益频繁的今天愈发重要。有关统计显示,机器翻译技术促进了全球贸易10%的增长。如何更快更好的进行(或辅助)翻译,促进“地球村”的内部交流,是机器翻译从业人员长久以来不变的追求。
图 1 不同Transformer模型的概率图模型
Transformer模型是当下最为成功的机器翻译模型,通过自注意力机制和启发式的位置建模,该模型获取了当下最佳的翻译性能。此外,Transformer还成功“出圈”,不仅被应用于文本复述、自动对话等自然语言生成场景,还被用于探索图像建模乃至生物研究领域。然而,Transformer模型采用了自回归式的解码过程,存在着训练与测试不一致带来的暴露偏差风险,而自左向右的逐词预测则难以有效地利用高性能的GPU并行算力。随之,非自回归式的Transformer模型应运而生。区别于Transformer模型自回归式的概率分解方式,非自回归式的Transformer(NAT)模型将其分解成一系列相互独立的概率:
NAT模型采用的这种生成范式,摆脱了对历史预测的依赖,可以充分利用GPU的高并行性,在多个位置同时预测,从而获取了极高的生成效率。然而,“成于斯败于斯”, 尽管NAT具备很快的速度,但其翻译质量却落后于Transformer模型。普遍的观点认为,NAT在预测时缺乏其他输出的信息,因此其输出的一致性难以保证,会出现重复翻译或者漏译等现象,并伴随着翻译质量的下降。
基于隐变量的NAT模型引入隐变量建模输出序列的部分观测信息,充当从输入序列到输出序列之间的跳板,有效地缓解了原始NAT模型的问题并提升翻译的性能。根据隐变量类型,该体系的工作可分为基于离散隐变量的NAT和基于连续隐变量的NAT模型。目前的工作中,连续的隐变量[1][2]依赖于深层的网络变换(大于30层)或者迭代转换(多于4次),其推断效率低。基于离散隐变量的方案[3][4]选择将目标序列压缩为更短的离散隐变量序列,且其中隐变量的类型数少于翻译词表,综合而言具备更高的生成效率。
然而,已有的基于离散隐变量的NAT模型设置的隐变量类型数目众多(多于10000种),且伴随着极低使用率(低于10%),显然并非最佳方案。我们认为其一个可能的原因是对离散隐变量之间的关联缺乏建模。更直觉的理解则是,当下设置的每个隐变量潜在地被要求对应着复杂的文本片段,而文本片段是多样且稀疏的,其一方面要求模型设置更多的离散隐变量,同时由于过于稀疏,隐变量之间的关联难以有效建模。
02
—
解决方案
直觉而言,隐变量的类型数目其实并不需要很多。正如以往在机器翻译任务中的探索,如果提供输出序列的句法或者词性类别信息,模型就能极大的提升翻译性能,而词性或者句法类别的数目往往是极少的。
因此,我们提出基于类别信息的NAT模型(CNAT模型),将目标序列的类别信息建模为离散隐变量,并希望它能刻画出类似词性或者句法类别的含义,以此来提升模型的性能。具体地,不同于已有工作选择建模更短的隐变量序列,我们设置了与目标序列等长的隐变量序列。即,每个目标输出均对应着一个隐变量。同时,由于我们假定的类别数目(少于128个)远少于已有的基于离散隐变量的NAT模型,因而可以进一步使用结构化学习模型(条件随机场模型,CRF)加强隐变量之间的关联建模。
CNAT模型总体遵循了基于隐变量的NAT模型的基本架构,包含编码器、长度预测器、基于CRF的隐变量预测器、解码器。其工作流程为:
编码器首先对输入序列进行编码
长度预测器对目标序列长度进行预测 ,并使用SoftCopy机制将输入序列分配成对应目标长度获取解码器输入
在训练阶段,通过向量化(vector quantization)技术从目标序列得到类别隐变量,并用于监督隐变量预测器的训练;在测试阶段,则使用隐变量预测器预测类别隐变量
使用解码器从隐变量和解码器输入预测对应的目标序列
其中,编码器和解码器以及长度预测器的使用与与基础的NAT模型基本一致,我们重点对隐变量的建模以及对隐变量的使用进行了设计。
隐变量的建模包含类别信号的获取及对应的预测器的训练。借鉴已有工作中的做法,我们使用向量化技术获取与目标序列等长的类别信息,并使用线性链的条件随机场模型建模隐变量序列。具体而言,对于每个目标序列y ,我们设置了与它等长的隐变量序列z,假定每个隐变量捕获与其同编号的目标输出的类别信息,并以此将目标序列的概率建模为:
我们将向量化技术得到的隐变量序列作为隐变量的后验采样,并相应地使用指数平均移动(exponential moving average)算法对其包含的编码表进行更新,可以直觉地将其这个过程理解为一种带动量的聚类算法,每种隐变量均对应着一个模糊的目标语言类别。
隐变量的预测总是存在错误的,因此,若一直使用后验采样出的隐变量序列,则会存在预测与训练的不一致带来的暴露偏差风险。为此,我们提出结合门控神经网络(gated neural network, GateNet)策略采样(schedule sampling)算法对隐变量的使用过程进行设计。具体地,我们选择使用门控机制来结合解码输入和隐变量信息,使模型可以在隐变量提供信息时选择输入表示进行解码训练,从而降低暴露偏差风险。为了使门控机制发挥作用,在训练阶段,我们引入了策略采样算法(schedule sampling),替换后验采样出的隐变量的一部分为预测出的隐变量并输入给给门控神经网络。
03
—
实验与分析
实验选用了经典的机器翻译任务数据集,即WMT14 EN-DE以及IWSLT14 DE-EN数据集,并与一系列同样基于隐变量的NAT模型以及其他代表性的、性能较强的NAT模型从翻译性能和翻译效率两个角度进行了对比和分析。
从翻译性能角度而言,我们的模型在各种实验设定下获取了接近或者超过当前最佳NAT模型的性能。具体来看,表1为使用原始数据集训练的各个NAT模型的评测结果。我们可以看到:CNAT模型获取了最佳的翻译性能,大幅度地超过了原始的NAT模型,并超过了一系列同样使用了隐变量技术的NAT模型(LV-NAT、SynST、Flowseq)。
表 1使用raw data数据集的NAT性能
知识蒸馏技术是一种极为有效的提升NAT模型的训练方案,表2为该技术下各NAT模型的评测性能。我们可以看到:在使用了知识蒸馏技术后,各NAT模型均获取了最佳的翻译性能;同样地,CNAT模型超过了已有的基于隐变量的NAT模型,并同样优于在输出空间使用条件随机场解码的NAT-DCRF模型。表明:在隐空间中使用CRF建模,相对于输出空间的CRF是一种更为有效的方案。
表 2使用蒸馏数据集训练的NAT性能
使用迭代解码或者重排序策略弥补NAT模型无法进行柱搜索的不足,NAT模型获取了各自最好的性能,如表3所示。使用重排序策略技术,我们的CNAT模型获取了与低效的迭代式解码相近的翻译性能,同时却有着更高的加速比。
表 3 使用重排序技术的NAT性能
表 4使用迭代解码技术的NAT性能
对翻译效率分析如图2所示。我们可以看到:CNAT模型位于右上方——当CNAT模型与其他NAT模型在BLEU相近时,具备更高的加速比;而在加速比相近时,CNAT模型又有着更高的翻译BLEU。表明CNAT在翻译质量和翻译效率之前获取了更好的平衡。
图 2 NAT模型的翻译质量-加速比散点图
表5为对所提出组件的消融实验,可以发现:GateNet机制以及条件随机场均可以使得CNAT模型获取一定的性能提升。此外,我们还观察到设置64中隐变量时,模型可以获得最佳的翻译性能,与我们认为模型仅需少量的隐变量的观点相一致。
表 5消融实验分析
此外,对离散隐变量的定量以及定性观测则表明,我们学习出的类别信息表现出了与词性类别之间具有强关联性。
表 6隐变量类别与词性、词频之间的相关性分析
我们选取了最为高频的10种隐变量,并绘制了各隐变量在训练集中对应的词性分布情况,如图3所示。我们可以看到:各个隐变量的前三个词性类别占比之和均超过了75%,且其中最高占比超过40%,说明了我们学出的隐变量具有明确的倾向性,与词性之间存在模糊的对应关系,与表7中的定量分析结论相一致(即,与词性之间具有很高的H-score)。
图 3高频隐变量对应的词性分布情况
04
—
总结与展望
非自回归翻译是时下机器翻译研究的热门课题,区别于传统的自回归式建模方案,NAT通过提供了一种更强的假设,探索了一种具备着极高效率的翻译范式,然而,过强的假设是一把双刃剑,NAT模型不具备着像Transformer模型一样的高质量。引入隐变量的方案一定程度上可以缓解模型过强的假设,通常可以获得更佳的性能。然而,过于复杂的隐变量建模方案,使得其在易用性和实用性上受到巨大的质疑。本文研究则表明:在并行生成目标端翻译之前,仅需要一种简单、有限个数的文字类别信息的隐变量建模,我们就可以利用类别之间的信息建模文字之间的关联性,在保证翻译效率的同时,极大地提升翻译的质量。
未来,我们将探索如何更加准确且高效地刻画并行生成的文字之间的关联,并通过建模这种关联来缓解NAT模型过强的独立性假设,从而获取兼具高效与高质量的翻译模型。(论文链接:https://arxiv.org/pdf/2103.11405.pdf)
05
—
参考文献
[1].Shu R, Lee J, Nakayama H, et al. Latent-variable non-autoregressive neural machine translation with deterministic inference using a delta posterior. AAAI 2020
[2].Ma X, Zhou C, Li X, et al. FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow. EMNLP-2019
[3].Kaiser L, Bengio S, Roy A, et al. Fast decoding in sequence models using discrete latent variables. ICML 2018
[4].Roy A, Vaswani A, Parmar N, et al. Towards a better understanding of vector quantized autoencoders. Arxiv preprint 2018.
作者:鲍宇
编辑:刘莉
校审:何亮
说个正事哈
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!
【NAACL2021】基于隐式类别建模的非自回归式翻译相关推荐
- 【论文阅读】Paraformer工业级非自回归端到端语音识别模型
Paraformer: Fast and AccurateTransformer for Non-autoregressive End-to-End Speech Recognition 摘要 介绍 ...
- 基于隐式神经网络表达的数据压缩
数据压缩是一种在日常生活中广泛应用的技术,从算法角度来讲,压缩的过程是通过改变数据的表征范式以达到保留信息.去除冗余的过程.近来,深度学习在数据压缩领域的应用不仅表现出极好的性能,还为数据表征提出了具 ...
- 基于概率论的生成式建模新模式
目录 摘要 基础概念 判别式与生成式 PCA降维,自编码器,变分自编码器的联系 VAE与GAN 绝对连续分布与狄拉克分布 问题描述:两个条件分布能否确定联合分布 CyGen 理论分析 CyGen满足相 ...
- 人大赵鑫:基于图神经网络,建模知识图谱
报告 | 赵 鑫 撰文 | 熊宇轩 我这里主要给大家介绍一下利用图神经网络能做一些什么事情,这里面主要关注知识图谱的建模与应用. 在本次报告中,我们将从三个方面介绍基于图神经网络的知识建模与应用: ...
- 2020最佳双人博弈对抗方法 | 基于强化学习对手建模的滚动时域演化算法「AI核心算法」...
关注:耕智能,深耕AI脱水干货 作者:唐振韬 报道:深度强化学习 CASIA 转载请联系作者 前言 格斗游戏是一项极具挑战的双人实时对抗人工智能博弈任务,常具有组合动作空间规模大.角色属性风格多样. ...
- 非自回归也能预训练:基于插入的硬约束生成模型预训练方法
论文标题: POINTER: Constrained Text Generation via Insertion-based Generative Pre-training 论文作者: Yizhe Z ...
- “非自回归”也不差:基于MLM的阅读理解问答
作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 前段时间写了万能的Seq2Seq:基于Seq2Seq的阅读理解问答,探索了以最通用的 Seq2Seq 的方式来做阅 ...
- 基于 Visio 的数据库建模(2)
Visual Studio .NET Enterprise Architect 中基于 Visio 的数据库建模:第二部分 Terry Halpin Microsoft Corporation 200 ...
- 基于Bert的语义相关性建模
文章目录 搜索相关性定义 字面相关性 语义相关性 1 传统语义相关性模型 2 深度语义相关性模型 基于表示的匹配sentence representation 基于交互的匹配sentence inte ...
- 容量耦合系数模型_期刊在线 | 基于ALE流固耦合方法的刷式密封泄漏特性理论与实验研究...
01 引言 刷式密封是一种广泛应用于航空发动机等透平机械的优良接触式动密封[].近年来,随着透平机械逐渐向高参数方向发展,由刷式密封引起的泄漏损失越来越大,直接影响透平机械的工作效率.因此开展刷式密封 ...
最新文章
- 为“证明实力”,某医院前网管离职后远程入侵服务器,致诊疗系统瘫痪
- 人才市场最吃香四个专业,就业前景好,很容易拿到高薪!
- Element UI——日期时间选择器el-date-picker开始时间与结束时间约束解决方案
- 企业微信_通讯录管理,获取部门列表部门成员及详情
- 'parent.relativePath' points at no local POM
- JS实现下一天的显示
- 【刷题】BZOJ 1023 [SHOI2008]cactus仙人掌图
- 苹果电脑如何快速用计算机,苹果电脑快捷键如何使用 Mac快捷键大全详细教程...
- linux下使用libxml2库,解析xml文件
- 2021年隐私和安全性最佳的8款Linux手机
- 网安渗透测试面试集1
- json发送数据加密方法_发送加密的电子邮件和安全邮件的最佳免费方法
- android地图方位角,根据两点经纬度,计算距离、方位角
- 数据结构实践项目-------停车场管理系统
- 从键盘输入十个整数,统计非负数的个数,计算非负数的和
- Python实现定时在微信群发送消息
- Selector空轮询
- 海思SD3403开发/SS928V100 移植Yolo模型
- 网络最大流中一般增广路算法(标号法)
- 团队协作与团队内部竞争_从个人团队到竞争组织