AAAI2023 | 基于课程学习的机器翻译质量评估去噪预训练

每天给你送来NLP技术干货！

来自：南大NLP

点击这里进群—>加入NLP交流群

研究动机

机器翻译质量评估(Quality Estimation, QE)任务指在没有参考译文的情况下，仅依靠源语句(Source)评估机器翻译句子(MT)的质量。表1展示了QE词级别和句子级别任务。QE在机器翻译系统的应用中起到了重要的作用，例如QE可以通过过滤低质量MT或指示MT中错误的词语来提高人工译员改正MT的效率[1]、通过指导翻译系统解码过程来提高机器翻译质量[2]。

表1：QE数据样例：词级别任务将每个词语标记为OK或BAD，BAD表示该词语需要修改（表格中加粗字体并带有下划线的词语）；句子级别任务需要预测HTER分数[3]，表示该MT需要修改的比例。

然而，标注QE数据非常昂贵，稀缺的数据严重影响了QE模型性能。因此，预训练-微调策略被广泛地用于将平行语料中的双语知识迁移到QE任务中。Predictor-Estimator框架首先预训练一个称作Predictor的特征提取器，Predictor预训练时需要根据源语言句子和目标语言的上下文预测参考译文中的每个词。Cui等人[4]指出Predictor任务与QE任务的差异会阻碍双语知识的迁移。为了解决这个问题，他们设计了DirectQE框架。该框架首先生成伪QE数据（伪MT和对应的伪QE标记），然后直接使用伪数据预训练整个QE模型。为了生成带有可控错误的伪MT，DirectQE使用条件的Masked Language Model替换平行语料中随机的目标端词语。替换的词语被标记BAD，替换的比例作为句子级别分数。

尽管DirectQE取得了出色的性能，我们注意到生成的伪数据中仍然包含噪音。虽然生成数据的伪标记准确，但是伪MT有时和真实MT存在明显差异。具体来说，伪MT中可能包含更多无意义的伪翻译错误，一个良好训练的翻译模型几乎不会生成这些错误。其次，伪MT的统计特征（例如长度分布、领域等）与真实MT不同。从迁移学习的视角来看，预训练分布与目标分布之间的差异会导致迁移性能下降[5]。

为了解决这个问题，我们提出了基于课程学习[6]的去噪预训练框架CLQE。首先，我们定义了多种指标用来度量伪QE数据中包含噪音的程度。其中包括两种基于统计特征（句子长度和词频）的无模型指标和三种使用代理翻译模型估计真实QE数据分布的指标。然后，我们提出了一种基于模型能力的课程用来缓解伪数据噪音的负面影响。如果图1所示，CLQE从干净的数据上开始预训练，当模型能力增长时，课程逐渐将噪音更多的数据暴露给模型。通过这种方法，CLQE理论上为干净数据分配了更大的学习权重，并且能够最小化QE任务期望风险的上界[7]。

图1：CLQE预训练过程从干净子集Q^1逐渐地过渡到整个伪数据集合P_pseudo，P_QE表示我们期望学习的目标分布。

贡献

我们证明了伪QE数据中包含噪音，噪音的主要来源是伪MT与真实MT的差异。
我们提出了伪QE数据去噪预训练框架CLQE，CLQE度量噪音并通过课程学习减小噪音数据对模型的负面影响。
我们在不同QE数据集上取得了SOTA性能，分析实验进一步展示了CLQE的优越性。

CLQE框架

3.1噪音

伪数据的噪音主要有两个来源：伪标记错误；伪MT与真实MT的差异。我们在WMT20 EN-ZH数据集上分析了这两个噪音来源。

DirectQE生成数据的伪标记错误主要来源是假负例：一个正确的同义替换词被标注为BAD。但是，由于DirectQE的负采样策略这种情况很少发生。我们人工检查了20个随机伪QE数据，其中词级别标签准确率达到了0.972（95%置信区间为0.957-0.987）。因此，本研究主要关注于伪MT而不是伪标记。

伪MT可能在以下几个方面与真实MT存在差异：

先进模型生成的MT是自回归风格的（即使非自回归模型也使用了自回归数据进行蒸馏），而DirectQE生成数据是完全非自回归的。因此，伪MT会引入更多由于缺乏上下文依赖所导致的错误，例如无意义的重复。数据表明伪MT中出现连续重复单词的频率显著高于真实MT（平均每句包含0.560 vs. 0.012次连续重复）。此外，为了采样到真正的负例，设计的采样策略倾向于选择低生成概率词语。以上原因最终导致伪MT比真实MT的流畅性更差（通过GPT-2计算得到的Perplexity 135.21 vs. 66.61）。
大多数平行语料收集自新闻领域，但是QE数据可能来源于其他领域。这导致通过平行语料生成的伪数据的统计特征（句子长度、词频等）和真实数据存在明显差异。

3.2噪音度量

受到统计QE方法[8]和机器翻译课程学习方法[9]的启发，我们基于源语言句子统计特征提出如下两种无模型噪音度量指标。

句子长度：更长的伪MT句子包含噪音的可能性更大。因为生成器需要修改更多的词语，更容易引入一些不相关的翻译错误。此外，更长的真实MT可能包含更复杂的翻译错误（例如不恰当的句子结构），生成器更难模拟这类错误。我们将该指标定义为：

词频：与句子长度相似，包含更多低频词的源句更难生成合适的伪MT。并且，低频词合适的替换选项更少。根据源句X中词语的词频，我们可以定义如下指标：

建模翻译句子分布是度量伪MT与真实MT差异更直接的方案。然而，在黑盒设定下，目标翻译模型是不可获取的。因此，我们提出以下替代方案。

代理MT模型生成概率：使用平行语料，我们可以训练一个代理翻译模型。我们利用代理模型的生成概率来度量伪MT的噪音程度：

我们假设该生成概率可能与目标模型的生成概率接近。并且，该指标可以检测那些由于缺乏上下文依赖所产生的翻译错误。

微调后MT模型生成概率：在机器翻译领域迁移领域，一种常见的策略就是在通用领域翻译模型上使用小规模领域内数据进行微调。受此启发，我们使用QE数据中的源句和MT对代理翻译模型进行微调。请注意我们的目标不是提升代理翻译模型的翻译性能，而是模拟目标翻译模型的行为。指标定义为微调后MT模型的生成概率：

交叉熵差异：下式所定义的交叉熵差异(CED)被广泛用于评估平行句对的领域相关性[10]。

CED可以检测那些更像目标模型生成而不是代理模型生成的伪MT。

3.3去噪课程

受到基于模型能力的课程学习方法启发，我们设计了算法1。具体来说，根据选定的噪音度量指标，我们可以为每个样本计算噪音分数，通过累积密度函数(cumulative density function, CDF)将噪音分数规范化到[0,1]区间。我们假设模型能力随训练轮数线性变化：

其中T表示课程的长度，c_0表示模型训练前的初始能力。随着模型能力的增强，我们加入噪音更多的伪数据。

实验

4.1实验设定

数据集：WMT19 英语-德语(EN-DE)和WMT20 英语-汉语(EN-ZH) QE数据集。对于每个语言方向，我们随机从WMT QE 比赛提供的平行语料中采样了约300万句对用于实验。

评价指标：句子级任务采用Pearson相关系数（WMT19和20首要评价指标），平均绝对误差(MAE)，均方根误差(RMSE)。词级别任务采用 F1-MULT(WMT19首要评价指标)和Matthews相关系数(MCC，WMT20首要评价指标)。 F1-MULT为OK与BAD标记F1分数的乘积。所有指标越大表示模型性能越强。

4.2实验结果

表2展示了WMT19 EN-DE和WMT20 EN-ZH QE任务的结果。由于使用了XLMR large模型中额外的跨语言知识和更大的QE模型，我们复现的DirectQE显著高于原始DirectQE论文中的结果。与这个强基线相比较，不论使用哪种噪音度量指标，提出的CLQE都取得了更优越的表现。两种无模型噪音指标轻微的提高了模型性能，表明它们在有限计算资源下仍然是理想的选择。在WMT19 EN-DE QE任务中（黑盒设定），QE Prob指标比Prob指标更强，表明微调有助于更好的模拟目标模型；CED指标取得了最好的结果，相对于强基线Pearson提高了2.87、F1-MULT提高了1.94。在 WMT20 EN-ZH QE任务中（白盒设定），使用目标翻译模型计算的QE Prob取得了最好的结果，相对于强基线Pearson提高了1.52、MCC提高了1.67。

表2：主要结果（*表示QE Prob使用目标翻译模型计算）。

表3和表4展示了我们的集成结果，结果显示我们在相应的任务上取得了新的SOTA性能。

表3：WMT19 EN-DE集成结果。

表4：WMT20 EN-ZH集成结果。

分析

5.1噪音度量指标的影响

如表2所示，不同的度量指标导致了截然不同的结果。我们希望探索这些指标如何影响性能。假设真实QE数据比伪数据噪音更少，那么更好的噪音度量指标应该能更好的区分真实数据和伪数据。我们设计了一个数据区分任务来评价各个噪音度量指标的能力。具体来说，我们随机从WMT19 EN-DE QE测试集中随采样一个真实数据样本和一个伪数据样本，噪音度量指标应该给真实样本打更低的噪音分数。如表5所示，Length和Rarity比随机猜测的准确率略高，CED取得了最高的准确率。有趣的是，表5中度量指标的能力排名与表2中QE任务性能的排名相似。图2也展示出CED能够很好的区分真实数据和伪数据。

表5：区分真伪数据准确率。

图2：WMT19 EN-DE任务真/伪数据CED分数的CDF曲线。

5.2去噪课程的影响

为了展示去噪课程更好的利用了伪数据，我们在WMT19 EN-DE任务上与数据过滤方法进行了比较。具体来说，我们使用CED分数将伪数据从干净到包含噪音进行排序，然后不使用课程学习在前25%、50%、75%的数据上进行预训练过程。如表6所示，仅使用50%数据，我们就可以取得和使用全部数据相当的性能。该结果表明部分伪数据确实对下游真实QE任务有害。尽管使用75%数据的结果超过了基线，但是仍然显著低于CLQE的结果。这是因为过滤掉的伪数据可能包含一些有用信息，而CLQE是通过减小噪音数据的负面影响而不是忽略这些数据。

表6：WMT19 EN-DE任务上CLQE与数据过滤方法的比较。

5.3收敛速度

为了验证CLQE是否具有加速收敛的能力，我们在WMT20 EN-ZH任务上进行了实验。图3左图显示，QE Prob在伪数据验证集loss上的收敛速度反而慢于基线模型。然而，正如我们之前所讨论的，真实数据与伪数据存在较大差异，因此伪数据验证集可能无法反映出真实模型性能的收敛趋势。为了解决这个问题，我们在预训练时每4.2K步保存一个检查点，并在该检查点上使用真实数据微调和测试。如图3右图所示，在真实数据测试集上，QE Prob收敛显著快于基线。此外，我们注意到QE Prob只需要25K步就可以达到表2中80K步所取得的性能。因此，使用真实数据检测预训练过程可能是更好的选择，尽管这种策略需要更多的计算和存储资源。

图3：左图，预训练Step vs. 伪数据验证集Loss；右图，预训练Step vs. 真实数据Pearson分数。

总结

由于QE数据的稀缺性，使用伪QE数据预训练的方法变得越来越重要。本研究指出伪QE数据中存在噪音并且讨论了噪音的来源。我们提出了一种新的伪QE数据去噪预训练框架CLQE。CLQE定义了如何度量噪音以及如何组织伪QE数据的呈现顺序。实验和分析展示出CLQE的有效性。

（该工作是由南京大学与华为翻译服务中心合作完成，南京大学为第一完成人）

[1] Specia, L. 2011. Exploiting objective annotations for minimising translation post-editing effort. In Proceedings of the 15th Annual conference of the European Association for Machine Translation.

[2] Wang, K.; Wang, J.; Ge, N.; Shi, Y.; Zhao, Y.; and Fan, K. 2020a. Computer Assisted Translation with Neural Quality Estimation and Auotmatic Post-Editing. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings, 2175–2186.

[3] Snover, M.; Dorr, B.; Schwartz, R.; Micciulla, L.; and Makhoul, J. 2006. A study of translation edit rate with targeted human annotation. In Proceedings of association for machine translation in the Americas, volume 200. Cambridge, MA.

[4] Cui, Q.; Huang, S.; Li, J.; Geng, X.; Zheng, Z.; Huang, G.; and Chen, J. 2021. Directqe: Direct pretraining for machine translation quality estimation. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, 12719–12727.

[5] Tan, B.; Zhang, Y.; Pan, S.; and Yang, Q. 2017. Distant domain transfer learning. In Proceedings of the AAAI conference on artificial intelligence, volume 31.

[6] Bengio, Y.; Louradour, J.; Collobert, R.; and Weston, J. 2009. Curriculum learning. In Proceedings of the 26th annual international conference on machine learning, 41–48.

[7] Gong, T.; Zhao, Q.; Meng, D.; and Xu, Z. 2016. Why curriculum learning & self-paced learning work in big/noisy data: A theoretical perspective. Big Data & Information Analytics, 1(1): 111.

[8] Specia, L.; Shah, K.; De Souza, J. G.; and Cohn, T. 2013. QuEst-A translation quality estimation framework. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 79–84.

[9] Platanios, E. A.; Stretcu, O.; Neubig, G.; Poczos, B.; and Mitchell, T. 2019. Competence-based Curriculum Learning for Neural Machine Translation. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 1162–1172. Minneapolis, Minnesota: Association for Computational Linguistics.

[10] Wang, W.; Caswell, I.; and Chelba, C. 2019. Dynamically Composing Domain-Data Selection with Clean-Data Selection by “Co-Curricular Learning” for Neural Machine Translation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 1282–1292. Florence, Italy: Association for Computational Linguistics.

AAAI2023 | 基于课程学习的机器翻译质量评估去噪预训练相关推荐

讯飞机器翻译质量评估挑战赛Baseline(PaddlePaddle)
赛题简介比赛地址:点击直达举办方:科大讯飞股份有限公司任务类型:质量评估(QE).自然语言回归赛事背景机器翻译质量评估(QE)指在没有人工翻译参考下对机器翻译系统译文进行自动打分.一方面,Q ...

AI实战：基于深度学习的空气质量预测模型开源代码汇总
基于深度学习的空气质量预测模型开源代码汇总一.传统机理空气质量模型空气质量模型是基于人类对大气物理和化学过程科学认识的基础上,运用气象学原理及数学方法,从水平和垂直方向在大尺度范围内对空气质量进行 ...

论文篇 | 基于深度学习的机器翻译论文总汇
本文主要是通过粗略阅读论文,了解基于机器翻译的idea的实现. 机器翻译是将源语言中的句子翻译成不同目标语言的任务.机器翻译的方法可以从基于规则的到基于统计的到基于神经的.最近,像 BERT 这样的基 ...

teablue数据分析_基于大数据分析的茶叶质量评估
引言茶叶是茶加工企业生存和发展的基本保障,是茶产品能够顺利发展的重要资源.茶叶的质量和产量,通常会遭受各种大气条件以及生态条件和生产措施的影响.为了保证茶叶质量,需要监测茶叶生产的整个周期. ...

基于课程学习（Curriculum Learning）的自然语言理解
©PaperWeekly 原创 · 作者|张琨学校|中国科学技术大学博士生研究方向|自然语言处理论文标题: Curriculum Learning for Natural Language Un ...

学习AI之NLP后对预训练语言模型——心得体会总结
一.学习NLP背景介绍: 从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像深度学习的学习,初步了解了关于图像标注.图像分类.物体检测,图像都目标物体检测等 ...

基于垂直领域语料，使用MaskLM任务预训练Bert模型
项目介绍使用Mask LM预训练任务来预训练Bert模型. 基于pytorch框架,训练关于垂直领域语料的预训练语言模型,目的是提升下游任务的表现. 代码及示例数据:https://github.c ...

清华大学：刘洋——基于深度学习的机器翻译
来源:图灵人工智能概要:机器翻译的目标是利用计算机实现自然语言之间的自动翻译.机器翻译经历了规则机器翻译.统计机器翻译.神经机器翻译. 刘洋,清华大学计算机科学与技术系副教授,博士生导师,国家优秀青 ...

基于KPI/KQI的语音质量评估系统
程序及源代码下载地址http://download.csdn.net/detail/gshengod/5645435 随着移动通信技术的发展,运营商之间的竞争日益激烈,从2G到2.5G再到如今的3G技 ...

最新文章

[Go] golang的MPG调度模型

fatal error RC1004: unexpected end of file found处理方法

【视觉项目】【day2】8.21号实验记录（手机固定高度15cm拍摄+直方图均衡化+模板匹配，模板12个，测试28个，效果十分差）

【51单片机快速入门指南】4.4.2：Mahony AHRS 九轴姿态融合获取四元数、欧拉角

Oracle历史记录

MongoDB之写安全(Write Concern)

ruby中数组的常用函数

【官方方法】MacBook2017 双系统恢复macOS High Sierra

新增四则运算用户选择功能小程序

*揭秘！阅读类APP如何实现自动阅读赚钱**

关于lora和lorawan所涉及的名词解释

烽火通信2018校招软件工程师编程题 - 题解

mysql导出数据为txt时报错：The MySQL server is running with the --secure-file-priv option so it cannot execut

麦田里的守望者——读后理解

AtCoder Beginner Contest 182----E. Akari

CVE-2017-8570漏洞利用

Python视频制作 MoviePy框架afx音频效果示例

C++基础知识（常函数）

关于币圈炒币你必须要知道的风险

更改Linux系统的主机名(hostname)两种实用的方法

热门文章

from flask._compat import text_type ModuleNotFoundError: No module named ‘flask._compa‘

设置了position: fixed；并且能够左右滚动 #html #Css

Xilinx软件开发：PMU实验

linux u盘中毒,linux对中毒u盘分区和格式化

【重要公告】包头市新型冠状病毒感染肺炎防控工作指挥部公告（2022年第4、5、6、7号）

图像处理之细化算法（Thinning Algorithm）C++实现

【Unity】角色动画控制

IDEA设置多行标签页

mx播放器有没有投屏功能_这个播放器真是太强大了！

chrome浏览器无法访问此网站并且响应时间长的方法