文档级机器翻译综述：A Survey on Document-level Machine Translation: Methods and Evaluation

author：Sameen Maruf, Fahimeh Saleh, Gholamreza Haffari , Monash University
comment：Accepted for publication by ACM Computing Surveys
paper：A Survey on Document-level Machine Translation: Methods and Evaluation

1 introduction

机器翻译是基于强独立性和位置假设，即要么逐字翻译，要么逐句翻译(SMT)，要么单独翻译句子(NMT)。文本，不是由孤立、无关的成分组成的，而是由复杂的语言成分结合在一起的结构化的句子群组成的，称之为语篇。忽视这些语篇要素之间的相互关系，会导致翻译在句子层面上可能是完美的，但缺乏文本的关键属性影响理解。解决这个问题的一个方法是利用更广泛的句子语境中的信息来挖掘文本的潜在语篇结构。

我们所说的文档级机器翻译是指利用句间语境信息的作品，包括文档的语篇方面或文档中的周围句子。

2 机器翻译：基础和评估

机器翻译已经存在了很长一段时间，人们提出了各种各样的方法来使它与人工翻译不相上下。机器翻译的方法与当前最先进的NMT模型密切相关，这里值得一提的是统计机器翻译（statistical machine translation,SMT）。给定另一种语言的源句子，SMT对一种语言的句子翻译概率进行建模。这个概率是通过使用包含源和目标翻译对的并行语料库训练统计模型来自动确定的。SMT相对于其前身的优势是它是数据驱动的和语言独立的，并且在基于神经网络的方法出现之前被认为是最先进的技术。

SMT(和NMT)的目标是在给定源语句的情况下找到最可能的目标序列，即: $y^=argmax⁡yP(y∣x)\widehat{y}=arg \max_{y} P(y | x)$

=argmaxyP(y∣x)

使用贝叶斯规则，这个条件概率可以重新表述如下: $y^=argmax⁡yP(y)P(x∣y)\widehat{y}=arg \max_{y} P(y)P(x | y)$

=argmaxyP(y)P(x∣y)

其中P(y)，也就是语言模型(LM)，通常基于三元模型概率并使用单语语料库进行估计，赋予流畅的语法句子更高的概率，而P(x | y)，也就是翻译模型，赋予具有相应意义的句子更高的概率。

虽然SMT在许多商业系统中得到了成功部署，但它的实际效果并不太好，并且有两个主要缺点：

首先，翻译决策是局部的，因为翻译是一个短语一个短语地进行的，而长距离的依赖性往往被忽略。
其次，也是更大的问题是，整个机器翻译管道变得越来越复杂，因为许多不同的组件必须单独调整，例如翻译模型、语言模型、重新排序模型等。这使得很难将它们组合在一起并拥有单一的端到端模型。

因此，当人工智能的冬天结束，神经网络作为解决自然语言处理问题的新方法重新出现时，它也被视为将它们用于机器翻译的下一个合乎逻辑的步骤。
自2014年以来，NMT已经开启了一个用于研究和商业目的的机器翻译的新时代。

一般来说，NMT模型基于编码器-解码器框架，其中编码器读取源语句来计算实值表示，解码器在给定前述表征后逐词生成目标翻译。

[Sutskever,2014]的初始模型使用源句子生成固定长度的特征表示来生成目标句子。它很快被基于注意力的编码器-解码器架构所取代，这种架构产生了一个动态的上下文表示。这些模型主要基于递归神经网络(RNNs) [Jeffrey,1990]，它使用递归连接来显示随时间推移的时间动态行为，因此非常适合于对序列信息进行建模。

然而，这种顺序计算的主要缺点是它阻碍了训练示例中的并行化，并且在处理较长的句子时成为瓶颈。最近，提出了一种新的模型体系结构Transformer，它完全基于注意力机制，完全避免了重复，已被证明在几个语言对上取得了最先进的结果。

尽管已经提出了很多MT评估指标（BLEU, METEOR, ROUGE 一般在翻译里用，CIDEr 一般在图像字幕生成里用），但我们仅提及最受欢迎的BLEU和METEOR。

最流行的自动评估方法是BLEU(Bilingual Evaluation Understudy，双语评估替代研究)，
BLEU自2002年首次提出以来已成为评价翻译结果的事实标准。它的核心思想是聚合机器翻译（predictiton）和参考译文（reference）之间重叠的单词和短语(n-gram)的数量。BLEU度量范围从0到1，其中1表示与参考译文（reference）的输出。虽然BLEU与人类的判断有很好的相关性[81]，但它仅依赖于准确率precision，而没有考虑召回率recall（参考译文里的 n-gram 有多少出现在了候选译文prediction中）。
METEOR的提出是为了解决BLEU的缺点
它通过在机器翻译（predication）和给定的参考译文（reference）之间执行单词到单词的对齐来对计算评分。在获得最终对齐后，METEOR使用Fmean–准确率precision和召回率recall的调和平均值。METEOR也显示出与人类判断有很高的相关性，甚至优于BLEU。

3 统计机器翻译中的语篇discourse

大多数机器翻译模型都是建立在强独立性假设（挖坑）之上的，无论是基于句子内部的位置假设(如基于短语的模型所做的)还是基于句子外部的位置假设(如今天最先进的NMT模型所做的)。

从语言学的角度来看，这一假设在实践中是无效的，因为任何文本都不仅仅是一个句子，做出这一假设意味着忽略文本的潜在篇章结构。

语篇discourse被定义为一组连续的、有结构的、连贯的句子。

就语篇结构理论而言，我们将提到尝试将语篇的不同方面纳入语篇结构理论的研究，从文档层面的语篇结构开始，然后是具体的语篇现象，如代词回指、词汇衔接和一致性、连贯和语篇连接词。为了本次调查的目的，我们将只提及那些考虑了句际语境信息的作品。

语篇结构Discourse Structure

衔接Cohesion

衔接是语篇的一个表面属性，指的是语篇单位在语法或词汇上联系在一起的方式。

第一种形式，语法衔接grammatical cohesion，是基于逻辑和结构内容。
第二种形式，词汇衔接lexical cohesion，是基于语义相关的词的使用。
大多数关于科技英语语篇的研究都集中在词汇衔接上，而一些研究则集中在代词回指的语法衔接上。

代词回指Pronominal Anaphora
是指代词指代前文中的内容，例如英语阅历理解中经常需要明确it，this，that的指代对象。这是机器翻译中一大挑战，因为：代词在各种语言中的用法和分布差异很大，只能通过进入句间语境来处理，特别是如果先行词不在同一个句子中的情况。

previous work

在SMT[Christian Hardmeier,2010]中使用单词依赖模型来合并共指解析系统的输出，并在第二遍[52]中使用包括来自共指系统的注释的双通方法，but没有产生较好的结果。

在[M. Nov´ ak,2014]和[Christian Hardmeier,Tiedemann,2013]中还存在跨语言代词预测，其中后一种尝试在神经网络分类器中使用APaphora链接作为潜在变量。

[Luong和Popescu-Belis ,2016]使用代词感知语言模型，该语言模型基于先前名词或代词的数量和性别来确定目标代词。然后，使用新的LM重新排名翻译假设，并提升了English→French shared task in DiscoMT 2015基准的性能。
他们还开发了一个完全概率的模型，基于形态和语义特征，使用西班牙语→英语SMT系统来改善西班牙语中英语的个人和专有名词的翻译。

[Werlen和Popescu-Belis ,2017]基于source (Spanish) and target
(English) texts的Coreference链接的相似性为SMT提出了一个Coreference-aware解码器。他们的后编辑方案导致代词翻译准确性的显着改善，而BLEU分数不变。

词汇衔接Lexical Cohesion
词汇衔接有两种形式：重复和搭配。重复是，使用相同词、同义词、反义词（有时也称为词汇一致性）实现。而搭配，使用通常共同出现的相关单词。

example：
重复：“Which dress are you going to wear?” – “I will wear my green frock,” uses the synonyms “dress” and “frock” for lexical cohesion
搭配：the phrase “once upon a time”
https://en.wikipedia.org/wiki/Cohesion_(linguistics)

有三个方向的思路试图在SMT中纳入SMT中的词汇凝聚力，通过采用：
(i) 基于缓存的方法cache-based approaches
[Tiedemann ,2010]试图通过使用使用指数衰减缓存的“自适应语言和翻译模型”来提升SMT中的词汇一致性，该模型从一个句子中将单词偏好携带到下一个句子。

[Zhengxian Gong,2011]还使用了一种缓存的方法，其中它们使用了三种类型的高速缓存：（i）动态缓存（类似于Tiedemann），使用前一句话的最佳翻译假设的双语短语对构建（ii）静态存储，保存从相似双语文档中提取的相关双语短语对的缓存，以及（iii）主题缓存，存储相关目标侧主题单词。他们的方法在Bleu评分方面对基线产生了重大改进。

(ii) 词汇链lexical chains
[Xiong et al.2014] 提出了一种模型，用于在其MT系统的翻译输出中寻找词汇衔接装置，然后根据条件可能性和相互信息奖励模型的正确表现。

(iii) 双通方法two-pass approaches：基于将文档上下文结合到从基线MT系统获得的初始翻译中。
[Tong Xiao,2011]等人首先识别源中的模糊词，然后使用其在目标文档中的平移分布获得了一组一致的翻译，之后通过删除不一致的短语对和第二次传递来更新短语表执行解码。

[Christian Hardmeier，2012]中的语义文档语言模型奖励在翻译输出中使用语义相关词（基于潜在语义分析），从而促进词汇内凝聚力。加西亚等人。

[Garcia，2014]提出了一种双通方法来改进已通过句子级模型获得的翻译。在获得初始转换之后，它们根据单词之间的意义，性别和数字分歧的不一致，检测目标文档中的错误翻译，并提出可能的更正。他们的方法没有得到基于自动评估得分的提高，他们声称是由于其模型所做的当地变化。之后，他们为词汇级别评分特征设计了词汇级别评分特征。

[Garcia，2015]通过根据Word Embeddings的文档的其他可能的翻译来测量单词转换的适用性和其它可能的翻译。

cohesion与coherence容易混淆，可查看这里挖坑

一致性Coherence

一致性是指文本单位与其连续性之间的潜在意义关系。这是一个更强的要求，以满足的是凝聚力而不是所需的文本，而且不仅体现了凝聚力，而且还有其他参考组件，如不同的文本的不同部分，指的是相同的实体（基于实体的一致性）和关系组件通过一致性关系在话语中的话语之间。因此，一致性统管文本是否总体上具有语义的，以及读者如何遵循它。

衔接词Discourse Connectives

也叫话语标记或提示词discourse markers or cue words，是表示文本中特定话语关系或话语结构存在的词语。

已经有研究试图评估MT的话语连接的歧义，并据报道，跨语言的隐式和显式话语联系之间的错配会导致翻译质量劣化。甚至明确注释源文本中的话语标记对中文翻译质量有限。

小结Conclusion

在回顾了SMT中语篇的相关工作之后，我们知道了将话语纳入SMT是一个难题，因为SMT管道中的各种组件以及对各种话语现象的精心制作的手工设计特征的依赖。

SMT不太擅长处理句法重排和长距离一致等句子级现象，即使可以通过后期编辑步骤来改善机器翻译系统输出(经常包含局部语法错误)的语篇特征，来自局部错误的噪声使得这种改善难以度量。

这些是长期以来机器翻译界推迟在这一领域进行有价值的研究的主要原因，主要导致研究强调了进行文档级机器翻译的重要性，但实际尝试这样做的实践工作较少。

4 神经机器翻译中的语篇Discourse

NMT和SMT中话语研究的研究的主要区别在于，NMT的研究中很少尝试明确模拟语篇现象。相反，它们通过不同的建模技术直接使用上下文中的句子，并表明它们在自动评估上的性能，有时在特定测试集上测试性能。

通过其他组件融合上下文

1 使用额外的上下文编码器和注意力机制

通过前面的源句，在额外的注意力组件中增加注意力的基于RNN的NMT架构（attentional RNN-based NMT architecture）。在先前的源句子上使用额外的注意力组件来增强注意力的RNN-based NMT架构。从源上下文注意力产生的上下向量作为附加输入加入到解码器隐藏层。最后，通过自动评估和跨语言代词预测，发现：在小语料上取得了一定的改进，但是在大语料上没有提高。

[Longyue Wang,2017]提出了上下文依赖的NMT模型（context-dependent NMTmodel），与上下文无关的基于句子的NMT模型在自动评估方面有显著改进。该模型使用了两级层次RNN（two-level hierarchical RNN）在3个源句子中获取信息（summarize information）：第一级RNN，遍历单个句子；第二级RNN，在前述单个输出向量上遍历上下文句子。最终综合向量（final summary vector）用于初始化解码器，或者作为解码器的额外输入。实验表明：使用在源端上下文时结果很好，而将目标端历史信息考虑进来却会损害翻译性能。

Bawden等人[7]使用多编码器NMT模型来利用来自先前源语句的上下文，通过使用级联、门控或分层注意来组合上下文信息和当前源语句的信息。此外，他们引入了一种方法，将多个编码器和对前一句和当前句的解码相结合。他们强调了目标端上下文的重要性，但报告了使用它时BLEU分数的下降。（有点打脸。。）

Voita等人[116]将最先进的Tranformer架构[113]中的编码器改为上下文感知编码器，该编码器有两组编码器，一个源编码器和一个上下文编码器，第一个L-1层共享。前一个源语句用作上下文编码器的输入，其输出由源编码器的L-th layer处理，然后使用门与源编码器的输出组合。上下文感知编码器的最终输出被feed到解码器。他们对英语→俄语字幕数据的实验和对语境信息对代词翻译的影响的分析表明，他们的模型隐含地学习了回指解析，这是很有前景的，因为该模型没有使用任何专门的特征。

2 extend the translation units with the context

Rios等人[89]主要研究神经机器翻译中的词义消歧问题。使用的方法之一是在文档中输入语义相似词的词汇链作为NMT模型的特征。词汇链是通过学习感知嵌入（sense embeddings）来检测的。虽然这种方法在通用测试集上没有比基线产生实质性的改进，但是在准确性方面比在相同工作中引入的目标测试集有一些改进。

Tiedemann和Scherrer [109]以两种方式扩展翻译单位:(1)仅扩展源句子以包括单个前一句，以及(2)扩展源句子和目标句子以包括相应上下文中的前一句，而不改变基于RNN的NMT模型。他们的结果表明：德语→英语字幕翻译的BLEU方面有微小改进，但通过进一步的分析和人工评估，发现了可以正确处理跨句子边界的参考表达的输出示例。

[Agrawal，2018]提出了以Transformer [113]作为基础模型来连接翻译单元的思想。对于源端，他们试验了多达三个前一句和一个后一句，而对于目标端，他们使用多达两个前一句作为上下文，即他们一起生成前一句和当前目标句。他们还使用了一个基于RNN的版本与他们的模型进行比较，发现当使用RNNs时，级联的性能不如 [Bawden等人使用的多编码器NMT模型]。他们把这归因于RNN固有的问题，即不能适应序列中的长期依赖性。对于Transformer，他们发现下一个源语句确实有助于提高NMT性能，而使用大量以前的目标语句会因错误传播而降低性能。他们得出结论：变压器通过自我关注捕捉长期依赖的能力使一种简单的技术（如上下文句子的连接）优于其对应的RNNs方法和多编码器方法。

最近，Scherrer 等人[92]从话语的不同方面研究了基于连接的上下文感知NMT模型(concatenation-based
context-aware NMT models)的性能。他们考虑了两个流行的数据集，OpenSubtitles2016 corpus and the WMT 2019 news translation task的语料库子集。拼接设置的实验配置受[1]和[40]的启发。为了测试文档级系统的总体性能，他们评估了具有一致(上下文句子的自然顺序)和人为加扰的上下文(随机或无上下文)的系统。他们发现，使用加扰的上下文会降低字幕数据的性能，但不会降低WMT数据的性能，并将其归因于上下文中句子的长度和数量的差异(当在上下文中使用固定数量的标记时)。

通过双通方法融合上下文

本节中的工作可以分为五种类型：
(1)用文档级标记扩充源语句augment the source sentence with document-level token

梅塞和塞尔万最近的工作[60]属于第一类：通过在源语句的开头添加一个文档标记作为附加标记来说明全局源上下文信息，并在训练模型时用文档级嵌入来替换它。文档级嵌入只是训练句子级模型时学习的单词嵌入的平均值。此外，单词嵌入是固定的，同时训练文档级模型以保持单词和文档嵌入之间的关系。编码器输入中的这一微小变化为英语-法语语言对的两个翻译方向都产生了有希望的结果，尽管在三个测试集中的两个测试中，它没有为英语→德语产生显著的改进。

(2)使用缓存来存储上下文信息

(3)使用额外的上下文编码器和注意力

Maruf和Haffari[65]属于使用额外上下文编码器和注意力的第三类工作，他们提出了一个文档级神经机器翻译模型，该模型通过对源文档和目标文档中的句子的粗略注意力，成功地捕获了全局源文档和目标文档上下文。他们的模型利用外部记忆增强了普通的基于RNN的句子级NMT模型，从而将源方和目标方的文档相关性结合起来。在应用注意之前，他们使用两级RNN只对文档中的源句子进行编码，并且由于存在错误传播的风险，不会对目标句子执行任何额外的编码。他们还提出了一种基于块坐标下降的迭代解码算法，并在统计上显示了三种语言对的翻译质量比上下文无关的基线有显著提高。

(4)仅使用上下文上的注意力模型
(5)引入上下文感知解码器

4、5中的work太多了，暂时先不看。

在训练时奖励正确使用上下文

到目前为止提到的所有工作都提出了神经体系结构，并在基本句子级NMT模型中采用修改模型结构的方式来结合上下文信息。但是，即使使用扩展的NMT模型，并非所有附加的上下文信息都是有用的，为了获得更好的性能，必须忽略其中的一些信息。

郑等人[130]介绍了一个通用的框架，该框架利用判别器discriminators来鼓励模型忽略外部环境中的无关信息。尽管他们没有用文档级的上下文(或者任何一种连续的外部上下文)来测试他们的方法，但是这个想法可以很好地扩展到这一点。

让和乔[35]从学习的角度来看待这个问题，并设计了一个正则化术语来鼓励NMT模型以一种有用的方式利用额外的上下文。该正则化术语应用于标记、句子和语料库级别，并且基于成对排序损失，也就是说，它有助于为与正确上下文配对的翻译分配比与不正确上下文配对的翻译更高的对数概率。

最近，Stojanovski and Fraser [105]介绍了一种curriculum learning方法[8]，该方法利用甲骨文信息（oracle information）来促进回指解析，同时训练上下文感知的NMT模型。他们建议最初使用黄金标准的目标代词以及前面的上下文和源句，以使模型偏向于关注与甲骨文代词相关的上下文。然后，他们逐渐从数据中删除甲骨文代词，以使模型在遇到源句中的歧义代词时更加关注上下文，从而提高回指分辨率。他们的实验表明，在较高的学习率下，他们的方案在代词翻译和整体翻译质量方面无法击败仅用上下文微调的上下文感知NMT模型。然而，对于较低的学习率和25%的初始甲骨文样本，他们的方法是有效的，但仍然落后于以较高学习率训练的上下文感知NMT模型。他们的方法可以扩展到其他的话语现象，只要有用的oracle information容易得到。

在WMT19和WNGT19中共享任务

鉴于过去两年文档级NMT（document-level NMT）的大量研究，第四届机器翻译会议(WMT19) 和第三届神经生成和翻译研讨会(WNGT 2019) 分别引入了新闻和体育文章的文档级翻译作为共享任务之一。这在该领域开辟了显著的创新，包括文档级模型训练的方法，来利用更广泛的文档上下文和文档级评估。为了帮助完成这项任务，WMT19产生了新版本的欧洲议会、新闻评论和快速语料库，文档边界保持不变。

总结

5 评估

机器翻译的输出几乎总是使用像BLEU和METEOR这样的度量来评估，它们使用翻译和参考之间的ngram重叠来判断翻译质量。然而，这些衡量标准并没有在翻译中寻找特定的话语现象，因此在评估生成的较长文本的质量时可能会失败。随着翻译质量的提高，迫切需要文档级的评价，因为与语篇现象相关的错误在句子级的评价中是不可见的。

在为特定的话语现象提出新的评价标准方面已经做了一些工作，这些工作看起来很有希望，但是在机器翻译社区中对它们的使用没有共识。其中大多数都是根据参考文献进行评估，而没有考虑到上下文。也有人建议使用评估测试集，或者更好地将它们与半自动评估方案相结合。

特定话语现象的自动评估

已经有一些工作提出了基于参考的自动评价指标来评价特定的话语现象。对于代词翻译，第一个度量标准是由Hardmeier and Federico[29]提出的，它直接衡量代词的精确度和召回率。首先，在源语言和翻译输出之间，以及源语言和参考翻译之间产生了词对齐。对于源中的每个代词，都会计算一个删减的计数，它被定义为代词在翻译输出中出现的次数，该次数受其在参考翻译中出现的次数的限制。最终的度量是基于这些剪裁计数的精度、召回率或分数。

Werlen等人[77]提出了一个估计代词翻译(APT)准确性的度量标准，即对于每个源代词，它计算其翻译是否可以被认为是正确的。它首先基于通过启发式改进的词对齐来识别代词的三元组:(源代词、参考代词、候选代词)。接下来，比较机器翻译输出和参考文献中源代词的翻译，并计算输出和参考文献中相同、等效或不同/不兼容翻译的数量，以及候选翻译缺失、参考翻译缺失或两者都有的情况。每种情况都被赋予一个介于0和1之间的权重，以确定给定参考的机器翻译输出的正确程度。重量和计数然后被用来计算最后的分数。

最近，Jwalapuram等人[43]提出了一种专门的代词评价方法，该方法是基于两个候选翻译(有或没有过去的上下文)之间的成对评价来区分好的翻译和坏的翻译。这种方法执行评估时不考虑源语言，并且显示出与人类判断高度相关。他们还提供了一个目标代词测试套件，涵盖多种源语言和英语中的各种目标代词。他们的测试集和评估措施都基于实际的机器翻译系统输出。

后续还介绍了与词汇衔接、语篇衔接词、代词评估的相关工作。

评估测试集

正如前面所讨论的，当人和机器都基于孤立的翻译片段进行评估时，人和机器的联系不能作为人的平等的指示。当前的文档级评估，由于其对额定文档的低统计能力(小样本量)而不可靠。此外，在处理话语现象时，即使是最好的翻译系统也可能落后。这些突出的缺点可以解释使用有针对性的测试套件的动机，该测试套件除了有助于对翻译的各个方面进行更深入的分析之外，还可以得出关于机器是否实现了人类平等的更好的结论。

一些以语篇为目标的测试集是对比的，也就是说，每个实例包含一个正确的翻译和一些不正确的翻译。然后评估模型对测试集中句子的正确翻译比不正确翻译进行排序的能力。

Sennrich et al[93]首先引入了一个大型对比测试集来评估五种语法现象，这五种语法现象对英语→德语翻译来说都是具有挑战性的。尽管上下文信息对这种现象可能是有益的，但是这个特定的测试套件并不包含任何内容，因此我们不会进一步介绍这个测试套件和任何类似测试套件的细节。

受OpenSuitelS2016[56]中例子的启发，Bawden等人[7]手工制作了两套对比测试集，用于评估英语→法语翻译中的照应代词、连贯和衔接。所有的测试例子都被设计成使得当前英语句子中的特定现象不明确，使得其法语翻译依赖于先前的上下文句子。因此，这些测试集需要一个模型来利用以前的源语句和目标语句，以改善所述现象
Muller等人[78]提出了一个对比测试套件，以评估NMT模型将英语代词it翻译成其德语对应词es、sie和er的准确性，同时获得了可变数量的先前源句作为上下文
Voita等人[115]创建了英语→俄语测试集，重点关注指示语、省略和词汇衔接，因为他们发现俄语翻译中80%的不一致是由这三种现象造成的。他们表明，他们的上下文感知NMT模型在这些测试集上表现良好，尽管在通过BLEU测量的一般翻译质量方面，它没有显示出比上下文无关基线(Transformer)显著的提高
Rios等人[89，88]还介绍了一个词义消歧测试集，但它不包含文档级上下文。然而，他们还提供了从其中提取测试集的语料库以及句子标识来恢复文档上下文。

我们的结论是，使用测试套件进行评估是可行的，但范围有限，因为它是为特定的语言对设计的，并且保证有限。

6 总结与展望

在这篇综述中，我们提出了一个全面的研究综述，试图纳入句外语境，以加强SMT和NMT系统。我们首先介绍了统计和神经机器翻译模型及其评估框架。在介绍了这些基础之后，我们深入研究了基于句子的SMT(第3节)和NMT(第4节)中的文献，这些研究使用了一些在基于句子的SMT和NMT模型中没有提供的无关的上下文信息。我们总结了这篇综述，确定了评估策略，这些策略被引入来衡量基于上下文的机器翻译的不同方面。

尽管由于神经模型提供的端到端学习框架，文档级机器翻译取得了进展，但仍有许多工作需要完成，不仅是在更好的上下文建模方面，而且在依赖上下文的评估策略方面。现在让我们提几个未来可能的研究方向：

1.文档对齐数据集Document-aligned Datasets
虽然有许多流行的机器翻译数据集，但大多数都是由对齐的句子对组成的，没有任何元数据。因此，我们和其他致力于文档级机器翻译问题的研究人员遇到的第一个问题是为此目的精选数据集。此外，我们要观察的话语现象并不一定存在于当前的公共数据集中。当人们试图翻译对话时，这个问题会进一步恶化，因为像字幕这样的数据集缺乏说话者注释。现在是时候了，MT社区应该开始投入精力创建这样的资源(如WMT19所发起的)，以便研究过程可以针对所使用的数据集进行标准化。
2. 显性语言注释Explicit Linguistic Annotation
3. 如果获得语言注释的过程可以自动化，并且我们可以获得例如话语中实体的注释，那么它可以直接影响其提及的翻译，从而提高词汇衔接。翻译也可以以实体的演变为条件，因为它们被引入源文本和目标文本[37]。我们认为，对话语现象的注释，例如共指或话语标记，可以有助于产生更高质量的翻译输出，更忠实于原文。
4. 文档级机器翻译评估Document-level MT Evaluation
从前面的部分可以看出，在评估文档级机器翻译时，机器翻译界显然没有达成共识。基于参考文献的自动评估指标，如BLEU和METEOR，关注机器翻译输出与参考文献的n-gram重叠，对文本的潜在话语结构不敏感。十多年来，它们一直是机构群体中事实上的标准，因此仍然被用来评估机器翻译的输出。提议的文档级自动度量(在第5节中详细介绍)有其自身的缺陷，并且没有被广泛接受。应该在机器翻译的自动评估和手动评估之间找到一个中间点，使手动评估过程更便宜，并且在评估话语现象方面仍然优于当前的自动度量。评估测试集只能解决问题的一部分，因为它们大多是为特定的语言对手工设计的。此外，与单个参考译文进行比较也不是评价翻译输出的好方法，因为它有其自身的缺点。为了在文档级的机器翻译中取得实际进展，我们不仅需要解决这个问题的模型，还需要能够正确评估其性能的评估方案。

the end，不完整也要结尾，重心放到实验上。