自然语言处理(NLP)领域顶级学术会议ACL(Annual Meeting of the Association for Computational Linguistics)于2021年8月1日至8月6日于线上举行。本届 ACL 共计收到 3350 篇论文投稿,最终有 21.3% 的论文录用到主会(Main Conference),并额外接收了 14.9% 的论文到 Findings 子刊,综合录用率为 36.2%。其中仅评出一篇最佳论文,是整场会议的最高奖项。

火山翻译和字节AI-Lab NLP合作团队在本届 ACL 大会上硕果累累:对新的词表学习方案 VOLT 的研究被评为最佳论文,这是ACL成立59年以来,中国科学家团队第2次摘得最高奖项业界首个并行生成模型 GLAT 在国际机器翻译大赛(WMT2021)夺得德语到英语方向机器翻译评估第一,该两项技术都已在火山翻译系统上线。此外,团队共有多篇论文入选,出于篇幅限制,本文精选1场Tutorial和10篇论文进行简单介绍。

1

VOLT:面向机器翻译的词表学习问题研究--基于最优运输的词表方案

ACL最佳论文

论文地址:

https://aclanthology.org/2021.acl-long.571/

代码地址:

https://github.com/Jingjing-NLP/VOLT

在深度学习时代,词表构建基本上是所有自然语言处理任务的第一步工作。尽管现今也有了一些比较通用的词表处理方法,但是仍然没有办法回答最基础的问题:什么是最优词表,如何生成最优词表?

为了回答该问题,本论文尝试提出一种绿色词表学习方案VOLT。该方案在常用的英德翻译、英法翻译、低资源翻译、多语言翻译上都取得了相比传统词表解决方案更好的结果。本文在评价词表的时候主要考虑了词表熵和词表大小两个因素。总的来说,信息熵和词表大小是两个互斥的概念。一般来说,词表越大,所需参数越大,稀疏标记(token)越多,但是信息熵在减小。信息熵降低利于模型学习,但是词表增大带来的稀疏带来又不利于模型学习。因此,作者为了建模这种平衡,引入了边际收益的概念。边际收益衡量了付出单位代价所能获得的利益的数量。边际收益越大,那么投入产出比越高。作者将信息熵看成是边际收益中的利益,词表大小看成是边际收益中的代价。随着词表的增加,不同大小的词表的信息熵收益是不同的,作者使用边际收益的概念定义了衡量词表质量的指标MUV,并且观测到了MUV指标和下游任务的相关性。

给定词表评价指标MUV之后,学习最优词表的问题可以粗略地等价为寻找具有最大MUV的词表问题,但是词表搜索空间不仅庞大,而且是离散空间,如何去高效地学到相应的词表呢?作者此处巧妙地将词表搜索变成了最优运输的过程。该方法不需要任务的下游任务训练,因此非常简单高效。关于实现方法和实验结果的具体细节可参考论文。

最优运输问题示意图

2

GLAT:惊鸿一瞥的并行生成模型

论文地址:

https://aclanthology.org/2021.acl-long.155/

代码地址:

https://github.com/FLC777/GLAT

机器翻译中常用的神经网络模型——自回归模型的翻译效果现今在业界获得广泛认可,但在输出较长文本或遇到比较复杂的模型时,翻译速度便会因没有充分利用并行计算资源而下降。而充分利用并行计算资源的非自回归机器翻译模型虽然提升了速度,翻译质量却与自回归模型存在显著差距。是否有可能寻找到一个兼顾翻译质量与速度的模型呢?

自回归模型与非自回归模型中最为常用的训练方式是最大似然估计(MLE),但是直接使用 MLE 训练并行输出的非自回归模型无法有效地建模输出语句中词之间的依赖关系。值得注意的是,词之间依赖关系的建模对输出通顺的语句至关重要。

而直接训练完全并行生成来学习目标语句中词之间的依赖关系对模型并不友好。一种更为简单有效的依赖关系学习方式是根据部分输入词预测其余目标词。但是这种学习方式需要部分目标词作为输入,不符合非自回归模型并行生成的要求。作者观察到随着模型自身更好地学习到词之间的依赖关系,模型对于依赖关系的学习可以逐渐摆脱使用目标语句部分词作为输入的需求。基于以上观察,Glancing Transformer(GLAT)利用了一种 glancing language model 的方法,通过渐进学习的方式进行词之间依赖关系的建模。在渐进学习的过程中,模型会先学习并行输出一些较为简单的语句片段,然后逐渐学习整句话的单步并行生成。

为单步并行生成方式建模词之间依赖关系

随着训练的进行,模型对数据拟合程度更高,因此能够更准确地生成目标语句。与此同时,需要作为解码器输入的目标语句中的词的数量会越来越少,在训练后期逐渐接近学习完全并行生成的训练场景。具体的方法细节和实现方式可参考论文。GLAT 已经在火山翻译的部分语向上线。此外,基于该技术的并行翻译模型在 WMT2021 比赛中的德英语向上取得了第一。

3

mRASP2:多语言翻译在对比学习中进步

论文地址:

https://aclanthology.org/2021.acl-long.21/

代码地址:

https://github.com/PANXiao1994/mRASP2

现今传统双语机器翻译只能将一种语言翻译到另一种语言,在多语言场景下会带来较大的资源消耗;小语种平行数据的缺少也成为了训练机器翻译模型的障碍。为了解决以上问题,多语言机器翻译应运而生,其使用一个统一模型,大大减少了资源消耗。此外,该模型能显著提升小语种的翻译表现。

目前主流的多语言翻译模型主要在英语相关的语对上进行训练。这样的系统通常在英语相关的语向上表现不错,而在非英语方向的翻译效果不佳,无法完全实现任意两种语言的互译。针对这个问题,本论文提出mRASP2:通过引入对比学习,辅以对齐增强方法,将单语语料和双语语料囊括在统一的训练框架之下,旨在充分利用语料学习更好的语言无关表示并由此提升多语言翻译性能基本上实现一个模型翻译任意语向。实验结果表明mRASP2在有监督、无监督、零资源的场景下均取得翻译效果的提升。其中有监督场景平均提升 2.0 BLEU,无监督场景平均提升 14.1 BLEU,零资源场景平均提升 10.3 BLEU。

4

LaSS:多语言翻译 -- 统一模型还是独立模型?

论文地址:

https://aclanthology.org/2021.acl-long.25/

代码地址:

https://github.com/NLP-Playground/LaSS

现今的多语言机器翻译面临着重大挑战,其中最大的挑战是语言之间的冲突。由于不同的语言对共享同一个模型,模型的容量不得不被切分,而这往往会导致不同语言对互相争抢更多的模型容量,造成语言对之间的冲突。这种现象被称为参数冲突。那么,是否有办法缓解参数冲突?

本论文采取充分利用已有参数的方法,通过为不同语言对分配专属于它的参数(子网络),从而缓解参数冲突问题。论文作者提出LaSS(Language Specific Sub-network),以神经网络的最小单位即权重(weight)为单位,对于每个语言对LaSS都为它分配一个子网络,该子网络的参数是模型参数的子集。不同语言对之间共享部分参数的同时,也保留属于自己的参数。通过这种方法,多语言机器翻译就能够实现在一个模型内同时建模语言通用和语言专属的特征。相比过去的工作而言,LaSS不引入额外的参数。

模型方法示意图

LaSS同时还表现出极强的通用性,能够在保证不影响原来语言对的效果的前提下,在几分钟之内扩展到新的语对并取得相当好的表现。同时,在最为极端的零样本(zero-shot)的场景下,简单应用LaSS能够大幅提升模型的表现,在30个测试的语言对中获得了平均8.3 BLEU、最高26.5 BLEU的提升。

5

Chimera:人脑启发AI设计:让神经网络统一翻译语音和文本

论文地址:

https://aclanthology.org/2021.findings-acl.195/

代码地址:

https://github.com/Glaciohound/Chimera-ST

能够统一地理解语音和文本,是人类能够形成通用语言能力的重要原因。那么人工智能是否也能如此?本论文设计了一个跨模态的翻译模型来统一地翻译语音和文本,因其形似古希腊的神话动物 Chimera 而得名。

Chimera 模型使用了一个简单的思路:它并不是编码了语音或文本的整个序列来用,而只是 “提取” 几条真正重要的信息。Chimera 学习从输入端提取一套包含关键语义信息的“记忆”,而对于其究竟是音频还是文本不做分辨。Chimera 在语音翻译之外还能够学习文本翻译的数据集,这样一来 Chimera 就能有效利用更多的训练数据。

通过模仿人类大脑来统一理解语音和文本,模型在语音翻译上效果拔群。Chimera 能提取语音和文本中共有的语义信息,因此能够同时学习语音翻译和文本翻译数据集,提高这种技术在训练和应用中的通用性。它不仅在一项标杆性语音翻译任务中获得高分,其可视化结果也证实了这一机制能更好地理解人类语言。

Chimera 示意图

6

CALMS:多语言摘要中的信息抽取与共享

论文地址:

https://aclanthology.org/2021.findings-acl.242/

代码地址:

https://github.com/brxx122/CALMS

通讯技术的发展让人们能够在短时间内获得大量信息,但随之而来的是信息筛选的困难,如今人们更倾向通过阅读摘要来了解文章,摘要的撰写变得尤为重要。紧跟国际化的步伐,我们对于摘要的需求也不再局限于单种语言。以往摘要撰写由专门的编辑负责,但要求一位编辑能同时负责多个语种的摘要撰写几乎无法实现。那么,是否能让人工智能自动生成多语种摘要呢?

本论文为了解决多语言摘要问题,首先提出了一个包含12种语言的摘要数据集MLGSum;其次针对多语言和摘要两个特性设计了两个辅助任务——对比句子排序 (Contrastive Sentence Ranking, CSR)对齐句替换 (Sentence Aligned Substitution, SAS),来加强模型提取重要信息和语言间对齐的能力。最终联合模型CALMS在5种高资源语言上取得了优于单语言模型的能力,并且证实了其在相似语系中有着良好的迁移能力。

CSR和SAS任务设计

7

如何在0语料的情况下通过「贴标签」获得更好的多语言翻译效果?

论文地址:

https://aclanthology.org/2021.findings-acl.264/

现今的多语言翻译模型,大多是在一个以英语为中心的数据集上训练一个统一的模型,并通过添加语言标签的方式来告诉模型应该翻译到哪一种语言。这种模型在预测的时候,能够直接在一个非英语的句子上添加另一个非英语的语言标签来直接翻译,从而达到在训练的时候没有同时见过源语言和目标语言的情况下,模型也能翻译的效果,这就是所谓的zero-shot多语言翻译。

添加语言标签的方法有很多,一般学者都认为不同的语言标签的添加方法对模型的性能没有影响。然而之前并没有研究者系统性地研究语言标签对翻译模型的影响。本论文通过比较四种常见的语言标签的添加方法,发现了不同语言标签对多语言zero-shot翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言Zero-shot翻译确实存在巨大影响。这个现象在多个数据集上得到了验证,其中IWSLT17上相差14.0个BLEU,Euporal上相差24.2个BLEU,TED talks上相差8.8个BLEU。此外,本论文表明T-ENC在zero-shot上一致地好于其他语言标签。同时本篇工作还分析了不同语言标签对模型在预测时表示的影响,发现了T-ENC能够更好地得到与目标语言相关而与源语言无关的表示。

在目标语言相同或不同的时候,T-ENC的表现相比于其他方法都更胜一筹

8

UniRE:联合空间下的实体关系抽取新范式

论文地址:

https://aclanthology.org/2021.acl-long.19/

代码地址:

https://github.com/Receiling/UniRE

实体关系抽取任务是自然语言处理的一个底层基础任务,其抽取结果能够服务很多上层的应用,比如知识库构建、问答系统、信息检索系统,因此该任务一直受到学术界和工业界的持续关注。目前实体关系抽取任务的主流方法可以大致分成两类,1)流水线方法;2)联合方法。流水线方法采用两个独立的模型分别做实体识别和关系抽取,容易导致错误传播;而联合方法通过采用端到端模型来缓解错误传播问题,长期以来也取得了更好的结果。然而最近联合方法受到了挑战,基于预训练模型的流水线方法一举超过了所有联合方法,取得了目前最好的结果。

为了优化联合方法,本论文推出了一种新的联合范式 UniRE: A Unified Label Space for Entity Relation Extraction,这是一种定义在统一标签空间的联合实体关系抽取新范式,通过引入一张二维表将所有的实体和关系够完整地表示出来。在这种新的问题形式下,模型的训练和推理过程被大大简化。模型的训练就是填表,而推理就是找矩形。在推理过程中,这篇论文还提出了一种三步走的高效近似解码算法,兼顾解码的准确性和解码速度。最后实验结果显示该方法达到了目前SOTA的水平,而且大大加快了推理速度。这种新的问题形式有望在更多的信息抽取任务中应用。

UniRE的性能表现与Zhong、Chen的流水线方法相差无几,但其参数量仅为前者的一半,而且推理速度加快了十几倍

9

PRobr:识得庐山真面目,PRobr 助力神经网络知其然知其所以然

论文地址:

https://aclanthology.org/2021.findings-acl.277/

代码地址:

https://github.com/changzhisun/PRobr

人类每时每刻的思考都离不开推理,先提出问题,再根据规则、结合事实推出答案。实际上这些事实和规则可以抽象成自然语言知识,而在知识上进行自动推理也是人工智能领域长期追求的目标。当然,这个过程很复杂。譬如对于一个给定的较为庞大的知识库,如何从中抽取出适用于本次推理的规则等等...要解决这类问题,得到上述推理过程,早期的工作聚焦在形式化(formal)的表示上进行推理,即将知识库中每一个语句 (sentence)转化成逻辑规则(logic rules),比如一阶逻辑,并在逻辑层面上进行推断。

但是,转化成逻辑规则以及在逻辑规则上做推理仍然存在很大的挑战。例如,将一句自然语言转化为logic rules的过程需要进行语义解析(semantic parsing),这通常不能达到非常理想的效果。为了规避这种形式化推理的难点,本论文探究利用神经网络直接在自然语言上进行演绎推理(deductive reasoning)。其中使用了两种解法:PRover、PRobr。由于基于参数共享的方式,PRover在零资源/少资源的情景下表现很差,对此论文提出显式建立证明(proof)生成和问答之间的依赖。论文建立了PRobr,一个新的概率图自然语言推理框架,用于联合自动问答和证明生成。它定义了一个关于所有可能的答案和证明的联合分布,可以直接描述答案和证明之间的依赖关系。完全监督学习(Fully Supervised)、少样本学习(Few-shot)和零样本学习(Zero-shot)的实验结果证明了PRobr的有效性。

PRobr的推理过程

10

NeurST:端到端语音翻译和机器翻译训练工具

论文地址: 

https://aclanthology.org/2021.acl-demo.7/

代码地址: 

https://github.com/bytedance/neurst

端到端的语音翻译最近两年受到了业界的广泛关注,对比产业界主流的级联系统,端到端系统绕过了自动语音识别步骤,缩短了翻译时间,而且可以有效缓解语音识别系统引入的错误。对此火山翻译推出端到端语音翻译工具包NeurST,NeurST简化了音频处理的操作,可以使研究人员腾出精力从事更多算法层面的优化工作。同时,NeurST提供稳定鲁棒的基线系统,期望可以推动未来这个研究领域的发展。详细进展请参考该网站:https://st-benchmark.github.io。

将一种语言的语音信号翻译成另一种语言的文本或语音

11

ACL讲习班:机器翻译中的预训练方法

ACL Tutorial: Pre-training Methods for Neural Machine Translation

网址:

https://sites.cs.ucsb.edu/~lilei/TALKS/2021-ACL/

神经网络预训练通常使用大规模容易获取的数据,而非人工标注的数据。预训练-微调 (pretrain - fine-tune) 已经成为自然语言处理中的重要方法。对于机器翻译任务,直接应用预训练好的BERT等语言模型获得的提升非常有限,因此如何在神经网络机器翻译中利用预训练方法来提升翻译能力是当下一个比较热门的研究问题。

本次讲习班,火山翻译团队王明轩与加利福尼亚大学圣塔芭芭拉分校 (UCSB: University of California, Santa Barbara) 李磊老师围绕单语预训练、多语言预训练、多模态预训练三个方面来介绍机器翻译中利用预训练提升的最新进展。预训练在机器翻译中需要达到三个目标:设计有效目标从而适应翻译任务;充分利用大量单语和有限双语、文本和不同模态数据;拉近跨语言跨任务表示。通过预训练和微调方法,在双语翻译、多语言联合翻译(包括zero-shot场景)、语音翻译、图像辅助翻译等不同翻译场景都取得了显著提升。

以上是为大家精选的火山翻译和字节NLP合作团队的研究员们在 2021 ACL 会议上发表的论文,我们很荣幸可以为 NLP 研究献出自己的微薄之力,也感谢大家一直以来的支持!

为了帮助大家对我们的研究有更深入的认识,欢迎大家选出自己想要进一步了解的论文或话题,我们将根据大家的投票结果陆续发布论文的中文解读,请及时关注更新~如果大家还有其他的建议,欢迎在后台给我们留言,我们非常希望能够收到大家的反馈!(以下论文按照介绍顺序排序)

点击「阅读原文」进入火山翻译官网,马上享受优质的翻译服务。

ACL 2021 | 火山翻译成绩斐然相关推荐

  1. 2021高考枣强中学成绩查询,枣强中学,衡水系的重点高中,成绩斐然

    原标题:枣强中学,衡水系的重点高中,成绩斐然 起衡水中学,可以说是如雷贯耳,甚至影响力远远超过了上世纪90年代的湖北黄冈中学.当年的黄冈中学仅仅是一所高中的独唱,而现在的衡中的教学模式逐渐在衡水其他学 ...

  2. 2021年高考成绩查询衡阳市八中,衡阳市八大名校2020年高考成绩斐然,金榜题名正当时...

    湖南省衡阳市,环境优美,是国家园林城市,也是湘南地区中心城市.辖区内有五岳之一的南岳衡山.石鼓书院等著名景点. 衡阳的高中教育在湖南省也一直名列前茅,今天小编和大家聊一聊衡阳实力不俗的四所高中,人才辈 ...

  3. 曾被ICLR拒稿,字节跳动今斩获最佳论文,ACL 2021各大奖项揭晓

    来源:机器之心 被顶会拒稿请不要灰心,说不定你的论文会成为另一个顶会的最佳. NLP 领域国际顶会 ACL 2021 公布获奖论文信息:来自字节跳动火山翻译的一篇神经机器翻译工作被评为最佳论文.此外, ...

  4. ACL 2021 最佳论文:最优运输理论开启词表学习新纪元

    在 8 月 20 日的智源社区青源 LIVE 活动中,来自字节跳动 AI Lab 的许晶晶博士对其团队在 ACL 2021 上摘得最佳论文奖的论文<Vocabulary Learning via ...

  5. ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语记忆实现高性能NMT

    来源:机器之心本文约3200字,建议阅读7分钟 在 ACL 2021 的一篇杰出论文中,研究者提出了一种基于单语数据的模型,性能却优于使用双语 TM 的「TM-augmented NMT」基线方法. ...

  6. 【NLP】ACL 2021中的25个Transformers模型

    前言 言归正传,这次我们总结一下ACL2021中的Transformers,看看2021年了,NLPer在如何使用.应用.改进.分析Transformers,希望可以对大家产生idea有帮助. 本文涉 ...

  7. ACL 2021 | 基于依存句法驱动注意力图卷积神经网络的关系抽取

    ©作者 | 陈桂敏 来源 | QTrade AI研究中心 QTrade 的 AI研究中心是一支将近 30 人的团队,主要研究方向包括:预训练模型.信息抽取.对话机器人.内容推荐等.本文介绍的是一篇信息 ...

  8. ACL 2021 | 北京大学KCL实验室:如何利用双语词典增强机器翻译?

    今天给大家介绍一篇 ACL 2021 机器翻译的文章,这篇文章来自北京大学 KCL 实验室.KCL(Knowledge Computing Lab,知识计算实验室)是北大软件工程国家工程研究中心一支 ...

  9. ACL 2021|CHASE: 首个跨领域多轮Text2SQL中文数据集

    ©PaperWeekly 原创 · 作者 | 徐叶琛 单位 | 字节跳动 研究方向 | NLP语义理解.问答系统 自然语言处理语义解析子任务 Text2SQL 旨在将用户的自然语言转换为 SQL 序列 ...

  10. ACL 2021 | 基于词依存信息类型映射记忆神经网络的关系抽取

    ©作者 | 陈桂敏 来源 | QTrade AI研究中心 QTrade AI 研究中心是一支将近 30 人的团队,主要研究方向包括:预训练模型.信息抽取.对话机器人.内容推荐等.本文介绍的是一篇信息抽 ...

最新文章

  1. Effective C#: Item 1 Always use properties instead of accessible data members
  2. Python自然语言处理学习笔记(7):1.5 自动理解自然语言
  3. linux内核主要功能模块不包括,嵌入式linux(贺丹丹等编著)课后习题答案
  4. 马明哲新年内部讲话透露新战略:全面开启3.0时代
  5. php 简繁体转换类库,OpenCC for PHP 优雅的简繁体转换
  6. 农商互联农民丰收节交易会-万祥军:产销对接谋定功能农业
  7. java虚拟机教程图解_深入拆解JAVA虚拟机学习教程
  8. C++、QT的物业管理系统
  9. 按键精灵手机助手旋转验证码上传插件
  10. 关系代数表达式优化步骤
  11. 华为会员开放服务(Membership Kit),助力移动应用快速建设会员生态
  12. Docker推送镜像到自己的阿里云卡住,也不报错
  13. python最小二乘法_最小二乘法(least sqaure method)
  14. 年底谷歌扎堆升职,L3到L6升一级多$10w
  15. 关于Vivado综合选项——Out of context per IP和Gobal
  16. C 语言 rand() 和 srand() 使用方法
  17. 装机大神:教你看明白cpu后边数字及字母的意思。
  18. chroot的作用及详解
  19. Springboot+基于微信小程序的电器商城系统的设计与实现 毕业设计-附源码251453
  20. 远程桌面拷贝数据到远程计算机,远程桌面如何复制本地文件 远程桌面拷贝电脑上的文件方法...

热门文章

  1. php学习分享心得吧
  2. 不用js实现鼠标放上去改变文字内容
  3. C# windows身份验证的连接字符串!
  4. SQL SERVER IDENTITY 约束的用法
  5. 从研发角度谈存储技术的学习
  6. 未定义标识符_ConnectionPtr
  7. labview 快捷键
  8. SQL SERVER 查找某个字符在字符串中出现的次数
  9. HUD-1559 最大子矩阵,dp模拟
  10. Domain应用之 根据某个Many2one的对象的 X2many对象 过滤