覆盖40种语言：谷歌发布多语言、多任务NLP新基准XTREME

关注上方“深度学习技术前沿”，选择“星标公众号”，

资源干货，第一时间送达！

自然语言权威数据集 GLUE 一直是衡量各机构 NLP 预训练技术水平最重要的指标之一。近年来在其榜单之上实现更好的成绩，也成为了科技公司技术提升的体现。不过现有的大多数 NLP 基准仅限于英文任务，无法评价 NLP 模型在其他语言上的能力。

近日，来自 CMU、谷歌研究院和 DeepMind 的科学家们提出了覆盖四十种语言的大规模多语言多任务基准 XTREME，希望一举解决这个问题。

自然语言处理（NLP）所面临的其中一个关键性挑战是，构建的系统不仅要在英文中 work，而且要在世界范围内约 6900 种语言中也 work。幸运的是，虽然大多数语言呈现数据稀疏（data sparse）且没有充足可用的数据来自行训练鲁棒的模型，但其中的很多语言共享大量的底层结构。

此外，NLP 领域有很多方法在训练过程中利用到了多语言的共享结构，以克服数据稀疏的问题。但不足的是，大多数这些方法侧重于在多语言中执行特定任务。近几年，得益于深度学习的进展，有更多的方法试图学习通用的多语言表示（如 mBERT、XLM 和 XLM-R），这些方法旨在捕获跨语言间共享且对多任务有用的知识。但在实践中，这类方法的评估却大多侧重于一小部分任务以及相似的语言。

因此，为了鼓励人们在多语言学习领域开展更多研究，谷歌研究院联合 CMU、DeepMind 发表了研究论文《XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization》，该研究覆盖了 40 种类型不同的语言（跨 12 个语系），并包含了 9 项需要对不同句法或语义层面进行推理的任务。

在 XTREME 大规模多语言多任务基准上选择 40 种不同类型的语言，这是为了实现语言多样性、现有任务覆盖以及训练数据可用性的最大化。其中一些是 under-studied 的语言，如达罗毗荼语系中的泰米尔语（印度南部、斯里兰卡和新加坡）、泰卢固语和马拉雅拉姆语（主要集中在印度南部）以及尼日尔-刚果语系中的斯瓦希里语和约鲁巴语（非洲）。

论文地址：https://arxiv.org/pdf/2003.11080.pdf
项目地址：https://github.com/google-research/xtreme

XTREME 论文的并列一作是 CMU 语言技术研究所的在读博士胡俊杰，和 DeepMind 著名的研究科学家 Sebastian Ruder。

XTREME

XTREME 中的任务涵盖了句子分类、结构化预测、句子检索和问答等一系列样式，因此，为了使模型在 XTREME 上取得好的表现，就必须学习可以泛化至多标准跨语种迁移设置的表征。

XTREME 支持的任务类型。

每种任务都涵盖 40 种语言的子集，为了获得 XTREME 分析所用的低资源语言的附加数据，自然语言推理（XNLI）和问答（XQuAD）这两个代表性任务的测试集会自动从英语翻译为其他语言。模型在使用这些翻译过来的测试集执行任务时的性能表现，可与使用人工标注测试集的表现相媲美。

Zero-shot 评估

在使用 XTREME 评估模型的性能之前，首先要用支持跨语言学习的多语言文本进行模型预训练。然后根据任务特定的英语数据对模型进行微调，因为英语是最容易获得标签化数据的语言。之后，XTREME 会评估这些模型的 zero-shot 跨语言迁移性能，包括在其他没有任务特定数据的语言中。

下图展示了「预训练-微调-zero-shot 迁移」的过程：

模型的跨语言迁移学习过程：1、针对多语言文本的预训练；2、使用英语对下游任务进行微调；3、使用 XTREME 进行 zero-shot 评估。

在实际操作中，这种 zero-shot 设置的好处就在于计算效率，预训练模型仅需要针对每个任务在英语数据上进行微调，便能直接应用于其他语言的评估。但对于其他有标签化数据的语言的任务，研究者也进一步对比了微调结果，根据在 9 个 XTREME 任务上的 zero-shot 得分来提供最终综合得分。

迁移学习测试平台

研究者使用了几种多语言预训练 SOTA 模型进行了实验，包括：

多语言 BERT（mBERT）：BERT 的多语言扩展版本；
XLM 和 XLM-R：规模更大、数据处理量更多版本的「多语言 BERT」；
M4：大规模多语言机器翻译模型。

所选用的这些模型都有一个共同特点，就是已经过多种语言的大量数据的预训练。在本次实验中，研究者使用这些模型的变体——变体已在大概 100 种语言中进行了预训练，其中也包括 XTREME 上的 40 种语言。

实验结果表明，虽然模型在大多数现有英语任务中的表现接近于人类表现，但在许多其他语言中的表现却明显落了下风。在所有模型中，结构化预测和问答这两项任务在英语和其他语种之间的性能差距最为明显，而结构化预测和句子检索这两项任务则在跨语言结果上分布差异最大。

下图按照任务和语言的类别，展示了 zero-shot 设置下的 best-performing 模型 XLM-R 在所有语系中的表现。不同任务之间的分数不可相比，重点在于同一任务下、不同语系中的相对排名，如图所示，许多高资源语言比如印欧语系，排名一直比较高。相比之下，该模型在其他语种，比如藏语、日语、韩语等语言上的性能排名较低。

在 zero-shot 设置下，XTREME 基准上 best-performing 模型（XLM-R）在所有任务和语言上的性能表现。得分是基于 task-specific 度量的百分比，并且在不同任务之间没有直接比较。人类表现（如果可用）则由红星表示。

总之，研究者得出了以下一些有趣的观察结果：

在 zero-shot 设置下，M4 和 mBERT 在大多数任务上表现出与 XLM-R 媲美的性能，但是 XLM-R 在特别具有挑战性的问答任务上要优于前两者。例如，在 XQuAD 任务上，XLM-R 得分为 76.6，高于 M4 的 64.6 和 mBERT 的 64.5。三者在 MLQA 和 TyDi QA 任务上的表现情况也是如此；
利用机器翻译的基线方法，在翻译训练数据或测试数据时，都会表现出强大的性能。例如，在 XNLI 任务上，mBERT 在 zero-shot 迁移设置下得分为 65.4，但在使用翻译过的训练数据时，得分提升到了 74.0。
few-shot 设置（即使用有限的语内标签数据）对 NER 等相对简单的任务会表现出特别强大的性能，但对于更为复杂的问答任务则帮助有限。以 mBERT 的性能表现为例，在 few-shot 设置下，它在 NER 任务上的性能提升了 42%，得分由 62.2 提升到 88.3；但在问答任务上（TyDi QA），性能仅提升了 25%，得分由 59.7 提升到 74.5；
最后，所有模型和设置在英文和其他语言上的性能表现依然存在很大的差距，这表明跨语言迁移依然有着巨大的研究潜力。

跨语言迁移分析

与此前对于深度模型泛化能力的观察类似，我们可以看到预训练数据越多，效果就更好，如 mBERT 遇 XLM-R 相比。不过这种相关性并未出现在结构化预测任务中：在词性标记（POS）和命名实体识别（NER）等任务上，当前的深度预训练模型无法完全利用预训练数据来迁移此类语法任务。

研究人员还发现模型也很难迁移到非拉丁语言中。这种情况在 POS 任务上非常明显，其中 mBERT 在西班牙语上的 zero-shot 准确率为 86.9%，在日语上仅为 49.2%。

对于自然语言推理任务 XNLI，研究者发现模型在同一个预测上，英语和其他语言相同的情况为 70%。半监督方法可能会有助于提高翻译成其他语言后预测的一致性。研究者还发现，模型很难预测出英语训练数据中未出现的 POS 标记，这表明这些模型难以从用于预训练的大量未标记数据中学习其他语言的语法。

对于实体命名识别，模型预测最为不准确的是与英语差异最大的几种语言——其在印尼语和斯瓦西里语中的准确度为 58.0 和 66.6，相比之下，葡萄牙语和法语为 82.3 和 80.1。

多语言迁移学习

英语的使用人数仅占全球人口的 15%，但其 NLP 研究却最为充分。研究者相信通过构建深度上下文表示方式，我们就拥有了为全球其他种类的语言提供实质性技术进展的工具。XTREME 或许可以成为多语言迁移学习的重要一步，就像 GLUE 和 SuperGLUE 在单语言模型基准上那样，催生出类似 BERT、RoBERTa、XLNet、AlBERT 的优秀模型。

参考内容：http://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html

重磅！自然语言处理技术交流群已成立！

欢迎各位NLPer加入自然语言处理技术交流群，本群旨在交流文本分类、语音识别、阅读理解、机器翻译、情感分析、信息检索、问答系统等自然语言处理领域内容。自然语言处理领域前沿信息将会第一时间在群里发布！欢迎大家进群一起交流学习！

麻烦大家进群后请备注：研究方向+地点+学校/公司+昵称（如文本分类+杭州+浙大+小民）

广告商、博主请绕道！

???? 长按识别，即可进群！

覆盖40种语言：谷歌发布多语言、多任务NLP新基准XTREME相关推荐

上海交大发布 MedMNIST 医学图像分析数据集新基准
来源 | HyperAI超神经责编 | 晋兆雨头图 | 付费下载于视觉中国内容概要:医学图像分析是一个非常复杂的跨学科领域,近日上海交通大学发布了 MedMNIST 数据集,有望促进医学图像分析 ...
【深度学习】上海交大发布 MedMNIST 医学图像分析数据集新基准
By 超神经内容概要:医学图像分析是一个非常复杂的跨学科领域,近日上海交通大学发布了 MedMNIST 数据集,有望促进医学图像分析的发展. 关键词:医学图像分析公开数据集令人头秃的医学图 ...
微软发布代码智能新基准数据集CodeXGLUE，多角度衡量模型优劣
来源 | 微软研究院AI头条编者按:代码智能(code intelligence)目的是让计算机具备理解和生成代码的能力,并利用编程语言知识和上下文进行推理,支持代码检索.补全.翻译.纠错.问答等场 ...
8种优秀预训练模型大盘点，NLP应用so easy！
https://www.toutiao.com/a6674855848902132235/ 大数据文摘出品编译:李雷.蔡婕如今,自然语言处理(NLP)可谓遍地开花,可以说正是我们了解它的好时机. ...
多语言互通：谷歌发布实体检索模型，涵盖超过100种语言和2000万个实体
来源:新智元本文约1500字,建议阅读5分钟实体链接(Entity linking)通常在自然语言理解和知识图谱中起着关键作用.谷歌AI研究人员近期提出了一种新的技术,在这种技术中,可以将特定语言 ...
多语言互通：谷歌发布实体检索模型，涵盖超百种语言和千万个实体
实体链接(Entity linking)通常在自然语言理解和知识图谱中起着关键作用.谷歌AI研究人员近期提出了一种新的技术,在这种技术中,可以将特定语言解析为与语言无关的知识库. 如果一段文本中提到一 ...
微信打开时支持消息通知横幅引热议；Google和甲骨文的云服务因英国高温天气而下线；谷歌发布开源开发语言Carbon|极客头条
「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹出品 | CSDN(ID:CSDNnews ...
Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对
2020-02-07 16:33 导语:或成为NMT评估标准雷锋网AI科技评论按:当前自然语言处理中的大多数方法都是数据驱动的,大多数多语言模型(特别是神经机器翻译系统)都需要并行语料库进行训练.大 ...
Code Runner for VS Code 突破 1000 万下载量！支持运行超过 40 种语言
记得三年多前,韩老师那时还在写 PHP(是的,没错!在微软写 PHP),同时需要写 Python 和 Node.js .所以在那时,支持多种语言的 VS Code 已经是笔者的主力编辑器了.唯一不足的 ...

覆盖40种语言：谷歌发布多语言、多任务NLP新基准XTREME

覆盖40种语言：谷歌发布多语言、多任务NLP新基准XTREME相关推荐

最新文章

热门文章