编者按:为进一步实现用 AI 赋能用户体验,微软正在不断拓展多语言模型的边界。近日,由微软图灵团队与微软亚洲研究院联合探索的最新跨语言研究成果——多语言预训练模型 T-ULRv2,登顶 XTREME 排行榜,T-ULRv2 可以在相同向量空间表示和理解94种语言,提升所有语言的产品体验。本文编译自微软亚洲研究院副院长周明和微软副总裁、杰出工程师 Saurabh Tiwary 共同发表的微软研究院博客文章 “Microsoft Turing Universal Language Representation model, T-ULRv2, tops XTREME leaderboard”。

近日,由微软图灵团队与微软亚洲研究院联合开发的图灵多语言预训练模型 T-ULRv2 荣膺 XTREME 公共排行榜冠军,该模型比之前最好的模型 VECO 有了3.5的平均分提升。在此次突破中,除了预训练的模型外,微软的研究员们还提出了一种基于稳定性训练的新型多语言微调技术 StableTune。入围本次排行榜的其他模型还包括:XLM-R、mBERT 和 XLM 等。此前的最好模型 FILTER 也是由微软团队提交的。

多语言预训练模型T-ULRv2:支持94种语言

长期以来,微软图灵团队坚信文本的语义表示是语言无关的。在2018年发表的论文 Towards Language Agnostic Universal Representations中(https://www.microsoft.com/en-us/research/publication/towards-language-agnostic-universal-representations/),微软的研究员们提出了一种方法,以无监督方式训练语言无关的语义表示。此方法可以让经过训练的模型在针对某一个语言加以微调后,立即应用于另一个语言。以往针对每个语言进行模型训练都要求具备该语言的标注数据,而此方法有效地解决了这一难题。无监督的预训练语言模型已成为所有 NLP 模型的基础,基于 Transformer 的模型则是所有此类创新的核心。

作为微软 AI at Scale(AI 规模化)研发的重要组成部分之一,图灵系列的 NLP 模型一直在为微软产品的下一代 AI 体验提供原动力。T-ULRv2 是跨语言研究的最新成果,它融合了微软亚洲研究院近期在 InfoXLM 论文(INFOXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training - Microsoft Research)中的创新,其所开发的多语言预训练模型可以用于94种语言的文本的自然语言理解任务。通过 T-ULR 可以将微软必应的智能问题解答服务扩展到所有受支持的语言和地区。而且这个模型还被用于将 Word 语义搜索功能扩展到英语之外的语言,并且实现对微软 Outlook 和微软 Teams 中“建议答复”功能地普遍支持。这些功能的体验将会很快与用户见面。

由 T-ULR 驱动的西班牙文及阿拉伯文版微软必应智能问题解答示例
由 T-ULR 驱动的法文版微软 Word 语义搜索示例

这些真实的产品场景对算法质量的要求极高,因此也为研究员们的 AI 模型提供了理想的测试平台。根据结果显示,T-ULR 在多语言 NLP 任务中的准确率和性能都达到了非常可观的效果。

XTREME基准数据集

多语言编码器的跨语言迁移能力评估 XTREME 基准涵盖了横跨12个语系的40种语言,其中包含的9项任务都需要对不同层级的语法或语义进行推理。XTREME 中的语言选择旨在最大程度地提高语言多样性、覆盖现有的任务范围,并考虑到训练数据的可用性。

XTREME 中包含的任务涵盖了包括语句文本分类、结构化预测、语句检索和跨语言问答等自然语言处理任务。因此,为了成功完成 XTREME 基准测试,模型必须学会可以跨语言迁移的表示。

有关基准测试和任务的完整说明,请参见《XTREME:A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization》(https://arxiv.org/abs/2003.11080) 。

T-ULRv2预训练的“铁人三项”:MMLM、TLM和XLCo

T-ULRv2 采用的是24层的 Transformer 架构,参数总量多达5.5亿个。T-ULRv2 预训练要完成三项不同的任务:多语言掩码语言模型(MMLM)、翻译语言模型(TLM)和微软研究团队提出的跨语言对比学习(XLCo)。MMLM 任务(也称为完形填空任务)的目标是根据输入的不同语言信息预测出被遮蔽的字符。T-ULRv2 使用了来自网络的多语言数据语料库,该语料库由94种语言组成,用于 MMLM 任务训练。

与 MMLM 相似,TLM 任务也是预测被遮蔽的字符,但该预测是针对拼接在一起的的平行句对。例如,给定一对英语和法语的平行句子,模型可以通过观察被遮蔽英语字符周边的英语字符或者它的法语翻译版来预测这个被遮蔽的英语字符。它能够帮助模型“对齐”不同语言的表示。

遮蔽语言建模(MLM)的跨语言预训练以及 TLM 任务(来源:XLM)

XLCo 任务则可以使用平行训练数据,其目的是让平行句子表示之间的互信息最大化。MMLM 和 TLM 的目标是使字符-序列互信息最大化,而 XLCo 的目标是序列级别的跨语言互信息最大化。对于 TLM 和 XLCo 任务,T-ULRv2 会用到含有14个语言对的平行数据。XLCo 的损失函数如下:

随后,它将计入 MMLM 和 TLM 的损失,得出跨语言预训练的总体损失:

有关 T-ULRv2 的更多信息,请参见论文《InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training》(https://arxiv.org/abs/2007.07834) 。

构建定制化应用:T-ULRv2将发挥重要作用

在微软 Ignite 2020 大会上,微软宣布图灵模型将作为私人预览的一部分,用于构建定制化应用,而 T-ULRv2 也将成为该计划的一部分。目前,研究团队正在与微软 Azure 认知服务部门紧密合作,为当前及未来带有图灵模型的语言服务提供支持。微软 Azure 认知服务的现有客户将通过 API 自动享受这些升级服务。

AI体验普及化:以改善所有语言的产品体验为先

微软认为,全球化发展不仅仅是个研究课题,也是一项必须直面的挑战。目前 Windows 在全世界范围内被使用,微软 Office 和微软必应也已在200个地区使用,且提供了超过100个语言版本。微软的客户遍及全球每个角落,他们都在以各自的母语使用着微软的产品。当下,微软的研究员们正在积极地拓展多语言模型的边界,像类似于 T-ULRv2 这样无语言差异的表示便是拓展之路上的又一次突破。它将可以提升所有语言的产品体验,赋能所有用户,真正实现 AI 体验的普及化。


本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。

微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。

也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号,了解更多我们的研究。

语言五子棋无ai程序框图_微软多语言预训练模型T-ULRv2登顶XTREME排行榜相关推荐

  1. 语言五子棋无ai程序框图_2020输入法报告 如何选择更好的AI语音输入法?

    不少人认为,现在输入法均已内置语音输入方式,只要是语音输入就没有什么差别.其实不然.近日,Mob研究院发布<2020中国第三方输入法行业洞察>报告,深入挖掘分析语音输入法行业现状及变化趋势 ...

  2. c语言五子棋人机对弈算法_从零开始编写C语言五子棋程序1

    从零开始编写C语言五子棋程序 C语言程序是国科大计算机系本科生必修课程,我选修的是武成岗老师的C语言课程.除了课上回答问题,实验课competitive programming的成绩之外,最终的大作业 ...

  3. c语言倒计时不影响进程_初学C语言没有项目练手怎么行,这17个小项目收下不谢...

    image C语言是我们大多数人的编程入门语言,对其也再熟悉不过了,不过很多初学者在学习的过程中难免会出现迷茫,比如:不知道C语言可以开发哪些项目,可以应用在哪些实际的开发中--,这些迷茫也导致了我们 ...

  4. c语言设计程序实现顺序冒泡_计算机C语言编程设计专业知识题库汇总

    下列关于栈叙述正确的是(). A.算法就是程序 B.设计算法时只需要考虑数据结构的设计 C.设计算法时只需要考虑结果的可靠性 D.以上三种说法都不对 答案:D 下列叙述中正确的是(). A.有一个以上 ...

  5. c语言操作空间怎么打开_学好C语言,离大神更近一步,C环境的安装

    我们先来说说为什么要学习C语言: 首先,就现在的几大系统而言,我们看看使用它的都有多少.Windows系统刚出现的时候就是用的C语言,后来才使用了C++和C#等.Linux的底层也是使用C语言编写的, ...

  6. c语言双重for循环流程图_使用C语言编写程序对数据进行排序

    使用C语言编写程序对数据进行排序 C语言是一种强大的编程软件,使用十分广泛,用户众多,也是学习其他语言的基础.我作为一个C语言忠实粉丝,以一些常见的C程序来剖析C语言的格式和结构,希望能够为广大初学者 ...

  7. ICML 2019:序列到序列自然语言生成任务超越BERT、GPT!微软提出通用预训练模型MASS | 技术头条...

    来源 | 微软研究院AI头条(id:MSRAsia) 责编 | Jane 编者按:从2018年开始,预训练(pre-train) 毫无疑问成为NLP领域最热的研究方向.借助于BERT和GPT等预训练模 ...

  8. python训练模型有什么用_为什么要使用预训练模型?一些顶级的预训练模型介绍...

    如今,自然语言处理应用已经变得无处不在.自然语言处理应用能够快速增长,很大程度上要归功于通过预训练模型实现迁移学习的概念.在本文中,我将介绍一些顶级的预训练模型,你可以用它们来开始你的自然语言处理之旅 ...

  9. 语言学生学籍管理系统流程图_基于C语言的学生管理系统(含文件)(一)

    "点击上方"蓝色字",关注我们哦(*^▽^*)!" NO.1 篇幅较长,请空闲时观看 前言 这个项目是大一暑假完成,纯C语言编写,界面比较美观,由于当时还是一个 ...

最新文章

  1. FZU 1649 Prime number or not (Miller-Rabin素数测试)
  2. 一次使用Eclipse Memory Analyzer分析weblogic内存溢出
  3. Qt5.5.0环境下的mingw编译dcmtk 3.6.1_20150924
  4. 基于原始套接字的嗅探器
  5. .NET6之MiniAPI(二十一):限流
  6. 什么是透明传输 点对多传输? 它们有哪些经典应用和优势特点
  7. python中numpy矩阵运算操作大全(非常全)!
  8. 昨夜洪峰抵达主城,重庆人是这么过的......
  9. python元素分类_Python 练习 - 元素分类
  10. C语言求解100的带分数形式的代码
  11. sql server 更新语句
  12. OleDb与Access数据访问中日期时间参数类型错误和命名参数的用法
  13. java实现奇偶位交换
  14. 位运算初步入门状态压缩操作
  15. 数学分析(1):集合相关公式的证明
  16. uniapp H5微信公众号跳转小程序
  17. 深圳神州行今日起单向收费 零月租成套餐亮点
  18. 初一计算机课程表,初中课程表空白表格
  19. 前端开发基础知识汇总
  20. 计算机中选中多个文件的快捷键,电脑操作过程中同时选定多个文件的方法

热门文章

  1. 远程连接redis遇到的一些错误解决办法JedisConnectionException:java.net.SocketTimeOutException...JedisDataException:D
  2. Mvvm、第一个Vue程序、Vue基本语法
  3. mysql 5.6加用户_Mysql 5.6添加修改用户名和密码的方法
  4. flume连接kafka_日志收集系统架构设计:(flume+zookeeper+kafka+php+mysql )
  5. java spring 条件注解_【Spring】Spring高级话题-条件注解-@Condition
  6. datagridview取消默认选中_winform datagridview中的 combobox如何选中默认值?
  7. 步苹果iOS的后尘,谷歌Android12“翻车”,更新需谨慎?
  8. Exception和Error深入分析~~~
  9. html读取servlet,简单html与servlet交互(HTML利用servlet读取txt)
  10. opencv方框内图像保存_opencv::将两幅图像合并后,在同一个窗口显示;并将合并的图像流保存成视频文件...