点击上方,选择星标置顶,每天给你送干货

阅读大概需要5分钟

跟随小博主,每天进步一丢丢

每日英文

Wisdom in the mind is better than money in the hand.

脑中有知识,胜过手中有金钱。

Recommender:云不见

作者:Branden Chan

原文链接:

https://medium.com/deepset-ai/xlm-roberta-the-multilingual-alternative-for-non-english-nlp-cf0b889ccbbf

翻译:王萌 澳门城市大学(深度学习自然语言处理公众号)

多语言模型是否改善了单语言模型的不足?

巴别塔(图片来自维基百科)

如果您使用非英语语言进行NLP,则经常会困扰于“我应该使用哪种语言模型?”这一问题。尽管社区的单语训练模型越来越多,但还有一种似乎不太受关注的替代方法:多语言模型。

在本文中,我们重点介绍XLM-R模型的关键要素,并探讨其在德语中的性能。我们发现,在三个流行的德语数据集上,它的表现优于我们的单语德语;虽然在 GermEval18 (仇恨语音检测) 上与 SOTA 性能相当,但在 GermEval14  (NER) 上显著优于以前的方法。

为什么要使用多语言模型?

XLM-Roberta的出现正值非英语模式如Finnish BERT,French BERT(又称CamemBERT)和German BERT激增之时。通过与研究人员的交流互动以及与业界的联系,我们意识到,现在确实需要将尖端NLP技术用于非英语语言。

我们也坚信,多语言模型对于那些期望未来扩张的公司来说是一个很好的解决方案。过去,我们与客户合作过,这些客户目前只使用一种语言运营,但有将服务扩展到全球的雄心。对他们来说,多语言模型是一种面向未来的形式,可确保其有的 NLP 基础架构能够让他们无论选择多少地区开展业务都可以去拓展。

XLM-Roberta有什么新功能?

Facebook AI团队于2019年11月发布了XLM-RoBERTa,作为其原始XLM-100模型的更新。它们都是基于转换器的语言模型,都依赖于掩码语言模型目标,并且都能够处理100种不同语言的文本。相较于原始版本,XLM-Roberta的最大更新是训练数据量的显著增加。经过清洗训练过的常用爬虫数据集占用高达2.5tb的存储空间!它比用来训练其前身的Wiki-100语料库大几个数量级,并且在资源较少的语言中,扩展尤其明显。它比用来训练其前版本的Wiki-100语料库大几个数量级,并且在资源较少的语言中,这种扩大尤其明显。“ RoBERTa”从某方面来说,它的训练程序与单语言RoBERTa模型相同,特别是唯一的训练目标是掩码语言模型。它没有下句预测的á la BERT模型或者句子顺序预测的á la ALBERT模型。

每种语言的常见爬虫数据集的容量增加超过了维基百科的(来自XLM-RoBERTa论文)

XLM-Roberta现在使用一个大型共享语句块模型来标记字符串,而不是像XLM-100那样具有大量特定语言的分词器。验证困惑度也不再用作训练时的停止标准,因为研究人员发现,即使困惑度没有提高,后续性能也继续提高。

结果

最后,我们对XLM-RoBERTa的一分类和两项NER任务进行了评估,它们表现出了非常出色的性能。XLM-RoBERTa Large与GermEval18(分类)的最佳提交分数不相上下。在GermEval14(NER)上,该模型在F1的表现比在Flair的要好2.35%。

评估结果。这里是GermEval18 的排行榜,这里是Flair报告的分数

这些结果是在不进行大量超参数调整的情况下得出的,我们希望通过进一步调整学习率和batch大小可以改善这些结果。另外,对于NER任务,我们认为在XLM-RoBERTa的上一层添加CRF层会有所收获。

结论

这些结果实力表明,即使在单一语言上进行评估,多语言模型也表现出出色的性能,我们建议德国NLP从业人员在为其NLP系统选择语言模型时至少考虑XLM-Roberta变体之一。打破以英语为中心的NLP研究的重要性已经被Emily Bender教授广泛地讨论过,我们相信非英语语言的研究只会增加。我们认为,未来最好的模型可以从文本中学习,不仅可以从不同的领域而且可以从不同的语言中学习,这并不是不可思议的。

编辑于17/02/20:我们之前曾报告过CoNLL2003的分数由于数据集问题而有误

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

整理不易,还望给个在看!

XLM-RoBERTa: 一种多语言预训练模型相关推荐

  1. NLP-预训练模型-2019:XLM-Roberta【一种多语言预训练模型】

    <原始论文:Unsupervised Cross-lingual Representation Learning at Scale> Facebook AI团队于2019年11月发布了XL ...

  2. 语言五子棋无ai程序框图_微软多语言预训练模型T-ULRv2登顶XTREME排行榜

    编者按:为进一步实现用 AI 赋能用户体验,微软正在不断拓展多语言模型的边界.近日,由微软图灵团队与微软亚洲研究院联合探索的最新跨语言研究成果--多语言预训练模型 T-ULRv2,登顶 XTREME ...

  3. EMNLP 2021 | 百度:多语言预训练模型ERNIE-M

    作者 |‍ Chilia  ‍ 哥伦比亚大学 nlp搜索推荐 整理 | NewBeeNLP 2021年伊始,百度发布多语言预训练模型ERNIE-M,通过对96门语言的学习,使得一个模型能同时理解96种 ...

  4. 微软亚研提出VL-BERT:通用的视觉-语言预训练模型

    机器之心发布 作者:Weijie Su.Xizhou Zhu.Yue Cao.Bin Li.Lewei Lu.Furu Wei.Jifeng Dai 来自中科大.微软亚研院的研究者们提出了一种新型的通 ...

  5. ERNIE-GeoL:“地理位置-语言”预训练模型

    本文介绍『文心大模型』的一项最新工作:"地理位置-语言"预训练模型 ERNIE-GeoL. 论文链接: https://arxiv.org/abs/2203.09127 实践中的观 ...

  6. 零样本迁移?全新多语言预训练模型DeltaLM!

    作者 | 马树铭 MSRA 研究员 整理 | DataFunSummit 目前,多语言神经机器翻译受到越来越多的研究人员的关注,多语言预训练模型对神经机器翻译可以起到非常重要的作用.预训练模型自身的跨 ...

  7. 多语言预训练模型在机器翻译中的应用

    多语言预训练模型在机器翻译中的应用 机器翻译路线图:从统计机器翻译发展到多语言神经机器的翻译. 多语言神经机器的翻译: 训练: 多语言语言对的组合 根据数据大小抽样训练数据 模型构建: 一个统一的模型 ...

  8. Bert,Albert,Roberta,XLNet的中英文预训练模型下载网址及教程

    自然语言处理的各大热门的中英文预训练模型下载网址,包含了Bert,Albert, Roberta, XLNet等模型的base和large.tensorflow和pytorch版本的预训练模型. ht ...

  9. 视觉-语言预训练模型综述

    Li F, Zhang H, Zhang Y F, et al. Vision-Language Intelligence: Tasks, Representation Learning, and L ...

  10. 周明:预训练模型在多语言、多模态任务的进展

    2020-09-12 15:34:16 作者 | 周明 编辑 | 陈彩娴 8月29日至30日,由中国科学技术协会.中国科学院.南京市人民政府为指导单位,中国人工智能学会.南京市建邺区人民政府.江苏省科 ...

最新文章

  1. 数字图像处理7:图像增强之灰度变换
  2. 代码中特殊的注释技术——TODO、FIXME和XXX的用处
  3. java nextday_Nextday 参数化单元测试(测试用例)设计
  4. Hadoop辅助工具——Flume、Sqoop
  5. 拍不完的脑袋:推荐系统打压保送重排策略
  6. [bzoj4994][Usaco2017 Feb]Why Did the Cow Cross the Road III_树状数组
  7. 【题解】Luogu P2147 [SDOI2008]洞穴勘测
  8. 数据结构之排序算法Java实现(8)—— 线性排序之计数排序算法
  9. jquery noConflict() 兼容其他框架同时用$
  10. C/C++[codeup 2018]数列
  11. 网络安全等级测评师培训(初级)----2021.6.6
  12. STM32--vs1053 WAV录音实现(保存在SD卡)
  13. poj 3626 Mud Puddles
  14. dedecms源码分析(第一部分)
  15. Lesson 8 question 1 Dominator
  16. 从“领域变迁”的视角,来看钉钉的“退让”与“进取”
  17. 【电容知识】之【NPO X7R Y5V 电容规格细谈】
  18. 监控神器-普罗米修斯Prometheus的安装
  19. 已解决:error: cannot connect to daemon
  20. 第四章:商品治理五大策略

热门文章

  1. 用csc手动编译和Ildasm反编译
  2. bootstrap3-iframe-modal子页面在父页面显示模态框
  3. Mac 安装 Grunt
  4. 做一款仿映客的直播App
  5. 实验二 (2)优先数调度
  6. Win8:Setting
  7. 上周Asp.net源码(11.5-11.10)免费下载列表
  8. Cookie使用基础
  9. 如何自动生成和安装requirements.txt依赖
  10. 2016年上半年数据库系统工程师上午真题