来源:AI前线
本文约1500字,建议阅读5分钟
本文为你介绍 XLS-R——一套用于各类语音任务的新型自监督模型。

改名 Meta 之后,Facebook 的元宇宙愿景正在一点点实现。这一次,Facebook 把目光投在了元宇宙社交上。

Meta 发布语音处理模型 XLS-R

近日,Meta 正式发布 XLS-R——一套用于各类语音任务的新型自监督模型。据悉,XLS-R 由海量公共数据训练而成(数据量是过去的十倍),能够将传统多语言模型的语言支持量增加两倍以上。目前,XLS-R 共支持 128 种语言。

Meta 认为,语音交流是人们最自然的一种交互形式。“随着语音技术的发展,我们已经能够通过对话同自己的设备及未来的虚拟世界直接互动,由此将虚拟体验与现实世界融为一体。”

这与扎克伯格此前宣称的“公司业务将以元宇宙优先”不谋而合。此前,扎克伯格曾概述了他建立“元世界”的计划:一个建立在我们自己的数字世界之上的数字世界,包括虚拟现实和增强现实。“我们相信元宇宙将会接替移动互联网”。

而 XLS-R 作为元宇宙社交中必不可少的一环,可以帮助母语不同的人在元宇宙无障碍对话。

值得一提的是,为了通过单一模型实现对多种语言的广泛语音理解能力,Meta 对 XLS-R 进行了微调,使其获得语音识别、语音翻译及语言识别等功能。据介绍,XLS-R 在 BABEL、CommonVoice 以及 VoxPopuli 语音识别基准测试,CoVoST-2 的外语到英文翻译基准测试,以及 VoxLingua107 语言识别基准测试中都取得了不错的成绩。

为了尽可能降低功能访问门槛,目前,Meta 与 Hugging Face 联手发布了模型本体,并通过 fairseq GitHub repo 全面开放。

试用地址:

https://huggingface.co/spaces/facebook/XLS-R-2B-22-16

XLS-R 工作原理

据介绍,XLS-R 在 wav2vec 2.0 训练集上接受了超过 43 万 6 千小时的公开语音录音训练,从而实现了对语音表达的自监督学习方法。这样的训练量已经达到去年发布的当时最强的模型 XLSR-53 的 10 倍。利用从会议记录到有声读物的多种语音数据来源,XLS-R 的语言支持范围扩展到 128 种,涵盖的语种量达到前代模型的近 2.5 倍。

作为 Meta 打造的有史以来最大模型,XLS-R 中包含超过 20 亿个参数,性能远高于其他同类模型。Meta 表示,事实证明,更多参数能够更充分地体现、数据集中的各类语种。此外,Meta 还发现,规模更大的模型在单一语言预训练方面的性能也同样优于其他较小模型。

Meta 在四种主要多语言语音识别测试中对 XLS-R 做出评估,发现它在 37 种语言上获得了超越以往模型的效能。具体测试场景为:BABEL 中选取 5 种语言,CommonVoice 中选取 10 种语言,MLS 中选取 8 种语言,以及 VoxPopuli 上选取 14 种语言。

BABEL 上的单词错误率基准测试结果。XLS-R 较前代模型实现了显著改进。

此外,Meta 还评估了语音翻译模型,即将录音资料直接翻译成另一种语言。为了打造一套能够执行多种任务的模型, Meta 同时在 CoVoST-2 基准测试的数个不同翻译方向上对 XLS-R 进行了微调,使其能够在英语与多达 21 种语言之间实现内容互译。

在使用 XLS-R 对英语以外的其他语言进行编码时,获得了显著的效能提升,这也是多语言语音表达领域的一次重大突破。据 Meta 介绍,XLS-R 在低资源语言学习中实现了显著改进,例如印尼语到英语的翻译,其中 BLEU 准确率平均翻了一番。BLEU 指标的提升是指模型给出的自动翻译结果与处理同一内容的人工翻译结果间重合度更高,代表着模型在改进口语翻译能力方面迈出了一大步。

以 BLEU 指标衡量的自动语音翻译准确率,其中较高值表示 XLS-R 从高资源语言(例如法语、德语)、中资源语言(例如俄语、葡萄牙语)或低资源语言(例如泰米尔语、土耳其语)语音记录翻译至英语时的准确率。

Meta 认为,XLS-R 证明扩大跨语言预训练规模可以进一步提高低资源语言的理解性能。它不仅提高了语音识别率,同时也将由外语到英语的语音翻译准确率提高了一倍以上。

“XLS-R 是我们朝着以单一模型理解多种不同语言(语音)目标迈出的重要一步,也代表着我们在利用公共数据推进多语言预训练方面做出的最大努力。我们坚信这是一条正确的探索方向,将让机器学习应用更好地理解所有人类语音、并促进后续研究,大大降低语音技术在全球范围内、特别是服务匮乏社群中的使用门槛。我们将不断开发新方法,通过低监督学习拓展模型的语言理解能力、逐步使其覆盖全球 7000 多种语言,实现算法的持续更新。”Meta 提到。

参考链接:

https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/

编辑:于腾凯

在元宇宙里怎么交朋友?Meta发布跨语种交流语音模型,支持128种语言无障碍对话...相关推荐

  1. 元宇宙中可跨语种交流,Meta 发布新语音模型,支持128种语言无障碍对话

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融 ...

  2. 元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融 ...

  3. Meta发布支持128种语言的新语音模型:指向元宇宙跨语种交流,可在线试玩

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI Facebook AI(bushi),更准确地说是Meta AI,刚刚发布了自监督语音处理模型XLS-R,共支持128种语言. 这项技术与M ...

  4. 元宇宙里的性、亲密关系与恋爱?你有没有想过这个问题?

    ​ 元宇宙中可以接吻吗?据报道,国外一所大学研究员研发了一个可以靠接触唇部,就能产生唇齿触觉的VR设备.再把设备安装在虚拟现实头戴设备的底部,这样玩家在元宇宙里就能体验嘴部效果.更厉害的是,唇部触感真 ...

  5. 元宇宙里过圣诞!爆肝300小时打造「冬日仙境」,占地16万平米

    转自:新智元 2021年即将过去,2021年无疑堪称是元宇宙概念大爆发元年,那么圣诞节怎么能少了它呢?试想一下: 当甘道夫骑着影疾来到耸立在明多陆安山半山腰的「白城」. 这个守护着刚铎的众王之城所展现 ...

  6. 我们能否在元宇宙里过年?

    作者 | 金旺 出品 | 锌产业 2022年,是人类和COVID-19共存的第三年,也是很多人无法回家过年的第三年. 尤记两年前第一次因疫情无法回家过年,通过微信视频与被困在各座城市的家人一起看春晚. ...

  7. 元宇宙里过圣诞,英伟达用300小时打造“冬日仙境”,占地16万平米

    新智元 在元宇宙里过圣诞是种什么体验?今天就带你体验一把!英伟达爆肝300小时打造的冬日仙境终于赶在节前发布了,总共耗费了超3000万个方块,占地近16万平米!三个大雪球构成的世界足够圣诞节去探索了, ...

  8. 日本京都大学 77TB重要数据被删;元宇宙要凉?Meta停止开发 VR/AR系统。 | 一周 IT 资讯...

    惠普公司闯大祸!日本京都大学超算系统77TB重要数据被删:滴滴宣布裁员,幅度达20%:Meta 停止开发 VR/AR 操作系统,独立自主计划受挫:2021年编程语言排行榜出炉,Python稳居榜首:T ...

  9. 百度要在“元宇宙”里办AI开发者大会了

    金磊 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI Facebook前脚改名Meta,All in元宇宙,百度也不想落后? 这不,百度决定在今年年底,把自家的Create AI开发者大会 ...

最新文章

  1. 王者荣耀AI绝悟如何选英雄?腾讯AI Lab新研究揭秘
  2. html怎么添加5px高的线,CSS 0.5px 细线边框的原理和实现方式
  3. 计算机操作系统(11):负载均衡
  4. 微信小程序获取unionid与openid
  5. 计算机98k音乐,【土豆】handclap 98K 完整版
  6. 聊聊kafka consumer offset lag的监控
  7. Java获取姓名的首字母_java获取中文拼音首字母的实例
  8. linux系统每次开机分辨率,解决linux分辨率设置过高 不能进入图形界面
  9. 【秋招面经】全网最全大华前端题目总结
  10. 嵌入式单片机基础篇(三十七)之485通讯以及51单片机程序
  11. FDD与TDD的区别
  12. DOS命令:chkdsk
  13. C语言程序设计第四次作业-选择结构(2)
  14. MarkDown官方教程
  15. C语言程序设计教程(第三版)课后习题5.7
  16. python中不等于号_python的不等于号是什么
  17. C语言实现shell
  18. IS审计师执行风险评估的主要原因
  19. Apache Hive入门:模拟实现Hive功能、Hive架构、 组件
  20. 华南理工大学计算机专业课程表,华南理工大学2017.92018.7学年度第二学期课程表.DOC...

热门文章

  1. linux0.11内核编译,编译Linux-0.11内核
  2. 打印机没有反应计算机管理,计算机基础知识:如何解决打印机没有反应的问题(二)...
  3. 《css世界》的那些实用技巧
  4. ansible部署tomcat及 include机制
  5. 解决 Windows instance 时间不同步问题 - 每天5分钟玩转 OpenStack(153)
  6. 熟练Linux ,先从这 26 个命令开始吧
  7. FreeBSD最小化安装没有man解决方法
  8. python数据库查询不出结果_记一次pymysql查询不到表中最新插入的数据的问题
  9. HelloServlet
  10. mysql 自定义哈希函数_C++ STL无序容器自定义哈希函数和比较规则(超级详细)...