编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融为一体。

然而,语音技术仅适用于全世界数千种语言中的一小部分。基于有限标记数据的少样本学习,甚至无人监督的语音识别是有帮助的,但这些方法的成功取决于自监督模型的质量。

近日,Meta 正式发布 XLS-R ——一套用于各类语音任务的新型自监督模型。XLS-R 由海量公共数据训练而成,能够将传统多语言模型的语言支持量增加两倍以上。

而 XLS-R 作为元宇宙社交中必不可少的一环,可以帮助母语不同的人在元宇宙中直接对话。

为了能够通过单一模型实现对多种语言的理解,Meta 对 XLS-R 进行了微调,使它能够执行语音识别、语音翻译和语言识别等功能。XLS-R 在 BABEL、CommonVoice 以及 VoxPopuli 语音识别基准测试,CoVoST-2 的外语到英文翻译基准测试,以及 VoxLingua107 语言识别基准测试中都有了先进的水平。

为了进一步使这些能够被广泛地访问,Meta 与 Hugging Face 联手发布了模型在 Github 上。

https://huggingface.co/spaces/facebook/XLS-R-2B-22-16

XLS-R 工作原理

XLS-R 基于 wav2vec 2.0 训练集上接受了超过 436,000 小时的公开语音录音训练,这是对语音表示进行自监督学习的方法。这样的训练量已经达到去年发布的最好的模型 XLSR-53 的 10 倍。利用从会议记录到有声读物等不同来源的语音数据,XLS-R 的语言已扩展到 128 种,涵盖的语言数量是钱袋模型的近2.5倍。

Meta 在4种主要多语言语音识别测试中对 XLS-R 做出评估,发现在测试的 37 种语言中,它的表现超越先前的模型工作;具体来说,在 BABEL 的 5 种语言、CommonVoice 的 10 种语言、MLS 的 8 种语言和 VoxPopuli 的 14 种语言上进行了尝试。

BABEL 上的单词错误率基准测试结果。XLS-R 较前代模型实现了显著改进。

Meta 还评估了语音翻译模型,将录音直接翻译成另一种语言。为了打造一套能够执行多种任务的模型, Meta 同时在 CoVoST-2 基准测试的数个不同翻译方向上对 XLS-R 进行了微调。最后结果是能够在英语与多达 21 种语言之间实现内容互译。

在使用 XLS-R 对英语以外的其他语言进行编码时,获得了显著的改进,这也是多语言语音表达领域的一次突破。XLS-R 在低资源语言学习中实现了显著改进,例如印尼语到英语的翻译,其中 BLEU 准确率平均翻了一番。BLEU 指标的提升是指模型给出的自动翻译结果与处理同一内容的人工翻译结果间重合度更高,代表着模型在改进口语翻译能力方面迈出了一大步。

以 BLEU 指标衡量的自动语音翻译准确率,其中较高值表示 XLS-R 从高资源语言(例如法语、德语)、中资源语言(例如俄语、葡萄牙语)或低资源语言(例如泰米尔语、土耳其语)语音记录翻译至英语时的准确率。

结语

XLS-R 表明,扩展跨语言预训练可以进一步提高低资源语言的性能。它不仅提高了语音识别的性能,还能将外语到英语的语音翻译的准确性提高了一倍以上。XLS-R 是朝着能够理解多种不同语言单一模型迈出的重要一步,它是所知道的利用公共数据进行多语言预训练的最大努力。

Meta 相信这个方向将使机器学习应用程序更好地理解所有人类语音并促进进一步研究,使语音技术在全球范围内更容易使用,尤其是在服务欠缺的人群中。Meta 将通过不断开发新方法来从较少的监督中学习,并将方法扩展到全球 7,000 多种语言,实现算法的持续更新。

参考链接:

https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/

元宇宙中可跨语种交流,Meta 发布新语音模型,支持128种语言无障碍对话相关推荐

  1. 在元宇宙里怎么交朋友?Meta发布跨语种交流语音模型,支持128种语言无障碍对话...

    来源:AI前线 本文约1500字,建议阅读5分钟 本文为你介绍 XLS-R--一套用于各类语音任务的新型自监督模型. 改名 Meta 之后,Facebook 的元宇宙愿景正在一点点实现.这一次,Fac ...

  2. 元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融 ...

  3. Meta发布支持128种语言的新语音模型:指向元宇宙跨语种交流,可在线试玩

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI Facebook AI(bushi),更准确地说是Meta AI,刚刚发布了自监督语音处理模型XLS-R,共支持128种语言. 这项技术与M ...

  4. 十年后,你在元宇宙中的一天是什么样?

    上一篇2021 元宇宙研究报告! 事情得从美国著名科幻小说作家尼尔·斯蒂芬森于1992年出版的<雪崩>说起. 在这部科幻小说当中,主角阿弘通过一台特制的电脑,就能轻松进入与现实物理世界平行 ...

  5. 人工智能Java SDK:图像文本的跨模态相似性比对检索【支持40种语言】

    图像&文本的跨模态相似性比对检索 SDK[支持40种语言] 背景介绍 OpenAI 发布了两个新的神经网络:CLIP 和 DALL·E.它们将 NLP(自然语言识别)与 图像识别结合在一起, ...

  6. Meta元宇宙女性安全问题频发,元宇宙中相关问题该如何解决?

    在女性遭受性骚扰甚至被攻击的事件相继被报道之后,仍处于萌芽状态的虚拟现实空间成为人们关注的焦点. 许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊妹平台Horizon Venue ...

  7. Imagination技术前瞻副总裁:GPU在体验元宇宙中的作用

    利用 GPU 的强大功能实现虚拟沉浸式体验和庞大的数据处理 "当Hiro走近街道时,他看到两对年轻夫妇从Port Zero爬下,这是当地的入境口岸和单轨电车站.他们可能正使用他们父母的电脑在 ...

  8. 元宇宙:Facebook正式改名为Meta,要砸600亿做这件事

    原标题:突发!Facebook正式改名,要砸600亿做这件事 美国媒体直接在评论文章中表示,"他们以为自己在糊弄谁?"全世界近30亿的Facebook用户都很清楚这家公司的&quo ...

  9. 一览「数字身份」市场结构:我们将在元宇宙中成为谁?

    原文标题:<Digital ldentities Market Repont:Who will we be in the Metaverse?> 原文作者:web3 Studios 原文编 ...

最新文章

  1. python详细安装步骤-Pycharm及python安装详细教程(图解)
  2. 题注Oracle数据库的网络连接原理
  3. linux下安装编译网卡驱动
  4. Opportunity workflow debug
  5. 全国计算机考试真考题库4,全国计算机等级考试无纸化真考题库试卷二级C--(4)资料.docx...
  6. 使用tomcat时,Add and Remove出现异常
  7. 用.net 2003开发Windows CE应用,解决与pocket pc通讯的问题
  8. html 车牌号输入代码,html中车牌号省份简称输入键盘的示例代码
  9. Windows中字体库的安装方法
  10. Cannot resolve com.oracle:ojdbc14:11.2.0.1.0
  11. 基于华为产品的高校云数据中心建设规划设计方案
  12. 进行单元测试时一直报这个错,原因是缺少aspectjweaver包
  13. 通俗讲解光线追踪原理,一文理清各类光线追踪
  14. k8s安装prometheus+grafana(第二弹:prometheus-operator)
  15. 2018 蓝桥杯省赛 B 组模拟赛(一)青出于蓝胜于蓝(DFS序+树状数组)
  16. ARTS1(Algorithm, Review , Tip/Techni, Share)
  17. hnu 数字电路 实验1.1 异或门
  18. 通过ajax接口爬取智联招聘
  19. 【c51单片机】交通红绿灯设计
  20. Unable to resolve dependency for :app@debug/compileClasspath': Could not resolve com.***问题解决

热门文章

  1. java培训基础知识都学哪些
  2. Velocity判断空的方法
  3. 【网摘】检测 iframe 是否加载完成
  4. python 100例(10)
  5. Android系统--TouchEvent的处理流程
  6. 异常检测算法:Isolation Forest
  7. 【书籍下载链接】_2_第二轮_计算机专业书籍
  8. 达观数据于敬:个性化推荐系统实践
  9. Linux之文件权限管理
  10. 视频批量转换为FLV的软件开发总结(1)——思想总结篇