点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI

最近,Facebook开源了目前世界上最大的多语言语音数据集,VoxPopuli:

这一数据集共涵盖了23种语言,时长超过40万小时。

其中,每种语言都有9000到18000小时的无标签语音数据。

此外,还包括了共1800小时,16种语言的转录语音数据,以及17300小时,15种目标语言的口译语音数据。

国外网友很快为这一行为点赞:

显然,如果数据集已经存在,那么它应该被利用,并以一种道德的方式来改善人类社会。

这一数据集庞大的无标签数据量和广泛的语言覆盖率,对改进自监督模型有着很大的帮助。

而Facebook也希望能够帮助提高语音数据集的质量和鲁棒性,使训练语音转换神经网络更加可靠。

最终加速新的NLP系统的开发,使AI翻译的效果越来越好。

而数据集的名字,VoxPopuli的直译“人民的心声”也表示了其原始数据的来源——

即源语音全都收集自2009-2020年欧洲议会的活动录音。

来自10年欧会的语料库

在欧洲议会的各自活动,如全体会议、委员会会议和其他活动上,发言者都会以不同的欧盟语言轮流发表演讲。

Facebook就是从欧会官网上抓取了每个演讲的文字记录、演讲者信息、开始/结束时间戳。

然后,将所有的原始演讲数据进行处理,大致分为以下3类:

共40万小时,23种语言的无标签语音数据

每种语言都有8千到2万多的原始语音数据。

因此,Facebook基于能量的语音激活检测(VAD)算法,将完整音频分割成15-30秒的短片段。

最终得到没有太多的数据不平衡,也不需要调整数据采样策略的数据集。

因此非常适合多语言模型的训练。

而上表中除了无标签数据,也有转录的语音数据,这也就是第二种:

共1800小时,16种语言的转录语音数据

欧会官方的时间戳虽然可以用来在会议中定义演讲者,但常常会被截断,或混合前后演讲的片段,因此并不完全准确。

所以Facebook对全会话音频采用了声纹分割聚类(SD)。

这时的语音段落平均时长为197秒,再利用语音识别(ASR)系统,将其细分为20秒左右的短片段。

观察上表,可以看到最终得到的数据中,有包括各语言的持续时间、发言人数量、女性发言人百分比、标记数量等多种属性。

17300小时的15种目标语言的口译语音数据

每个原始语音都有相对应的同声传译,并互相关联。

但要使这个数据集可用,必须经过大量的预处理和过滤。

因此,Facebook使用了语音识别(ASR)系统在句子层面上对齐源语音和目标语音。

在域外环境的半监督学习下具有通用性

那么这一数据集用起来到底怎么样?

首先,是使用包含了域外语言(out-of-domain out-of-language)的无监督预训练,进行少样本的语音识别

可以从表中看到,VP-Mono5K在5种VoxPopuli语言上,都优于XLSR-Mono和XLSR-10。

而VP-100K则在10种语言中的8种上的都比XLSR-10的表现更好。

并且,虽然XLSR-53涵盖了Zh语言,但与VP-100K(Large)在Zh上的表现相距甚远。

这表明VP-100K所学的语音表征具有高度的通用性

然后是使用VoxPopuli数据集进行自我训练或弱监督的语言翻译(ST)和语音识别(ASR):

从表中可以看到,不管是对于域内语言还是域外语言,对VoxPopuli的自我训练在大多数时候都能够提高性能。

而在翻译上,也不用再增加昂贵的标签数据。

通过自我训练,就能够缩小端到端模型和级联模型之间的差距。

论文地址:
https://arxiv.org/abs/2101.00390

下载:
https://github.com/facebookresearch/voxpopuli

参考链接:
[1]https://www.reddit.com/r/MachineLearning/comments/owll7g/n_facebook_ai_releases_voxpopuli_a_largescale/
[2]https://www.marktechpost.com/2021/08/02/facebook-ai-releases-voxpopuli-a-large-scale-open-multilingual-speech-corpus-for-ai-translations-in-nlp-systems/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

点个在看 paper不断!

世界最大的多语言语音数据集现已开源!超40万小时,共23种语言相关推荐

  1. 懂23种语言 2019年上市 宝马的AI助理有哪些不同!

    关注网易智能,聚焦AI大事件,读懂下一个大时代! [网易智能讯 9月10日消息]宝马今天宣布,计划在明年推出一款智能助理,它将满足人们的各项需求,比如播放音乐.为你指路.或者回答一些随机的问题,比如& ...

  2. AI:2020年6月22日北京智源大会演讲分享之09:40-10:10Mari 教授《基于显式上下文表征的语言处理》、10:10-10:40周明教授《多语言及多模态任务中的预训练模型》

    AI:2020年6月22日北京智源大会演讲分享之09:40-10:10Mari 教授<基于显式上下文表征的语言处理>.10:10-10:40周明教授<多语言及多模态任务中的预训练模型 ...

  3. 世界第一家完成两百万次AI验箱自动箱况检测,上亿次集装箱识别,产品运行时长超660万小时,全球No.1集装箱人工智能企业中集飞瞳

    世界第一家完成两百万次AI验箱自动箱况检测,上亿次集装箱识别,产品累计运行时长超660万小时,全球No.1集装箱人工智能AI企业中集飞瞳.中集飞瞳全球港航人工智能独角兽,成熟港航人工智能AI产品行业第 ...

  4. 能听懂口音的开源语音系统来了:OpenAI出品,支持99种语言,英文识别能力直逼人类...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 羿阁 发自 凹非寺 量子位 | 公众号 QbitAI 逼近人类水平的 ...

  5. Meta 开源早期 AI 翻译工具支持 200 种语言

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) Meta 创建了一个能够翻译 200 种不同语言的人工智能模型,包括许多目前商业工具不支持的语言.Meta 正在开源该项目,希望 ...

  6. 杀手级AI补代码工具问世,支持23种语言、5种主流编辑器!(附链接)

    本文经AI新媒体量子位授权转载,转载请联系出处. 本文约2100字,建议阅读10分钟. 本文介绍了新开发出的"Deep TabNine"代码补全工具,支持多种编程语言和编辑器. G ...

  7. 初中C语言教程,初中信息学竞赛C语言程序设计基础入门教学视频全集(万门学院 23讲)...

    初中信息学竞赛C语言程序设计基础入门教学视频目录: 001-课程概述.mp4 002-数组的概念.mp4 003-一维数组的定义.mp4 004-一维数组的引用.mp4 005-二位数组(1).mp4 ...

  8. Mozilla发布最大公共语音数据集Common Voice

    近日,Mozilla发布了当前可使用的,规模最大的公共语音数据集Common Voice,数据集涵盖18种语言,由42000多名贡献者提供的近1400小时的语音数据构成. 文 / George Rot ...

  9. “智源-MagicSpeechNet 家庭场景中文语音数据集挑战赛”上线

    2019 年 12 月,北京智源人工智能研究院联合爱数智慧和数据评测平台 Biendata,共同发布了"智源 MagicSpeechNet 家庭场景中文语音数据集",其中包含数百小 ...

最新文章

  1. 【计算机网络】HTTP 与 HTTPS ( HTTP 在网络各个层级的传输过程 | HTTPS 工作流程 | HTTPS 弊端 )
  2. android vue.js点击反应慢,解决vue 界面在苹果手机上滑动点击事件等卡顿问题
  3. 数组面试题--数组求和
  4. nessus重置密码
  5. c语言a 寻路算法,JS/HTML5游戏常用算法之路径搜索算法 A*寻路算法完整实例
  6. jenv java_mac 上使用jenv 管理的多个java 版本
  7. 电脑显卡接口类型:VGA、HDMI、DP
  8. 变成小白的第一本Python入门书,第五章循环与判断课后题答案
  9. Java重写方法与初始化的隐患(转)
  10. linux常用命令100个(转)
  11. 全球院士共话智能工业创新
  12. 数学分析习题解答(四:第一部分)
  13. 微积分学习笔记(2)--修改更新中
  14. 人类最常见的25个认知偏误(一)
  15. JavaScript学习第二部-js的基础语法和语句
  16. JS-写一个函数,返回参数的平方和
  17. 北斗/GPS授时原理
  18. PySpark 之 map
  19. android 乐固渠道打包,android多渠道打包:umeng+美团walle+腾讯乐固
  20. Neo4j图数据库简介和底层原理

热门文章

  1. jquery validate 详解一
  2. 技术网站/博客网址收藏
  3. extjs grid renderer用法
  4. Datawhale组队学习周报(第010周)
  5. 技术图文:如何在leetcode上进行算法刻意练习?
  6. Matlab编程与数据类型 -- M文件的编辑和存储
  7. 第九代小冰惊喜登场,多端融合且琴棋书画样样精通
  8. 一文搞定7大流行后端框架:Spring、Netty、MyBatis、Hibernate、Dubbo...
  9. 漫画 | 没有一个程序员能拒绝这样的女朋友
  10. Spring Boot 实现接口幂等性的 4 种方案!还有谁不会?