近日,Mozilla发布了当前可使用的,规模最大的公共语音数据集Common Voice,数据集涵盖18种语言,由42000多名贡献者提供的近1400小时的语音数据构成。

文 / George Roter

翻译 / 咪宝

原文

https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/

Mozilla发布了可供使用的最大人类语音数据集,包括18种不同的语言,累计记录了超过42,000多名贡献者的近1,400小时的语音数据。

从一开始,我们对Common Voice的愿景就是构建世界上最多样化的语音数据集,为构建语音技术进行优化。我们还做出了开放的承诺:向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。

今天,我们很高兴与大家分享我们的第一个多语种数据集,其中包含18种语言。包括英语、法语、德语和普通话(繁体),以及威尔士语和卡比尔语。总的来说,新的数据集囊括了超过42000人的大约1400个小时的语音片段。

在这个版本中,不断增长的Common Voice数据集目前是同类数据集中规模最大的,成千上万的人将他们的声音和原始的手写文字贡献给公共领域(CC0)。完整的数据集可以在Common Voice站点上(https://voice.mozilla.org/zh-CN/datasets)进行下载。

数据质量

Common Voice数据集不仅在其大小和许可模型(https://github.com/JRMeyer/open-speech-corpora)方面是独一无二的,而且在其多样性上也是独一无二的。它代表了一个由语音贡献者组成的全球社区。贡献者可以选择提供诸如他们的年龄、性别和口音等元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。

这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与“已发现”的数据集一样的多样性数据集(例如,TED演讲中的TEDLIUM语料库是男性和女性的3倍)。

更常见的声音:8个月内从3种语言到22种语言

自2018年6月启用多语言支持以来,Common Voice已变得更加全球化,更具包容性。这已经超出了我们的预期:在过去的8个月中,社区积极响应该项目,以22种语言开展数据收集工作,在Common Voice网站上,还有70种语言正在进行中,令人难以置信。

作为一个社区驱动的项目,世界各地关心用自己的语言建立语音数据集的人们负责每一个新项目的启动——有些是热情的志愿者,有些是作为语言学家或技术专家日常工作的一部分。每一项工作都需要翻译网站,以允许投稿和添加句子阅读。

我们最新增加的语言包括荷兰语、Hakha-Chin语、世界语、波斯语、巴斯克语和西班牙语。在某些情况下,Common Voice上发布一种新语言代表着该语言在互联网上出现的开始。这些社区的努力证明了:所有语言,不仅仅是那些能够为科技公司带来高收入的语言都值得成为代表。

我们将继续与这些社区合作,确保他们的声音成为代表,甚至帮助他们自己开发语音技术。本着这种精神,我们最近与Deutsche Gesellschaft für Internationale Zusammenarbeit(GIZ)合作,在基加利联合主办了一场创意黑客马拉松,为Kinyarwanda创建了一个语音语料库,为卢旺达当地的技术人员开发基于他们自己语言的开源语音技术奠定了基础。

改进贡献者的体验,包括可选配置文件

Common Voice网站是我们构建语音数据集的主要工具之一,这些数据集对语音交互技术非常有用。它今天的样子是一个不断迭代的过程产生的结果。我们听取了社区对有关贡献者痛点的反馈,同时也进行了可用性研究,以使得贡献、投稿更容易、更有吸引力、更有趣。

参与贡献的人不仅可以在录制和验证中看到每种语言的进度,而且还改进了不同片段之间的提示; 新的功能,以审查,重新记录,并跳过剪辑作为一个集成部分的经验;在说话与倾听之间快速切换; 以及选择退出会话的功能。

我们还添加了创建已保存配置文件的选项,允许参与者跟踪多种语言的进度和指标。提供一些可选的人口统计信息同时改善了用于训练语音识别准确度的音频数据。

Common Voice最初作为概念证明原型,在过去的一年中一直在协作迭代。

授权去中心化的产品创新:马拉松而非冲刺

Mozilla的目标是建立一个更加多样化和创新的语音技术生态系统。我们的目标是既发布自己的语音产品,同时也支持研究人员和小型玩家。通过Common Voice提供数据只是其中的一部分,开源的语音到文本和文本到语音引擎以及由我们的机器学习小组驱动的、经过训练的DeepSpeech项目模型也是其中的一部分。

我们知道这需要时间,我们相信尽早发布和公开工作能够吸引技术人员、组织和公司的参与和反馈,从而使这些项目更加健壮。目前,这两个项目都处于研究阶段,DeepSpeech在产品化方面取得了很大的进步。

到目前为止,有了来自普通语音和其他来源的数据,DeepSpeech在技术上能够“实时”地将语音精确地转换为文本,即在流式传输音频时实时转换。这允许当讲座、电话交谈、电视节目、广播节目和其他直播流发生时进行转录。

DeepSpeech引擎已经被许多非mozilla项目所使用:例如,在Mycroft中,一个开源的基于语音的助手;在利昂,一个开源的个人助理;在电话内线交换机(FusionPBX)中,安装在私人机构并为其服务的一种电话交换机,用于记录电话信息。在未来,Deep Speech将针对更小的平台设备,如智能手机和车载系统,开启Mozilla内外的产品创新。

对于Common Voice,我们在2018年的重点是构建概念,使其成为能够被任何语言社区使用、优化网站和构建强大后端(例如,帐户系统)的工具。在接下来的几个月里,我们将集中精力尝试不同的方法,通过社区努力和新的合作伙伴关系来增加我们能够收集的数据的数量和质量。

我们的总体目标仍然是:为世界上所有寻求构建和使用语音技术的人提供更多、更好的数据。因为竞争和开放有利于创新。因为较小的语言是一个访问和公平的问题。因为隐私和控制很重要,尤其是对你的声音。

点击【阅读原文】或扫描图中二维码了解更多LiveVideoStackCon 2019 上海 音视频技术大会 讲师信息。

Mozilla发布最大公共语音数据集Common Voice相关推荐

  1. Mozilla发布最大的人类语音数据集(Common Voice)

    Common Voice 项目是 Mozilla 发起的倡议,旨在帮助教会机器真人的说话方式.昨天发布了最大的人类语音公共数据集,称为Common Voice.该数据集由18种不同的语言(包括英语,法 ...

  2. Mozilla “Common Voice” 开源语音识别项目

    语音识别技术可能会彻底改变我们与机器的交互方式,但通常技术开发代价昂贵,而且有专利上的使用限制.大多数语音识别技术都被封锁在少数的大公司内.Mozilla认为这样会阻碍创新,因此它发起了"C ...

  3. 1400小时开源语音数据集,你想要都在这儿

    整理 | 一一 出品 | AI科技大本营(ID:rgznai100) 3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名 ...

  4. 各种数据集总结 图像数据集 语音数据集

    1.图像数据集: (1)MNIST:由纽约大学的Yann LeCun整理的手写数字(0-9)数据集,图片大小为28*28,包含60000个训练集,10000个测试集,广泛用于机器学习的测试和训练. ( ...

  5. 上海交大发布 MedMNIST 医学图像分析数据集 新基准

    来源 | HyperAI超神经 责编 | 晋兆雨 头图 | 付费下载于视觉中国 内容概要:医学图像分析是一个非常复杂的跨学科领域,近日上海交通大学发布了 MedMNIST 数据集,有望促进医学图像分析 ...

  6. “智源-MagicSpeechNet 家庭场景中文语音数据集挑战赛”上线

    2019 年 12 月,北京智源人工智能研究院联合爱数智慧和数据评测平台 Biendata,共同发布了"智源 MagicSpeechNet 家庭场景中文语音数据集",其中包含数百小 ...

  7. 【深度学习】上海交大发布 MedMNIST 医学图像分析数据集 新基准

    By 超神经 内容概要:医学图像分析是一个非常复杂的跨学科领域,近日上海交通大学发布了 MedMNIST 数据集,有望促进医学图像分析的发展. 关键词:医学图像分析   公开数据集  令人头秃的医学图 ...

  8. 云重磅 | 没有硬件,苹果发布多款“云服务”;阿里云发布基于公共云的虚拟GPU服务;中国移动首发5G套餐...

    戳蓝字"CSDN云计算"关注我们哦! 嗨,大家好,重磅君带来的[云重磅]特别栏目,如期而至,每周二第一时间为大家带来重磅新闻.把握技术风向标,了解行业应用与实践,就交给我重磅君吧! ...

  9. 无法扩展该卷 因为群集的数量将超过文件系统_浏览器将支持Python项目!Mozilla发布Pyodide...

    作者|Michael Droettboom 编译|王强.覃云 近日,Mozilla 发布了一个实验项目 Pyodide,旨在浏览器内运行一个完整的 Python 数据科学堆栈. 链接: https:/ ...

最新文章

  1. 一个三本程序猿的大厂逆袭之路
  2. 2019.04.07 装饰器介绍
  3. Visual Studio Code里一个查看括号匹配的神器 - Bracket Pair Colorizer
  4. python中mean的用法_Python statistics mean()用法及代码示例
  5. vb.net调用oracle存储过程,vbnet2008连接oracle增删改查学习笔记(经典crud_含存储过程).doc...
  6. Magento教程 4:主机环境准备
  7. 美国TOP100大学优势专业位置分布!长篇吐血整理!
  8. ubuntu阿里云盘(小白羊)
  9. @linux下tar解压失败a lone zero解决方法
  10. 6.1、减肥计划,不死神兔,百钱百鸡案例
  11. mtkgpio中断控制器_MT2523芯片参考手册
  12. 爬虫之使用代理ip爬取
  13. airpods麦克风测试软件,苹果AirPods新维修工具上线 可区分是污垢堵塞还是故障
  14. RK3326 8.1 otg和host切换
  15. 共识算法(BABE+GRANDPA)
  16. 9、图解门禁系统电锁分类及安装方法
  17. 重装系统时提示无法在计算机安装系统文件夹,电脑重装系统提示遇到错误Windows安装无法继续解决方法...
  18. Corel Paintshop pro 2020安装教程和中文设置教程
  19. 手把手教你分析电路之电动车防盗器喇叭驱动
  20. HCNP BGP协议 思维导图

热门文章

  1. (转载)java list排序
  2. IIS崩溃时自动抓取Dump
  3. 专利:结构化大数据通信协议
  4. vue2.0 组件通信
  5. 为@RequestMapping标注的方法扩展其传入参数
  6. 应用生命周期终极 DevOps 工具包
  7. 极客班C++ STL(容器)第二周笔记
  8. 微信浏览器内打开App Store链接
  9. 使用scrollIntoView方法解决抛锚定位时网页往上跳的问题
  10. linux下root密码修改方法