整理 | 一一

出品 | AI科技大本营(ID:rgznai100)

3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名贡献者,超过 1400 小时的语音样本数据,涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。

(数据集链接:https://voice.mozilla.org/zh-CN/datasets)

Common Voice 项目可以集成到由 DeepSpeech,也就是基于 DeepSpeech 语音识别框架的一套语音转文本的开源语音识别引擎。它不仅包括语音片段,还包括对训练语音引擎有用的元数据,如说话者的年龄、性别和口音,收集这些语音片段需要做大量的工作。目前 DeepSpeech 项目已在GitHub上获得了 9418 个 Star,1674 个 fork。

(GitHub 传送门:https://github.com/mozilla/DeepSpeech)

它目前是同类项目中最大的多语言数据集之一,Mozilla 声称,此次发布的数据集比八个月前公开发布的 Common Voice 语料库要更加庞大,其中包含来自 20,000 名英语志愿者的 500 小时语音数据(400,000 条录音),而且语料库还将进一步扩充。该基金会表示,通过 Common Voice 网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。

2017 年 6 月,Mozilla 宣布推出 Project Common Voice 众包计划,旨在为语音识别应用构建开源数据集。他们邀请来自世界各地的志愿者通过网络和移动应用贡献语音记录的文本片段,当然,他们会非常严格地保护项目贡献者的隐私。

2017 年 11 月,Mozilla 基金会发布了第一批 Common Voice 英语数据集成果,该数据集包括大约 500 个小时的语音数据,以及来自 20,000 个志愿者贡献的 400,000 条录音。2018 年 6 月,Mozilla 开始收集法语、德语和威尔士语等 40 多种语种的众包语音数据。

为了简化流程,Mozilla 本周还推出了一款改进的 Common Voice web 工具,其可以对不同的语音剪辑进行更改,还增加了用于查看、重新录制和跳过剪辑的新控件,一个可以快速切换仪表板的“说话”和“收听”模式的开关,以及选择退出语音会话的选项。此外,它正在推出新的配置文件功能,允许用户跨语言跟踪他们的语言进度和指标,并添加人口统计信息。

未来几个月里,Mozilla 表示将尝试不同的方法来增加数据收集的数量,提升数据质量,并且最终计划使用部分录音数据来开发语音产品。

语音技术将是一大科技技术革新,但可惜的是,目前操纵这场革新游戏的只有大型科技公司。

首先,科技巨头一般都来自科技强国,而用于训练机器的语音数据目前更偏向于英语、中文等一些特定的语言,在多样性方面,显然这并不适合全人类。

其次,像亚马逊、谷歌、苹果这样的科技巨头正在大力投资他们的智能助手,但由此产生的数据集并不对外开放,而像学生、创业公司和对构建语音设备感兴趣的人只能访问非常有限的数据集,而且可能还需要付费购买。

基于此,Mozilla 基金会认为,没有足够的数据开放给公众使用,将会扼杀科技创新,开放语音数据集则可以让更多人参与进来,让任何人都可以自由地使用该数据集,将语音技术嵌入到各种应用和服务中。这类似于 OpenStreetMap 这样的开放众包项目,该项目为开发人员提供开放且可自由使用的世界地图。

在新的数据集发布后,外国网友们也对此进行了评价:

看到开放数据领域的创新真是太好了。最近有许多断言认为,质量更高的 ML 数据将要比 ML 算法更重要,这么说是对的,特别是在语音识别等领域。然而,要赶上科技巨头还有很长的路要走。因为在 15 年前,就有公司每年会处理 100 万分钟的标签语音数据。

除非我们在这方面进行投资,否则老牌企业和新进入这个市场的企业之间的数据差距将继续扩大。

另有网友花了时间验证了一些语音,他在评论中表达了质疑称:

至少在我能听出来的范围内,我没有听到任何句子说错了。不过,我确实遇到了大量非常糟糕的样本,以至于有些难以理解。比如口音重、有背景噪音或者非常安静,而且他觉得一些“机械的”样本是通过文本转语音软件生成的。所以 Common Voice 能提供优质数据吗?

还有网友拿开源数据集 LibriSpeech 做了对比:

ASR 训练的有声读物是绝对不错的。事实上,在 Common Voice 之前,最大的 ASR 公开训练数据集是 LibriSpeech (http://www.openslr.org/12/)。同样值得注意的是,Mozilla 的 DeepSpeech 模型的第一个版本使用 LibriSpeech 进行了训练和测试。但是正如其他人提到的由于一些数据集不够好,由 Common Voice 的数据集训练的有声读物存在一些瑕疵。

但是 Common Voice 的目标不是取代 LibreSpeech 或其他开放数据集(如 TED 演讲)作为训练数据集,而是它们的有益补充。

总之,相较于目前已开源的其他语音数据集类型单一,数据量不足,数据杂乱的情况,虽然而 Common Voice 的数据集有不足,但在综合多样性、丰富性和质量方面都遥遥领先。它有望被全世界更大范围内的开发者们所关注并受益,也将为语音技术的发展带来不可估量的价值。

链接:

https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/


(本文为AI科技大本营整理文章,转载请微信联系 1092722531)

群招募

扫码添加小助手微信,回复:公司+研究方向(学校+研究方向),邀你加入技术交流群。技术群审核较严,敬请谅解。

推荐阅读:

  • 90后美女学霸传奇人生:出身清华姚班,成斯坦福AI实验室负责人高徒

  • 如今,你感受到内存技术的“思维速度”了吗?

  • 暴雪游戏遭遇AI“实力”坑队友:四处游走,还不参与战斗

  • Java帝国对Python的渗透能成功吗?

  • 快速上手爬虫,有哪些方便实用的工具和服务?

  • 跨界打击, 23秒绝杀700智能合约! 41岁遗传学博士研究一年,给谷歌祭出秘密杀器!

  • 万万没想到你们竟是这样的程序员 | 程序员有话说

  • “SQL 被低估了!”

  • 腾讯云容器团队内部Istio专题分享

  • 刚刚,阿里发布了一个重磅技术炸弹,70%的程序员受影响!

点击“阅读原文”,查看历史精彩文章。

1400小时开源语音数据集,你想要都在这儿相关推荐

  1. Mozilla发布最大公共语音数据集Common Voice

    近日,Mozilla发布了当前可使用的,规模最大的公共语音数据集Common Voice,数据集涵盖18种语言,由42000多名贡献者提供的近1400小时的语音数据构成. 文 / George Rot ...

  2. 数据推荐 | 自然对话语音数据集

    从目前的数据行业看,大部分语音识别数据都以朗读式训练数据为主,朗读式语音数据可以解决例如手机语音助手.车载语音助手.智能音箱.智能家电等较为简单的人机交互应用场景. 用户和机器之间通常是以单一短句的形 ...

  3. 世界最大的多语言语音数据集现已开源!超40万小时,共23种语言

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最近,F ...

  4. 想准确识别各地方言?这套15000小时方言语音数据推荐了解一下

    不论是 " 啥事都中" 的河南 , 还是遍地 " 靓女靓仔 " 的广东 , 方言都是各地极具特色的文化名片.一方面 , 方言附着极大的亲切感 , 另一方面 , ...

  5. 中怎么撤回消息_微信消息撤回也能看到,这个开源神器牛x!语音、图片、文字都支持!...

    1.前言 微信在2014年的时候,发布的v5.3.1 版本中推出了消息撤回功能,用户可以选择撤回 2 分钟内发送的最后一条信息. 现在很多即时通讯的软件都有撤回这个功能. 腾讯为了照顾手残党,在微信和 ...

  6. 距离全球边缘计算大会还有1400小时!

    今年二月份,中央提出加快新基建建设,推动5G等新技术快速发展.随之而来的是一系列5G扶持政策出台,5G商用也随之加速.受益于5G商用加速.物联网市场翻倍增长等原因,边缘计算作为5G和物联网的关键技术, ...

  7. 基于《Kaldi语音识别》技术及开源语音语料库分享

    前言: 数据堂自AI开源计划发起,面向高校和科研机构首次开源的[1505小时中文普通话语音数据集],该数据集句标注准确率达到了98%,得到了很多开发者的认可. 不仅如此,数据堂基于此开源数据集还精选出 ...

  8. “智源-MagicSpeechNet 家庭场景中文语音数据集挑战赛”上线

    2019 年 12 月,北京智源人工智能研究院联合爱数智慧和数据评测平台 Biendata,共同发布了"智源 MagicSpeechNet 家庭场景中文语音数据集",其中包含数百小 ...

  9. 本田公布104小时驾驶行为数据集:时间不长但胜在全面 | 附相关资源汇总

    晓查 整理编译 量子位 报道 | 公众号 QbitAI 本田最近与波士顿大学合作,公布了在旧金山湾区采集的104小时**驾驶行为数据集,总体积大约150GB. 虽然驾驶视频的时间不长(伯克利DeepD ...

最新文章

  1. mysql 如何搜索自增列_mysql 如何搜索自增列
  2. 视觉直观感受7种常用的排序算法
  3. 思科收购网络安全管理厂商Pari Networks
  4. vue 后端返回文件流下载文件
  5. HBuilder打包App方法
  6. 微软“抛弃”Edge 投入 Chromium 怀抱!
  7. python3入门经典100例-Python3经典100例(Python3入门习题) 含答案 doc版
  8. Android studio 常用的插件
  9. 简单、易用的光盘封装工具-MKISO纪念版(V1.0.2.0)发布日志
  10. feignclient url_Feign-自定义FeignClient
  11. [裴礼文数学分析中的典型问题与方法习题参考解答]4.4.9
  12. python计算排列组合
  13. 国产超级英雄逆袭好莱坞
  14. linux下文件夹归置方式
  15. mac java串口驱动,使用CH340/341的模块在Mac上驱动安装
  16. vmware虚拟机安装win7_vmware虚拟机中安装mac Catalina10.15
  17. 民营企业的13种死法
  18. luogu P5445 [APIO2019]路灯
  19. 如何配置c/c++环境及MinGW下载与安装配置
  20. 2022起重机司机(限桥式起重机)考题及在线模拟考试

热门文章

  1. PHP Countable接口
  2. Linq to SQL 资源
  3. java架构设计理解(一)
  4. mysql innodb引擎丢失_【MySQL】InnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据...
  5. Java中? extends T和? super T的理解
  6. 个人前端学习路线图与github优秀前端开发者的路线图推荐
  7. 简单数据结构(队列 栈 树 堆 )
  8. MySql存储引擎特性对比
  9. (拆点+最小路径覆盖) bzoj 2150
  10. Spring MVC 学习笔记 对locale和theme的支持