在做语种识别任务中,初期的语料库的收集就显得尤为重要,下面整理了常用到的几个语种数据集,希望对大家能够有所帮助。

语种识别公开语料库

  • 1. Voxforge
  • 2.Common Voice:
  • 3.LibriVox
  • 4.中文thchs30数据
  • 5.Slavic language recordings
  • 6.Kaggle公开数据集
  • 7.IIIT-H Indic Speech Databases
  • 8 聚数力(目前数据免费)
  • 9.speechbrain公开的语种语料

1. Voxforge

Voxforge数据集下载地址:http://www.voxforge.org/zh
数据集特点

  1. 英语、法语、德语、西班牙语、意大利语、俄语的样本数据均较为丰富,可以使用,
  2. 数据集的某些数据存在噪声,并且每个音频的录制设备差异较大。

2.Common Voice:


Common Voice公开语料集下载:
数据集特点

  1. 语料更新较快
  2. 每个语种的数据大小变化较大,主要还是主要语种的数据较多
  3. 所以文件均为mp3文件,音频信息有所损失
  4. 音频未经过严格审核,也含有少量噪声

3.LibriVox


LibriVox语料库下载地址
数据集特点

  1. 所有数据均为朗读音频,非常纯净,
  2. 因为语音纯净,也可以用来做加噪实验
  3. 语种数量较少,仅有英语、法语、德语、西班牙语、意大利语五个语种的训练样本够多。

4.中文thchs30数据

中文thchs30语料库下载:http://www.openslr.org/18/
数据集特点

  1. 国内公布的中文的数据集,数据知名度很高
  2. 可以与其他数据集组成大的训练数据

5.Slavic language recordings

Slavic language recordings 语种下载地址:

6.Kaggle公开数据集

Kaggle语种数据搜索:
数据集特点

  1. 使用的人较少,可以作为补充数据集

7.IIIT-H Indic Speech Databases

数据下载地址:http://festvox.org/databases/iiit_voices/

数据特点

  1. 阿三国发表的论文应用的比较多
  2. 主要是阿三国的方言识别,在国内可能不太适用

8 聚数力(目前数据免费)


数据网站地址:聚数力官网链接:
数据特点

  1. 应用较少,可以作为补充数据集

9.speechbrain公开的语种语料

45语种
github地址:45语种的github地址,戳进来即可

共计45种语种,每个语种的数据相对均衡。

107语种
github地址:107语种链接,内附下载地址和下载方法,直接戳进来即可

共计107种语种,每个语种的语料时长不一致。

数据集特点

  1. speechbrain公布的两个多语种的语料库,可以和以往的方案作对比
  2. 每个数据集的样本数存在较大区别
  3. 107语种的数据量较大

语种识别公开语料库(可用于学术科研和项目研究)(自用)相关推荐

  1. 掌握基本技能,做好科学研究——适用于毕业课题/科研竞赛/项目研究

    前言: 结合自身毕业课题/科研竞赛/项目研究经验,总结传授放之四海而皆准的科研技能,不求面面俱到,但求精炼实用(不特别注明,都是针对WinXP系统操作). (1)精心准备 初到实验室,面对一台新的电脑 ...

  2. 学 Python 爬虫,你可以研究下 GoPUP, 一个用于学术研究的小爬虫库

    今天是持续写作的第 22 / 100 天. 如果你有想要交流的想法.技术,欢迎在评论区留言. 熟练的使用 Python 第三方库,00 后程序员必备神器. 每天对着电脑 10 多个小时,畅游在互联网的 ...

  3. iar怎么新建立项目_【IAR科研】2020年IAR国际学术科研项目——综合提升计划

    预计申请出国的你,除了标化的成绩,我想你也应该听说过,或者了解过还有一种实力叫做:学术科研. 学术科研有多重要?我们来看看欧美顶尖名校的招生建议. 不难发现,"学术求知".&quo ...

  4. 【学术科研】——论文神器

    [学术科研]--论文神器 一.参考文献引用EndNote20 使用教程: 1. 破解版下载: 2. 插入GB/T 7714-2015(numeric)格式文献: 3. 使用教程: 4. 不同来源导出的 ...

  5. ROS1/2最强学术科研参考书-Springer Book Robot Operating System (ROS) The Complete Reference (Volume 7)

    地表最强ROS学术科研汇编集. 第一卷下载量超20万+,第三卷下载量超2万+. 热度呈现出明显下滑趋势,何时能止跌回升呢???

  6. Odyssey 2022 | 希尔贝壳受邀参加国际顶级说话人和语种识别研讨会

    Odyssey (说话人和语种识别研讨会)2022 将于2022年6月28日至7月1日在中国北京举办,会议将采用hybrid的形式,国内均线下(在北京市郊长城脚下的古北水镇),国外视情况采用线上和线下 ...

  7. 计算机跨学科 自然科学基金资助率,求国家自然科学基金摘要 - 基金申请 - 小木虫 - 学术 科研 互动社区...

    lhwbrike 虫子们快来帮帮忙啊 wxyuer 引用回帖: Originally posted by lhwbrike at 2009-1-7 16:01: 求下列国家自然科学基金摘要, 谢谢各位 ...

  8. “科学学”视角下的科研工作者行为研究

    "科学学"视角下的科研工作者行为研究 贾韬1, 夏锋2 1 西南大学计算机与信息科学学院,重庆 400715 2 大连理工大学软件学院,辽宁 大连 116620 摘要:科学的复杂性 ...

  9. 情绪识别的多模态特征,分类器和融合方法研究

    Investigation of Multimodal Features, Classifiers and Fusion Methods for Emotion Recognition(情绪识别的多模 ...

最新文章

  1. CUDA Samples: ripple
  2. 16进制数怎么判断正负
  3. 北京内推 | 京东推荐招聘内容推荐研发工程师(2022届校招)
  4. Java ServletContext 详解
  5. Ext---CheckBoxGroup的取值和赋值
  6. Java13的API_JAVA基础--JAVA API常见对象(其他API)13
  7. openstack mysql默认密码_OpenStack 安装数据库和rabbitmq消息队列 (三)
  8. 【官宣】亚马逊云科技Build On 2022年技能提升计划正式启航
  9. 洛谷2486 【SDOI2011】染色(线段树+树链剖分)
  10. 阿铭Linux_传统IDC 部署网站学习笔记20190121
  11. (附源码)springboot民宿网站 毕业设计 221901
  12. Lab3 Report
  13. 【游戏程序设计】Direct 3D 三维地形系统
  14. python头像变二维码_学了Python之后,美化二维码如此简单
  15. Go error--cannot find package
  16. Ubports安装和使用gedit和ros等记录(仅供参考)
  17. Learning ROS for Robotics Programming Second Edition学习笔记(七) indigo PCL xtion pro live
  18. opencv2计算机视觉编程手册(中文)pdf
  19. dodo:人脸识别方法个人见解(包括稀疏表示方法的理解)
  20. c语言倍增算法,用倍增公式选股

热门文章

  1. 交通交警行业相关名词解释说明,主要包含人、车、路三大块的内容
  2. Python的学习(十六):对文件的操作
  3. 使用scp局域网内传输文件速度很慢的原因排查
  4. Scrapy使用报错socket.timeout: timed out
  5. 如何解决“德语/文”等外文字符显示乱码问题
  6. leetcode刷题记一 / 447
  7. 微信小程序如何开发可以直击客户痛点?
  8. obs -录制时 NVENC报错的问题
  9. 【论文 01】《Attention is all you need》
  10. 使用QGIS分区统计工具实现栅格分类数据的分区计算面积——GlobeLand30地表覆盖数据为例