中文语音识别数据集总结
目录
- OpenSLR国内镜像
- 1.Free ST Chinese Mandarin Corpus
- 2.Primewords Chinese Corpus Set 1
- 3.爱数智慧中文手机录音音频语料库(Mandarin Chinese Read Speech )
- 4.THCHS30
- 5.ST-CMDS
- 6.MAGICDATA Mandarin Chinese Read Speech Corpus
- 7.AISHELL
- 7.1 AISHELL开源版1
- 7.2 AISHELL-2 开源中文语音数据库
- 7.3 AISHELL-翻译机录制语音数据库
- 7.4 AISHELL-家居环境近远讲同步语音数据库
- 7.5 AISHELL-语音唤醒词数据库
- 7.6 AISHELL-3 语音合成数据集
- 8.Aidatatang
- 8.1 aidatatang_1505zh(完整的1505小时中文普通话语音数据集)
- 8.2 Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)
- 9.hkust
- 10.Speechocean 10小时中文普通话语音识别语料库
- 11.cn-celeb
- 12.HI-MIA
- 13.MobvoiHotwords
- 14.zhvoice: Chinese voice corpus
OpenSLR国内镜像
http://openslr.magicdatatech.com/
1.Free ST Chinese Mandarin Corpus
1)基本信息:
参与者:855人
这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度
语料库包含:
1音频文件;
2转录;
3元数据;
2)链接
下载:(8.2G)
http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
国内镜像:
http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
2.Primewords Chinese Corpus Set 1
1)基本信息
参与人数:296人
时长:178小时
这个免费的中文普通话语料库由上海普力信息技术有限公司发布。(www.primewords.cn)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于 98%,置信度为 95%。免费用于学术用途。转述和词句之间的映射以 JSON 格式提供。
2)链接
下载:(9.0G)
http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz
国内镜像:
http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz
3.爱数智慧中文手机录音音频语料库(Mandarin Chinese Read Speech )
1)基本信息
时长:755小时
参与人数:1000人
音频格式:PCM
MagicData中文手机录音音频语料库包含755小时的中文普通话朗读语音数据,其中分为训练集712.09小时、开发集14.84小时和测试集28.08小时。本语料库的录制文本覆盖多样化的使用场景,包括互动问答、音乐搜索、口语短信信息、家居命令控制等。采集方式为手机录音,涵盖多种类型的安卓手机;录音输出为PCM格式。1000名来自中国不同口音区域的发言人参与采集。MagicData中文手机录音音频语料库由MagicData有限公司开发,免费发布供非商业使用。
2)链接
数据包:
https://freedata.oss-cn-beijing.aliyuncs.com/MAGICDATA_Mandarin_Chinese_Speech.zip
下载地址
http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101
4.THCHS30
1)基本信息
时长:40余小时
THCHS30是一个经典的中文语音数据集,包含了1万余条语音文件,通过单个碳粒麦克风录取,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行,原名“TCMSD”,代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起,并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库,因此,数据库对学术用户完全免费。
2)链接
国内镜像:
https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz
国外镜像:
https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz
5.ST-CMDS
1)基本信息:
时长:100余小时
参与人数:855人
ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。
2)链接
下载地址:
国内镜像:
https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
国外镜像:
https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
6.MAGICDATA Mandarin Chinese Read Speech Corpus
1)基本信息
时长:755小时
参与人数:1080人
应用:语音识别,机器翻译,说话人识别和其他语音相关领域
Magic Data技术有限公司的语料库,语料库包含755小时的语音数据,其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98%。录音在安静的室内环境中进行。数据库分为训练集,验证集和测试集,比例为51:1:2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化,包括互动问答,音乐搜索,SNS信息,家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别,机器翻译,说话人识别和其他语音相关领域的研究人员。因此,语料库完全免费用于学术用途。
2)链接
下载地址见参考:
https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/
镜像:
http://www.openslr.org/68/
7.AISHELL
7.1 AISHELL开源版1
1)基本信息
时长:178小时
参与人数:400人
采样:44.1kHz & 16kHz 16bit
AISHELL是由北京希尔公司发布的一个中文语音数据集,其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。进行录音,并采样降至16kHz,用于制作AISHELL-ASR0009-OS1。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。
2)链接
下载地址:
http://www.aishelltech.com/kysjcp
7.2 AISHELL-2 开源中文语音数据库
1)基本信息
时长:1000小时
参与人数:1991人
希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在96%以上。(支持学术研究,未经允许禁止商用。)
2)链接
下载地址:
http://www.aishelltech.com/aishell_2
7.3 AISHELL-翻译机录制语音数据库
1)基本信息
时长:31.2小时
参与人数:12人
采样: 44.1kHz & 16kHz 16bit
文件:wav
来自AISHELL的开源语音数据产品:翻译机录制语音数据库
2)链接
下载地址:
http://www.aishelltech.com/aishell_2019C_eval
7.4 AISHELL-家居环境近远讲同步语音数据库
1)基本信息
时长:24.3小时
参与人数:50人
采样: 44.1kHz & 16kHz 16bit
文件:wav
AISHELL-2019A-EVAL 随机抽取 50 个发音人。每人从位置 A(高保真 44.1kHz,16bit)与位置 F(Android 系统手机 16kHz,16bit)中,各选取 232 句到 237 句。
此数据库经过专业语音校对人员转写标注,并通过严格质量检验,文本正确率 100%。
AISHELL-2019A-EVAL 是 AISHELL-ASR0010 的子库,共 24.3 小时。
2)链接
下载地址:
http://www.aishelltech.com/aishell_2019A_eval
7.5 AISHELL-语音唤醒词数据库
1)基本信息
时长:437.67小时
参与人数:86人
采样: 44.1kHz & 16kHz 16bit
文件:wav
来自希尔贝壳的语音唤醒词数据库
2)链接
下载地址:
http://www.aishelltech.com/aishell_2019B_eval
7.6 AISHELL-3 语音合成数据集
1)基本信息
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)
2)下载链接
国内镜像: https://openslr.magicdatatech.com/resources/93/data_aishell3.tgz
国外镜像:https://www.openslr.org/resources/93/data_aishell3.tgz
8.Aidatatang
8.1 aidatatang_1505zh(完整的1505小时中文普通话语音数据集)
1)基本信息
参与人数:6408人
时长:1505小时
包含6408位来自中国不同地区的说话人、总计1505小时时长共3万条语音、经过人工精心标注的中文普通话语料集可以对中文语音识别研究提供良好的数据支持。采集区域覆盖全国34个省级行政区域。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。
2)使用效果:
3)链接
数据申请:
https://www.datatang.com/webfront/opensource.html
8.2 Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)
1)基本信息
时长:200小时
参与人数:600人
采样: 16kHz 16bit
Aidatatang_200zh是由北京数据科技有限公司(数据堂)提供的开放式中文普通话电话语音库。语料库长达200小时,由Android系统手机(16kHz,16位)和iOS系统手机(16kHz,16位)记录。邀请来自中国不同重点区域的600名演讲者参加录音,录音是在安静的室内环境或环境中进行,其中包含不影响语音识别的背景噪音。参与者的性别和年龄均匀分布。语料库的语言材料是设计为音素均衡的口语句子。每个句子的手动转录准确率大于98%。数据库按7:1:2的比例分为训练集、验证集和测试集。在元数据文件中保存诸如语音数据编码和扬声器信息等详细信息。还提供分段转录本。
2)特点
该语料库旨在为语音识别、机器翻译、声纹识别等语音相关领域的研究人员提供支持。因此,该语料库完全免费供学术使用。
数据堂精选了200小时中文普通话语音数据在OpenSLR发布,并在Kaldi平台提供了训练代码,对应的训练方法也在github平台发布。
3)链接
训练:
https://github.com/datatang-ailab/aidatatang_200zh/blob/master/README.md
国内镜像:
https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/62/aidatatang_200zh.tgz
国外镜像:https://link.ailemon.me/?target=http://www.openslr.org/resources/62/aidatatang_200zh.tgz
9.hkust
- 基本信息
200h,16khz,16bit。中文电话数据集,电话对话,espnet,kaldi里面都有egs。
2)链接
下载链接:http://catalog.ldc.upenn.edu/LDC2005S15
10.Speechocean 10小时中文普通话语音识别语料库
1)基本信息
这是一个10.33小时的语料库,它同时通过4个不同的麦克风收集。在安静的办公室中,由20位说话者(10位男性和10位女性)录制了该语料库。每个扬声器在一个通道中记录了大约120声。包括转录文件。句子的转录精度高于98%。它完全免费用于学术目的。
2)下载链接
百度云盘(提取码:sktk):https://pan.baidu.com/share/init?surl=1glZHlKIXjlPOOht6_yQXQ
11.cn-celeb
1)基本信息
此数据是“在野外”收集的大规模说话人识别数据集。该数据集包含来自1000位中国名人的13万种语音,涵盖了现实世界中的11种不同流派。所有音频文件都编码为单通道,并以16位精度以16kHz采样。数据收集过程由清华大学语音与语言技术中心组织。它也由国家自然科学基金61633013和博士后科学基金2018M640133资助。
2)下载链接
12.HI-MIA
1)基本信息
内容为中文和英文的唤醒词“嗨,米娅”。使用麦克风阵列和Hi-Fi麦克风在实际家庭环境中收集数据。下文描述了基准系统的收集过程和开发。挑战中使用的数据是从1个高保真麦克风和1/3/5米的16通道圆形麦克风阵列中提取的。内容是中文唤醒词。整个集合分为火车(254人),开发(42人)和测试(44人)子集。测试子集提供了成对的目标/非目标答案,以评估验证结果。
2)下载链接
国内镜像(train) :http://openslr.magicdatatech.com/resources/85/train.tar.gz
国内镜像(dev) :http://openslr.magicdatatech.com/resources/85/dev.tar.gz
国内镜像(test) :http://openslr.magicdatatech.com/resources/85/test_v2.tar.gz
国内镜像(filename_mapping):http://openslr.magicdatatech.com/resources/85/filename_mapping.tar.gz
13.MobvoiHotwords
1)基本信息
MobvoiHotwords是从Mobvoi的商业智能扬声器收集的唤醒单词的语料库。它由关键字和非关键字语音组成。对于关键字数据,将收集包含“ Hi xiaowen”或“ Nihao Wenwen”的关键字语音。对于每个关键字,大约有36k语音。所有关键字数据均收集自788名年龄在3-65岁之间的受试者,这些受试者与智能扬声器的距离(1、3和5米)不同。在采集过程中,具有不同声压级的不同噪声(例如音乐和电视等典型的家庭环境噪声)会在后台播放。
2)下载链接
国内镜像 :http://openslr.magicdatatech.com/resources/87/mobvoi_hotword_dataset.tgz
国外镜像:http://www.openslr.org/resources/87/mobvoi_hotword_dataset.tgz
14.zhvoice: Chinese voice corpus
1)基本信息
zhvoice语料由8个开源数据集,经过降噪和去除静音处理而成,说话人约3200个,音频约900小时,文本约113万条,共有约1300万字。
zhvoice语料比较原始数据而言,更加清晰和自然,减少了噪声的干扰,减少了因说话人说话不连贯造成的不自然。
zhvoice语料包含文本、语音和说话人3个方面的信息,可适用于多种语音相关的任务。
zhvoice语料由智浪淘沙清洗和处理。
2)下载链接
https://github.com/fighting41love/zhvoice
中文语音识别数据集总结相关推荐
- webhub123整理 中文语音识别数据集
我们收集和整理了常用的中文语音识别数据集,合计超过12000+小时的数据集.已经按照不同来源整理收录到 webhub123整理 中文语音识别数据集https://www.webhub123.com/ ...
- springboot中文语音识别_【记录】语音识别软件包、代码示例、数据集汇集
语音识别工具 (1)librosa:python,视频与音乐分析 链接:https://github.com/librosa/librosa (2)ASRT_SpeechRecognition:pyt ...
- “智源-MagicSpeechNet 家庭场景中文语音数据集挑战赛”上线
2019 年 12 月,北京智源人工智能研究院联合爱数智慧和数据评测平台 Biendata,共同发布了"智源 MagicSpeechNet 家庭场景中文语音数据集",其中包含数百小 ...
- 基于深度学习的中文语音识别系统框架(pluse)
目录 声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集 本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...
- 中文语音识别系统搭建流程笔记
标签:ASR, Python, Keras, CTC 最近在自己动手搭建一个中文语音识别系统,因为也是入门阶段,所以比较吃力,直到在GitHub上找到了一个已经在做的开源工程,找到了做下去的动力,附上 ...
- ASRT:一个中文语音识别系统
点击量:52833 (在苹果系统下,如果文章中的图片不能正常显示,请升级Safari浏览器到最新版本,或者使用Chrome.Firefox浏览器打开.) ASRT是一套基于深度学习实现的语音识别系统, ...
- 分享 | 开源的中文语音识别系统
原标题:分享 | 开源的中文语音识别系统 语音识别目前已经广泛应用于各种领域,那么你会想做一个自己的语音识别系统吗?这篇文章介绍了一种开源的中文语音识别系统,读者可以借助它快速训练属于自己的中文语音识 ...
- 绝佳的ASR学习方案:这是一套开源的中文语音识别系统
ASRT 是一套基于深度学习实现的语音识别系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议).本项目声学模 ...
- 你怎么看当前中文语音识别技术在国内的应用?
实际情况如何?实际是有五大黑幕! 黑幕1:是否标明了测试数据集? 很多厂商在宣传达到97%.98%时,都没有提到数据集,最近依图发布语音技术的新闻是明确提出用的是AISHELL-2数据集,值得赞许. ...
- 基于深度学习的中文语音识别系统框架搭建
基于深度学习的中文语音识别系统框架 转自@https://blog.csdn.net/chinatelecom08/article/details/82557715 本文搭建一个完整的中文语音识别系统 ...
最新文章
- 从图(Graph)到图卷积(Graph Convolution):漫谈图 神经⽹络模型 (⼀)
- Linux 设备驱动--- 阻塞型字符设备驱动 --- O_NONBLOCK --- 非阻塞标志【转】
- C#第三方控件的使用
- teledb兼容mysql5.7_maridb安装
- keepalived(9)——sorry_server
- [Windows Server 2012] Discuz X3安全设置
- linux 环境下配置ftp服务器
- Leetcode #137 Single Number II
- 华为云平台使用手册_训练、标注成本节省90%!华为云自动化AI开发平台ModelArts 3.0发布,从训练数据到模型落地一站式打通...
- html字颜色代码,css 字体颜色(css color)
- Hyper-V Server 存储空间
- python中遇到的问题_python中遇到的一些问题及解决方案
- 2013,安全管理平台(SOC)业务的重新崛起
- HR-Former | 随迟但到,HRNet+Transformer轻装归来(非常值得学习!!!)
- c++ strlen 使用
- android接入华为推送,华为推送
- rpcx服务框架浅析9-序列化
- nyoj1328派队方案
- MATLAB如何生成scr文件,基于SCR脚本文件的MatlabAutoCAD结合使用
- Python __file__ 详解
热门文章
- 在EnableQ创建一张问卷
- 优秀的Allegro Skill推荐
- 图形界面介绍——Select键
- 电脑计算机配置应用程序兼容性,电脑怎么打开兼容模式怎么办
- 互联网企业安全高级指南3.9 关于ISO27001
- 基于python flask的网上商城源码 mysql数据库
- 印象笔记剪藏html,印象笔记使用剪藏功能的详细操作
- java 8 中文字体_jdk安装中文字体,解决Can't read the embedded font LNUHUF+SimSun
- windows 查看局域网内所有已使用的IP
- 安卓逆向015之JEB静态分析与动态调试(注册机)