几个最新免费开源的中文语音数据集
工欲善其事必先利其器,做机器学习,我们需要有利器,才能完成工作,数据就是我们最重要的利器之一。做中文语音识别,我们需要有对应的中文语音数据集,以帮助我们完成和不断优化改进项目。我们可能很难拿到成千上万小时的语音数据集,但是这里有一些免费开源的语音数据集,大家一定不要错过。文末附数据集下载地址。我们也非常感谢相关单位和团体为国内的开源界做出的贡献。
普通语音识别数据集
THCHS30
THCHS30是一个很经典的中文语音数据集了,包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行,原名为“TCMSD”,代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起,并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库,因此,数据库对学术用户完全免费。
license: Apache License v.2.0
ST-CMDS
ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。
License: Creative Common BY-NC-ND 4.0 (Attribution-NonCommercial-NoDerivatives 4.0 International)
AISHELL开源版
AISHELL是由北京希尔公司发布的一个中文语音数据集,其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中使用高保真麦克风进行录音,并采样降至16kHz。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。
License: Apache License v.2.0
Primewords Chinese Corpus Set 1
Primewords包含了大约100小时的中文语音数据,这个免费的中文普通话语料库由上海普力信息技术有限公司发布。语料库由296名母语为英语的智能手机录制。转录准确度大于98%,置信水平为95%,学术用途免费。抄本和话语之间的映射以JSON格式给出。
aidatatang
Aidatatang_200zh是由北京数据科技有限公司(数据堂)提供的开放式中文普通话电话语音库。
语料库长达200小时,由Android系统手机(16kHz,16位)和iOS系统手机(16kHz,16位)记录。邀请来自中国不同重点区域的600名演讲者参加录音,录音是在安静的室内环境或环境中进行,其中包含不影响语音识别的背景噪音。参与者的性别和年龄均匀分布。语料库的语言材料是设计为音素均衡的口语句子。每个句子的手动转录准确率大于98%。
MAGICDATA Mandarin Chinese Read Speech Corpus
Magic Data技术有限公司的语料库,语料库包含755小时的语音数据,其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98%。录音在安静的室内环境中进行。数据库分为训练集,验证集和测试集,比例为51:1:2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化,包括互动问答,音乐搜索,SNS信息,家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别,机器翻译,说话人识别和其他语音相关领域的研究人员。因此,语料库完全免费用于学术用途。
AISHELL-2 高校学术免费授权版数据集
希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在96%以上。(支持学术研究,未经允许禁止商用。)
AISHELL-2 中文语音数据库申请链接
数据堂1505小时中文语音数据集(高校学术免费授权版)
数据有效时长达1505小时,。录音内容超过3万条口语化句子,由6408名来自中国不同地区的录音人参与录制。经过专业语音校对及人员转写标注,通过严格质量检验,句准确率达98%以上,是行业内句准确率的最高标准。
数据堂1050小时数据集申请获取链接
Speechocean 10小时中文普通话语音识别语料库
这是一个10.33小时的语料库,它同时通过4个不同的麦克风收集。在安静的办公室中,由20位说话者(10位男性和10位女性)录制了该语料库。每个扬声器在一个通道中记录了大约120声。包括转录文件。句子的转录精度高于98%。它完全免费用于学术目的。
说话人验证数据集
cn-celeb
此数据是“在野外”收集的大规模说话人识别数据集。该数据集包含来自1000位中国名人的13万种语音,涵盖了现实世界中的11种不同流派。所有音频文件都编码为单通道,并以16位精度以16kHz采样。数据收集过程由清华大学语音与语言技术中心组织。它也由国家自然科学基金61633013和博士后科学基金2018M640133资助。
HI-MIA
内容为中文和英文的唤醒词“嗨,米娅”。使用麦克风阵列和Hi-Fi麦克风在实际家庭环境中收集数据。下文描述了基准系统的收集过程和开发。挑战中使用的数据是从1个高保真麦克风和1/3/5米的16通道圆形麦克风阵列中提取的。内容是中文唤醒词。整个集合分为火车(254人),开发(42人)和测试(44人)子集。测试子集提供了成对的目标/非目标答案,以评估验证结果。
唤醒词数据集
MobvoiHotwords
MobvoiHotwords是从Mobvoi的商业智能扬声器收集的唤醒单词的语料库。它由关键字和非关键字语音组成。对于关键字数据,将收集包含“ Hi xiaowen”或“ Nihao Wenwen”的关键字语音。对于每个关键字,大约有36k语音。所有关键字数据均收集自788名年龄在3-65岁之间的受试者,这些受试者与智能扬声器的距离(1、3和5米)不同。在采集过程中,具有不同声压级的不同噪声(例如音乐和电视等典型的家庭环境噪声)会在后台播放。
语音合成数据集
AISHELL-3
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)
详见:AISHELL-3高保真中文语音数据集
附下载链接:
- THCHS30
国内镜像 | 国外镜像 | 百度网盘(提取码:5szx)
- ST-CMDS
国内镜像 | 国外镜像 | 百度网盘(提取码:wlcy)
- AISHELL开源版
国内镜像 | 国外镜像 | 百度网盘(提取码:q05t)
- Primewords Chinese Corpus Set 1
国内镜像 | 国外镜像 | 百度网盘(提取码:2ng3)
- aidatatang
国内镜像 | 国外镜像 | 百度网盘(提取码:tmyg)
- Magic Data Mandarin Chinese Read Speech Corpus
国内镜像(train) | 国内镜像(dev) | 国内镜像(test) | 国内镜像(metadata)
国外镜像(train) | 国外镜像(dev) | 国外镜像(test) | 国外镜像(metadata)
百度网盘(提取码:s61o)
- Speechocean (10 Hour)
国内镜像 | 国外镜像 | 百度网盘(提取码:sktk)
- cn-celeb
国内镜像 | 国外镜像
- HI-MIA
国内镜像(train) | 国内镜像(dev) | 国内镜像(test) | 国内镜像(filename_mapping)
国外镜像(train) | 国外镜像(dev) | 国外镜像(test) | 国外镜像(filename_mapping)
- MobvoiHotwords
国内镜像 | 国外镜像
- AISHELL-3
国内镜像 | 国外镜像
更多语音数据集,请访问:
OpenSLR国内镜像 | OpenSLR国外镜像
AI柠檬OpenSLR镜像站(部分镜像)
几个最新免费开源的中文语音数据集相关推荐
- CN-Celeb 无约束条件说话人识别的中文语音数据集
CN-Celeb 无约束条件说话人识别的中文语音数据集 数据源:http://www.openslr.org/82/ 项目源:http://cslt.riit.tsinghua.edu.cn/medi ...
- “智源-MagicSpeechNet 家庭场景中文语音数据集挑战赛”上线
2019 年 12 月,北京智源人工智能研究院联合爱数智慧和数据评测平台 Biendata,共同发布了"智源 MagicSpeechNet 家庭场景中文语音数据集",其中包含数百小 ...
- 【最新免费】CCNA中文注释题库精选模拟题
CCNA中文注释题库精选模拟题 详细地址:http://selftest.51cto.com/subread.php?sid=296 自测简介: CCNA考试由于试题全部是英文组成,这对于中国 ...
- 语音数据集 | Speech datasets
原文链接如下: 免费中文语音数据集 几个最新免费开源的中文语音数据集 语音数据集 国内最好的语音数据集: openSLR数据集下载链接 一个不错的英语语音数据集网站: Speech datasets ...
- 实时中文语音克隆|开源项目MockingBird体验
lake2 引子 在今年大型网络攻防演练前不久,笔者接到一个公司的座机号码来电,上来就问防守准备得怎么样了,哪里还有不足等.等等,这声音不认识,笔者第一反应就是蓝军(Red Team)来进行社会工程攻 ...
- python语音库_绝佳的ASR学习方案:这是一套开源的中文语音识别系统
ASRT 是一套基于深度学习实现的系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议).本项目声学模型通过采 ...
- 1400小时开源语音数据集,你想要都在这儿
整理 | 一一 出品 | AI科技大本营(ID:rgznai100) 3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名 ...
- 分享 | 开源的中文语音识别系统
原标题:分享 | 开源的中文语音识别系统 语音识别目前已经广泛应用于各种领域,那么你会想做一个自己的语音识别系统吗?这篇文章介绍了一种开源的中文语音识别系统,读者可以借助它快速训练属于自己的中文语音识 ...
- 绝佳的ASR学习方案:这是一套开源的中文语音识别系统
ASRT 是一套基于深度学习实现的语音识别系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议).本项目声学模 ...
- github上能找到中文博主吗_绝佳的ASR学习方案:这是一套开源的中文语音识别系统...
语音识别目前已经广泛应用于各种领域,那么你会想做一个自己的语音识别系统吗?这篇文章介绍了一种开源的中文语音识别系统,读者可以借助它快速训练属于自己的中文语音识别模型,或直接使用预训练模型测试效果.所以 ...
最新文章
- 零代码入门GitHub,图形化交互让你轻松存代码 | 附Git GUI推荐
- 关于istringstream用法的一个坑
- 第七讲 SCCM2012部署Endpoint Protect
- WP8.1学习系列(第二十二章)——在页面之间导航
- Effective Java之在细节消息中包含能捕获失败的消息(六十三)
- 3.GDScript(1)概览
- 在 Docker 中使用 flannel - 每天5分钟玩转 Docker 容器技术(60)
- qiaoye.php,全自动无限生成关键词页面(黑帽SEO优化终极方法)
- 指纹对比软件_iQOO VS 小米9屏幕指纹大对决,这次我为vivo疯狂打Call!
- 2018/06/30这段时间的随笔记忆:遇到概念模糊的js问题
- linux中lsattr命令,Linux命令(16)——chattr与lsattr命令
- 2020 快手 被吊打面经
- python定期自动运行_令人惊叹的8个Python新手工具
- RIME-使用小心得
- MES系统的功能详细以及应用价值介绍
- 联想服务器linux系统raid驱动,SUSE Linux服务器企业版加载阵列卡驱动程序步骤
- img里的align属性能保证图文的混排效果以及vspace和hspace
- u盘如何在计算机应用内存,u盘扩大内存,小编教你如何用U盘扩展内存
- 【英语阅读】纽约时报 | 感染新冠病毒是怎样的感受
- c语言中NULL到底是什么?