【好数推荐】方言语音数据集

随着人工智能应用领域的拓展，方言识别问题也越来越受到重视。但是方言与普通话不一样，方言语音识别要复杂得多。

中国的方言南北差异太大，哪怕同属于一个大的方言分区，也分歧异出，方言数据的采集，面临很多困难。一般来说，数据集的采集无非是字、词、句的搜罗，把该方言常用句子、词语通过文字、音标乃至语音的方式记录下来，集成一个数据库，供人工智能学习使用。但众多方言种类意味着需要收集的数据也是海量的，很难在短时间建立起全国通用的方言数据集。

面向方言识别技术的大规模应用，数据堂提前预知、布局，已采集涵盖八大方言区的数万小时以上的方言朗读、方言自然对话语音数据，可分秒交付，快速提高模型识别准确率，数据堂严格遵守相关规定，所采集的数据均已获得被采集人授权，数据堂致力于用高质量的数据推动方言识别技术的发展。

方言朗读语音数据集

东北方言语音数据集

所有发音人均使用东北方言朗读文本，录音内容丰富，覆盖近30多个领域的客户咨询以及短信文本。句子由专业标注人员人工转写校对，句准确率95%，可用于语音识别，声纹识别等任务。

四川方言语音数据集

来自四川盆地发音人在安静的室内环境下的录音数据，录音内容广泛，覆盖日常短信及多领域客户咨询。句子平均重复次数1.3次，平均句长12.5字。由四川本地人参与质检校对，文本转写更精准，匹配主流安卓、苹果系统手机。

粤语语音数据集

来自广东省发音人，在安静的室内环境下的录音数据。录音内容广泛，覆盖50 万句常用口语语句，包括微博高频词、日常用语等。句子平均重复次数1.5次，平均句长12.5字。匹配主流安卓、苹果系统手机，句准确率达95%，可用于语音识别，声纹识别等任务。

维吾尔语语音数据集

来自维吾尔族聚居区的人参与录制，男女均衡。录音内容为30万维语口语化句子，录音环境为安静的室内。所有句子均经过人工精准转写，准确率高。

河南方言语音数据集

由河南本地人员参与录音，口音正宗。录音内容广泛，覆盖日常短信及多领域客户咨询。同时由河南本地人参与质检校对，文本转写更精准，匹配主流安卓、苹果系统手机，可用于语音识别、声纹识别等任务。

方言自然对话语音数据集

四川方言自然对话语音数据集

近2000名四川本地发音人参与录制，录制时长约为800小时，以自然方式进行面对面交流，不限制话题进行自由发挥，领域广泛，语音自然流利，符合实际对话场景。人工转写文本，句准确率达95%，可应用于语音识别，声纹识别等任务。

河南方言自然对话语音数据集

近1000名河南本地发音人参与录制，录制时长约为500小时，以自然方式进行面对面交流，针对指定的多个话题进行自由发挥，领域广泛，语音自然流利，符合实际对话场景。人工转写文本，句准确率达95%，可应用于语音识别，声纹识别等任务。

粤语自然对话语音数据集

近1000名河南本地发音人参与录制，以自然方式进行面对面交流，针对指定的多个话题进行自由发挥，领域广泛，语音自然流利，符合实际对话场景。人工转写文本，句准确率达95%，可应用于语音识别，声纹识别等任务。

未来方言识别会加强对方言字词、方言音标标准化建设，让AI更懂人们的声音。随着语音识别自适应能力增强，不受特定口音影响的语音识别技术将指日可待。

【好数推荐】方言语音数据集相关推荐

想准确识别各地方言？这套15000小时方言语音数据推荐了解一下
不论是 " 啥事都中" 的河南 , 还是遍地 " 靓女靓仔 " 的广东 , 方言都是各地极具特色的文化名片.一方面 , 方言附着极大的亲切感 , 另一方面 , ...
数据推荐 | 自然对话语音数据集
从目前的数据行业看,大部分语音识别数据都以朗读式训练数据为主,朗读式语音数据可以解决例如手机语音助手.车载语音助手.智能音箱.智能家电等较为简单的人机交互应用场景. 用户和机器之间通常是以单一短句的形 ...
好数推荐数据堂平均音色语音库
语音合成,即是把文字变成声音的技术,声音是文字内容的信息载体.语音交互是日常生活中最常见.最被人熟悉并乐于接受的展现形式,语音交互体验效果的好坏,会对用户的感知造成很大影响. 如果语音合成质量较好,说 ...
【好数推荐】数据堂平均音色语音库
语音合成,即是把文字变成声音的技术,声音是文字内容的信息载体.语音交互是日常生活中最常见.最被人熟悉并乐于接受的展现形式,语音交互体验效果的好坏,会对用户的感知造成很大影响. 如果语音合成质量较好,说 ...
1400小时开源语音数据集，你想要都在这儿
整理 | 一一出品 | AI科技大本营(ID:rgznai100) 3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名 ...
“智源-MagicSpeechNet 家庭场景中文语音数据集挑战赛”上线
2019 年 12 月,北京智源人工智能研究院联合爱数智慧和数据评测平台 Biendata,共同发布了"智源 MagicSpeechNet 家庭场景中文语音数据集",其中包含数百小 ...
各种数据集总结图像数据集语音数据集
1.图像数据集: (1)MNIST:由纽约大学的Yann LeCun整理的手写数字(0-9)数据集,图片大小为28*28,包含60000个训练集,10000个测试集,广泛用于机器学习的测试和训练. ( ...
CN-Celeb 无约束条件说话人识别的中文语音数据集
CN-Celeb 无约束条件说话人识别的中文语音数据集数据源:http://www.openslr.org/82/ 项目源:http://cslt.riit.tsinghua.edu.cn/medi ...
世界最大的多语言语音数据集现已开源！超40万小时，共23种语言
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达博雯发自凹非寺量子位报道 | 公众号 QbitAI 最近,F ...

【好数推荐】方言语音数据集

【好数推荐】方言语音数据集相关推荐

最新文章

热门文章