语音识别 | 数据堂方言语音数据集

语音识别如今已经走过了漫长的道路，尽管通过机器学习实现了技术上的突飞猛进，如今的语音识别系统仍然有许多不完美的地方，其中一点就是带有歧视性。在最近报道出的《华盛顿邮报》委托进行的一项研究中，谷歌和亚马逊生产的智能音箱，它能够听懂非美国口音的可能性比本土用户低30%。方言识别成为了语音识别技术的一大待突破的障碍。

论方言识别率的必要性

“十里不同音，百里不同俗”是中国的语言现状。中国共有56个民族，除了回族没有自己的语言之外，其他所有民族都有自己的语言，在各个方言区中又分布着多种土语。据不完全统计，中国至少有80种以上的语言。除此之外，由于受到方言的影响，很多人的普通话会有一定的口音存在。无论是目前的智能家居产品还是未来某些语音识别产品的应用，方言的识别是不可或缺的。

训练数据越多越好

语音识别的专业基础包括了算法基础、数据知识和开源平台，其中算法基础是语音识别系统的核心知识，包括了声学机理、信号处理、声学模型、语言模型和解码搜索等。训练数据是语音识别准确率不断提升的关键。语音识别中的口音差异是一个数据问题。语料库中语音样本的数量和多样性越高，得到的模型就越精确。随着越来越多不同方言说话的语音数据做训练，语音识别能力就会不断提高。

数据堂自有版权各地区方言语音系列数据产品包含：

1000小时武汉方言录音数据

1000小时昆明方言录音数据

1000小时长沙方言录音数据

1032小时上海方言手机采集语音数据

738小时维语手机采集语音数据

1652小时粤语手机采集语音数据

1044小时闽南语手机采集语音数据

312人东北方言手机采集语音数据

463人河南方言手机采集语音数据

370人杭州方言手机语音采集数据

250人苏州方言手机语音采集数据

……

数据规格：

格式：16kHz，16bit，wav，单声道

录音环境：相对安静的室内，无回声

录音内容：通用口语；交互；家居命令；方言用语；数字

设备：苹果手机、安卓手机

标注特点：文本转写；噪音符号；特殊标识符

应用场景：语音识别，机器翻译；声纹识别

准确率：句准确率 95%（噪音符号和其他标识符的准确率不计入在内）

关于数据堂

数据堂（北京）科技股份有限公司，成立于2011年（股票代码：831428），专业的人工智能数据服务提供商，致力于为全球人工智能企业提供数据获取、处理及数据产品服务。数据堂总部位于北京，拥有8家全资和控股子公司，并在硅谷设立美国子公司，目前在南京、保定、合肥、贵阳等地设有多个专业数据处理中心。数据堂数据采集范围遍及全球30多个国家，合作伙伴遍布世界10多个国家。公司创始人及合伙人来自Stanford University、NEC、中国移动等知名高校和高科技公司。数据堂已成功为国内外众多企业提供人工智能数据产品与服务，包括百度，腾讯，阿里巴巴、奇虎360、联想、科大讯飞等国内顶级互联网和高科技企业，Microsoft、NEC、Canon、Intel、Samsung、Nuance、Fujitsu等企业及在华研发机构。

语音识别 | 数据堂方言语音数据集相关推荐

【好数推荐】方言语音数据集
随着人工智能应用领域的拓展,方言识别问题也越来越受到重视.但是方言与普通话不一样,方言语音识别要复杂得多. 中国的方言南北差异太大,哪怕同属于一个大的方言分区,也分歧异出,方言数据的采集,面临很多困难 ...
数据堂智能语音数据库，让客服更智能
原标题:数据堂智能语音数据库,让客服更智能拨打海底捞餐厅的客服电话,一个语气热情的女声从电话那头传来,很多人可能都没有意识到,这并不是人工客服,而是智能电话机器人的声音. 同样,当你拨打10086/ ...
如何构建语音识别能力？有哪些语音数据集？
语音已经是目前市场上的人工智能产品的主要入口之一,语音识别也是当前人工智能领域的重点研究方向,在家居.汽车.机器人等方面有着广泛的应用,未来也将深入到我们学习.生活.工作的各个环节. 随着人工智能的快 ...
想准确识别各地方言？这套15000小时方言语音数据推荐了解一下
不论是 " 啥事都中" 的河南 , 还是遍地 " 靓女靓仔 " 的广东 , 方言都是各地极具特色的文化名片.一方面 , 方言附着极大的亲切感 , 另一方面 , ...
数据推荐 | 自然对话语音数据集
从目前的数据行业看,大部分语音识别数据都以朗读式训练数据为主,朗读式语音数据可以解决例如手机语音助手.车载语音助手.智能音箱.智能家电等较为简单的人机交互应用场景. 用户和机器之间通常是以单一短句的形 ...
好数推荐数据堂平均音色语音库
语音合成,即是把文字变成声音的技术,声音是文字内容的信息载体.语音交互是日常生活中最常见.最被人熟悉并乐于接受的展现形式,语音交互体验效果的好坏,会对用户的感知造成很大影响. 如果语音合成质量较好,说 ...
【好数推荐】数据堂平均音色语音库
语音合成,即是把文字变成声音的技术,声音是文字内容的信息载体.语音交互是日常生活中最常见.最被人熟悉并乐于接受的展现形式,语音交互体验效果的好坏,会对用户的感知造成很大影响. 如果语音合成质量较好,说 ...
打破数据量瓶颈数据堂推出超大规模英语发音词典
英语是最具影响力的全球性交流语言之一,与其相关的英语语音识别系统也在学术界和工业界受到广泛关注. 英语语音识别技术取得了非常可观的落地应用成果,AI企业和相关机构持续发力,致力于不断提升英语语音识别准 ...
1400小时开源语音数据集，你想要都在这儿
整理 | 一一出品 | AI科技大本营(ID:rgznai100) 3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名 ...
世界最大的多语言语音数据集现已开源！超40万小时，共23种语言
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达博雯发自凹非寺量子位报道 | 公众号 QbitAI 最近,F ...

语音识别 | 数据堂方言语音数据集

语音识别 | 数据堂方言语音数据集相关推荐

最新文章

热门文章