语音识别如今已经走过了漫长的道路,尽管通过机器学习实现了技术上的突飞猛进,如今的语音识别系统仍然有许多不完美的地方,其中一点就是带有歧视性。在最近报道出的《华盛顿邮报》委托进行的一项研究中,谷歌和亚马逊生产的智能音箱,它能够听懂非美国口音的可能性比本土用户低30%。方言识别成为了语音识别技术的一大待突破的障碍。

论方言识别率的必要性

“十里不同音,百里不同俗”是中国的语言现状。中国共有56个民族,除了回族没有自己的语言之外,其他所有民族都有自己的语言,在各个方言区中又分布着多种土语。据不完全统计,中国至少有80种以上的语言。除此之外,由于受到方言的影响,很多人的普通话会有一定的口音存在。无论是目前的智能家居产品还是未来某些语音识别产品的应用,方言的识别是不可或缺的。

训练数据越多越好

语音识别的专业基础包括了算法基础、数据知识和开源平台,其中算法基础是语音识别系统的核心知识,包括了声学机理、信号处理、声学模型、语言模型和解码搜索等。训练数据是语音识别准确率不断提升的关键。语音识别中的口音差异是一个数据问题。语料库中语音样本的数量和多样性越高,得到的模型就越精确。随着越来越多不同方言说话的语音数据做训练,语音识别能力就会不断提高。

数据堂自有版权各地区方言语音系列数据产品包含:

1000小时 武汉方言录音数据

1000小时 昆明方言录音数据

1000小时 长沙方言录音数据

1032小时 上海方言手机采集语音数据

738小时 维语手机采集语音数据

1652小时 粤语手机采集语音数据

1044小时 闽南语手机采集语音数据

312人 东北方言手机采集语音数据

463人 河南方言手机采集语音数据

370人 杭州方言手机语音采集数据

250人 苏州方言手机语音采集数据

……

数据规格:

格式:16kHz,16bit,wav,单声道

录音环境:相对安静的室内,无回声

录音内容:通用口语;交互;家居命令;方言用语;数字

设备:苹果手机、安卓手机

标注特点:文本转写;噪音符号;特殊标识符

应用场景:语音识别,机器翻译;声纹识别

准确率:句准确率 95%(噪音符号和其他标识符的准确率不计入在内)

关于数据堂

数据堂(北京)科技股份有限公司,成立于2011年(股票代码:831428),专业的人工智能数据服务提供商,致力于为全球人工智能企业提供数据获取、处理及数据产品服务。数据堂总部位于北京,拥有8家全资和控股子公司,并在硅谷设立美国子公司,目前在南京、保定、合肥、贵阳等地设有多个专业数据处理中心。数据堂数据采集范围遍及全球30多个国家,合作伙伴遍布世界10多个国家。公司创始人及合伙人来自Stanford University、NEC、中国移动等知名高校和高科技公司。数据堂已成功为国内外众多企业提供人工智能数据产品与服务,包括百度,腾讯,阿里巴巴、奇虎360、联想、科大讯飞等国内顶级互联网和高科技企业,Microsoft、NEC、Canon、Intel、Samsung、Nuance、Fujitsu等企业及在华研发机构。

语音识别 | 数据堂方言语音数据集相关推荐

  1. 【好数推荐】方言语音数据集

    随着人工智能应用领域的拓展,方言识别问题也越来越受到重视.但是方言与普通话不一样,方言语音识别要复杂得多. 中国的方言南北差异太大,哪怕同属于一个大的方言分区,也分歧异出,方言数据的采集,面临很多困难 ...

  2. 数据堂智能语音数据库,让客服更智能

    原标题:数据堂智能语音数据库,让客服更智能 拨打海底捞餐厅的客服电话,一个语气热情的女声从电话那头传来,很多人可能都没有意识到,这并不是人工客服,而是智能电话机器人的声音. 同样,当你拨打10086/ ...

  3. 如何构建语音识别能力?有哪些语音数据集?

    语音已经是目前市场上的人工智能产品的主要入口之一,语音识别也是当前人工智能领域的重点研究方向,在家居.汽车.机器人等方面有着广泛的应用,未来也将深入到我们学习.生活.工作的各个环节. 随着人工智能的快 ...

  4. 想准确识别各地方言?这套15000小时方言语音数据推荐了解一下

    不论是 " 啥事都中" 的河南 , 还是遍地 " 靓女靓仔 " 的广东 , 方言都是各地极具特色的文化名片.一方面 , 方言附着极大的亲切感 , 另一方面 , ...

  5. 数据推荐 | 自然对话语音数据集

    从目前的数据行业看,大部分语音识别数据都以朗读式训练数据为主,朗读式语音数据可以解决例如手机语音助手.车载语音助手.智能音箱.智能家电等较为简单的人机交互应用场景. 用户和机器之间通常是以单一短句的形 ...

  6. 好数推荐 数据堂平均音色语音库

    语音合成,即是把文字变成声音的技术,声音是文字内容的信息载体.语音交互是日常生活中最常见.最被人熟悉并乐于接受的展现形式,语音交互体验效果的好坏,会对用户的感知造成很大影响. 如果语音合成质量较好,说 ...

  7. 【好数推荐】数据堂平均音色语音库

    语音合成,即是把文字变成声音的技术,声音是文字内容的信息载体.语音交互是日常生活中最常见.最被人熟悉并乐于接受的展现形式,语音交互体验效果的好坏,会对用户的感知造成很大影响. 如果语音合成质量较好,说 ...

  8. 打破数据量瓶颈 数据堂推出超大规模英语发音词典

    英语是最具影响力的全球性交流语言之一,与其相关的英语语音识别系统也在学术界和工业界受到广泛关注. 英语语音识别技术取得了非常可观的落地应用成果,AI企业和相关机构持续发力,致力于不断提升英语语音识别准 ...

  9. 1400小时开源语音数据集,你想要都在这儿

    整理 | 一一 出品 | AI科技大本营(ID:rgznai100) 3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名 ...

  10. 世界最大的多语言语音数据集现已开源!超40万小时,共23种语言

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最近,F ...

最新文章

  1. 基于SSM实现社区医院管理系统
  2. ZooKeeper原理及使用
  3. android linearlayout 间隔
  4. at java.net.url init,java.net 基本测试
  5. 服务器java 客户端c_Java客户端和C ++服务器通过TCP套接字发送和接收
  6. (轉貼) 如何解決MegaCore IP 6.0安裝時-6001的錯誤? (IC Design) (MegaCore)
  7. Matplotlib常用绘图示例
  8. myeclipse打开JSP电脑很卡,CPU使用率90%以上
  9. 在UITextView显示HTML,以及NSAttributedString乱码问题解决 swift
  10. ZT 80-90年代港台300部电视剧 你看过多少?
  11. MongoDB报错,Sort operation used more than the maximum 33554432 bytes of RAM.Add an index
  12. 矩阵分析与应用-17-Moore-Penrose逆矩阵01
  13. 测试未来宝宝照片软件,未来宝宝照片合成器
  14. 国美易卡的标识符和关键字是什么(国美易卡)
  15. 区块链(BTC)学习总结1
  16. 【Git】rebase 用法小结
  17. 从广告图到广告落地页
  18. ubuntu repo安装方法
  19. linux系统有哪些
  20. 哲理故事与管理之道(22)-用竞争激励下属

热门文章

  1. Matlab使用for循环实现5阶乘和的计算
  2. xp 64位系统下载
  3. 网络的日常——破解电信光猫后开启NAT接口映射
  4. Windows 7下的虚拟光驱
  5. 计算机鼠标老跳动,电脑鼠标总跳是怎么回事?
  6. linux英英词典项目,[开发手记] 一款基于命令行的英英词典 (A CLI-Based EE Dictionary)...
  7. EDA365_skill2.5百度网盘资源
  8. 小作业-drawline换成drawrectangle和fillRectangle
  9. 私服脚本制作教程......
  10. 网易云接口获取音乐(转载练习)