数据名称:印地语语音自由对话识别数据库-200人

数据编号:King-ASR-323

数据制作:海天瑞声

数据参数:16k, 16bit

录音通道:三通道

录音平台:手机

录音时长:303小时

数据用途:语音识别系统训练、测试、语音分析

数据简介

Hindi

(印地语),是印度的主要官方语言之一。据统计,印度国内以Hindi为母语的人数超过1.8亿,以其作为日常交流主要语言的人口接近8亿。在美国、南非、新加坡等地,使用Hindi的人数也高达数百万。随着印度的国际地位日益提升,Hindi的影响力也在逐渐增大。

为了提高语音识别引擎对Hindi的识别准确度,我公司于2016年年初录制了这个印地语自由对话语音识别数据库。

该数据库是在印度采集完成的,在安静办公室环境下进行录音。共有200位本地发音人参与了录音,其中男女性别比例约为1:1。发音人主要来自于以Hindi为主要官方语言的印度西部和东部地区。

我们选择了人们在日常交流中涉及最多的领域,包括家庭、工作、运动、购物、新闻、食物、电影等25个最常见的话题。

发音人被分成两人一组,在可选的25个话题中自由挑选自己感兴趣的话题,并针对该话题进行自由对话。在录音过程中,对于话题的进展,我们不给予发音人任何暗示、控制和引导。

每组自由对话时间为1个小时,整个语音数据库的纯语音时长为303小时(包含首尾静音段),磁盘容量为42GB。

该数据库由Hindi的母语使用者进行人工转写和标注,并经过了严格的质量检验。

该数据库包含一个SAMPA印地语发音词典,并由我们的印地语语言学家进行了校对。

发音人年龄分布情况

更多关于此数据库的细节,请电话或邮件咨询我们。

我们计划在近期推出此数据库的免费数据包,请关注我们的微信公众号,不要错过推送哦!

电话咨询:010-62660053

邮件咨询:contact@speechocean.com

印地语自由对话语音识别数据库-200人相关推荐

  1. 震撼上市!北朝鲜语对话语音识别数据库

    北朝鲜语,是一种为朝鲜民族所使用的语言.值得一提的是,北朝鲜所使用的北朝鲜语与韩国所使用的韩语虽然是同一种语言,但无论是用词.发音,还是受外来语影响程度方面(北朝鲜语基本没有外来语,而韩语外来语如汉语 ...

  2. 解决印地语数据稀缺的语音识别训练难题【内含数据集】

    众所周知,印度作为世界第二人口大国,是世界上发展最快的国家之一,经济增长速度引人瞩目.同样印度的互联网市场也处在一个高速发展的阶段,截至2021年上半年,印度拥有近7亿的互联网用户,位居世界第二.每年 ...

  3. 重新定义车载语音交互:服务“全家人”的“自由对话”

    车载智能语音已经成为了日常用车非常重要的高频功能之一,但当前绝大多数语音交互系统的使用感受,其实并不愉悦. 其中,大多数车载智能语音系统谈"听得清"."听得懂" ...

  4. 语音识别数据库成为了人工智能的核心(转发)

    ​​ 语音识别数据库.语音合成数据库是人工智能的关键技术,让机器能听会说.能像人一样的学习.理解和思考,成为人类生活和工作的得力的帮手.亲密的伴侣,一直是人类的梦想.随着近半 个世纪智能语音技术的进步 ...

  5. 购买计算机英语情景对话,美语情景对话∣你会买二手电脑吗

    原标题:美语情景对话∣你会买二手电脑吗 Mark: Hello, my name is Mark. 马克:大家好,我是马克. Sorie: And my name is Sorie. 索瑞:我是索瑞. ...

  6. 年薪200万数据库牛人牛新庄的成长历程

    作者简介:       牛新庄博士,研究方向为数据仓库和数据挖掘.是IBM官方资深培训讲师(培训DB2,AIX,MQ,WebSphere和CICS).2002年获IBM 杰出软件专家奖,2006年获& ...

  7. 谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类

    准确识别「谁·在何时·说了啥」 作者 | MrBear 编辑 |  Pita 从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人工智能技术的最前沿.近日,他们又将多人语音识 ...

  8. 【资讯博客翻译】----通过序列转导实现联合语音识别和说话人二值化

    [翻译]通过序列转导实现联合语音识别和说话人二值化 原文网址:https://ai.googleblog.com/2019/08/joint-speech-recognition-and-speake ...

  9. MySQL之父等国际数据库掌门人齐聚,1024 程序员节全体大会重磅官宣!

    10月23-24日,由CSDN.长沙市政府及多家机构联合主办的第二届"长沙·中国1024程序员节"(1024.csdn.net)将盛大举行.今年程序员节活动囊括:岳麓书院尖峰对话, ...

最新文章

  1. Xcode8 注释快捷键无效, 解决方案
  2. tarnado源码解析系列一
  3. el 表达式 可以解析的数据类型
  4. Linux中切换用户(su命令)
  5. pycharm安装怎么选_安装新风系统,地送风和顶送风哪种?专业师傅分析,不纠结怎么选...
  6. Java打包生成exe(使用exe4j和inno setup)
  7. Illustrator 教程,如何在 Illustrator 中编辑画板?
  8. global mapper将cad格式数据框选范围导出高质量图片
  9. matlab 读取.pgm,【数字图像处理】pbm/pgm/ppm图片的读写(Matlab)
  10. python字符串查找位置_python中怎么返回指定查找字符的位置
  11. JavaScript最新面试题
  12. 大数据架构和模式(五):利用大数据识别保险行业中的欺诈业务案例
  13. 离散小波matlab程序,三维离散小波变换matlab实现.pdf
  14. MySQL配置文件my.ini的一般设置
  15. 联想拯救者Y7000 2020安装Windows 10+CentOS7双系统
  16. 2022年教培行业研究报告
  17. WPS2013开发工具中的VBA为灰色不可用状态的解决方法
  18. BAPI_INTERNALORDER_CREATE的PHAS3和ASTKZ以及IVPRO的赋值或者其他扩展字段的赋值
  19. 圆形标定板_基于圆形标定板特征点提取及排序的方法
  20. 向你推荐22辆最适合改装的车

热门文章

  1. 一篇不错的vim命令入门
  2. Navicat 常用快捷键
  3. [LeetCode]Balanced Binary Tree
  4. iOS应用开发模板 iOS Boilerplate
  5. Bailian2729 求12以内n的阶乘 Bailian2730 求20以内n的阶乘【递推】
  6. POJ3978 Primes【素数筛选+前缀和】
  7. Bailian2701 Bailian3864 POJ NOI0105-39 与7无关的数【进制】
  8. CCF201609-1 最大波动(100分)
  9. UVA489 Hangman Judge【模拟】
  10. 学习 Shell —— 括号、引号