640小时印尼语手机采集语音数据

640小时印尼语手机采集语音数据

数据堂640小时印尼语手机采集语音数据 有效数据时长640小时

数据产品详情

格式 16bit,wav,单声道;txt;metadata
语音数据格式:手机录制语音:16kHz,16bit,wav,单声道
标注结果:txt
数据标签格式:metadata
录音环境 相对安静的室内,无回声
语音均录制于相对安静的室内,无回声
录音内容 通用类;交互类;家居命令;车载命令;数字类
1280人,每人朗读约450句,包含的语料类型为:通用类;交互类;家居命令类;车载命令;数字类;
语料类型:
通用类:领域不限的句子,来源广泛,包括日常口语、新闻等多种内容
交互类句子:涉及到音乐、娱乐、体育、出行、生活、社交等不同的类别
家居命令类句子:涉及到对智能家居设备的控制命令
车载命令类句子:涉及到对车载装置设备的控制
数字类:包含日期、货比、时间等内容;
人员 1280人;男性占比50%;18-25岁 60%;26-45岁35%;46-60岁5%;覆盖马来方言区
共有1280人参与录制,男性640人,占比50%;女性640人,占比50%

18-25岁 60%;26-45岁35%;46-60岁5%;上下浮动5%
地域分布: Daerah Khusus Ibukota Jakarta, Jawa Timur, Bali, Jawa Barat, Sumatera Selatan, Kalimantan Barat等

设备 1280人安卓手机、苹果手机
1280人采用苹果手机和安卓手机录制
手机:安卓手机、苹果手机,覆盖市面上常见品牌的主流机型,如三星、华为、小米、vivo等
语言 印尼语
录音人员均使用印尼语进行录制
标注内容 文本
根据音频的实际发音转写文本
应用场景 语音识别;机器翻译;声纹识别
可用于语音识别声学/语言模型训练或算法研究
可用于机器翻译语料库建设
可用于声纹识别模型训练或算法研究

数据存储结构 -

文件夹说明
data:数据均存放于此文件夹内
category:录制数据,包含语音数据、标注结果及数据标签等
doc:数据相关的说明文档均存放于此,包含:数据产品说明书、metadata等
GXXXX:录音人员编号,该文件夹数量与实际录音人员数量一致
sessionXXX:数据批次,存放该批次内的全部语音数据、对应的标注结果及数据标签
文件说明
数据产品说明书:数据产品介绍
wav:语音数据,一个数据批次(session)下包含多个语音数据
txt:标注结果,与语音数据一一对应
metadata:数据标签,与语音数据一一对应
3数据样例说明
样例均取自真实数据产品,是对完整数据产品的局部展示。640小时印尼语语音数据样例工共包含4名录音人员,其中男性2人,女性2人。
样例数据集只是对完整数据情况的局部展示,仅用于参考阅读。

官网:www.datatang.com

640小时印尼语手机采集语音数据相关推荐

  1. 想准确识别各地方言?这套15000小时方言语音数据推荐了解一下

    不论是 " 啥事都中" 的河南 , 还是遍地 " 靓女靓仔 " 的广东 , 方言都是各地极具特色的文化名片.一方面 , 方言附着极大的亲切感 , 另一方面 , ...

  2. 简单WIFI定位分析与比较(文末有手机采集RSSI软件推荐!!!)

    导师是做室内定位的,最近让我复现一篇论文中基于图像和WiFi融合定位的实现方法,目前图像定位已经简单的实现了,采用HOG+SVM.然鹅定位效果并不理想,但也能得出个大概的位置. 下面就开始搞基于WIF ...

  3. 【VINS-MONO测试】安卓手机采集mono+imu数据

    上一个vins-mono环境配置测试完成后,初步建立好实验环境,接下来开始进行数据采集(cam+imu).打包.标定.运行. 记录一下后续要更新的内容吧: ros打包.另外两种标定方式.手机在线测试. ...

  4. java录音程序_record类完成语音信号采集的任务_Android实现语音数据实时采集、播放...

    最近做的项目是和语音实时采集并发送,对方实时接收并播放相关,下面记录下实现的核心代码. 很多Android开发者应该知道android有个MediaRecorder对象和MediaPlayer对象,用 ...

  5. 语音识别(20201030)——麦克风阵列(采集语音信号)

    目录 麦克风阵列的原理 麦克风阵列的功能 麦克风阵列解决噪声干扰 存在的干扰 算法 1.多通道降混响算法(室内) 2.多通道点干扰抑制算法(室外) 3.多通道目标说话人提取算法(声纹,不适用) 麦克风 ...

  6. 声智科技陈孝良:没有好的语音数据收集,语音识别和交互不可能做好

    声智科技是一家人工智能交互与声学解决方案服务商,从事语音交互芯片.模组和设备研发.设计.制造并提供整体声学技术解决方案.简单理解,他们跟思必驰.云知声类似,不直接提供面向TO C的产品,而是做产品公司 ...

  7. VS语音信号处理(2) C语言分段读取WAV语音文件语音数据

    VS语音信号处理(2) C语言分段读取WAV语音文件语音数据 前言 一. 工程实现 二. 结果 三. 小结 前言 语音识别相关算法一般在MATLAB上进行仿真验证与实验,在工程上一般还是在VS中进行实 ...

  8. Android 手机采集摄像头视频 socket 视频传输实时传播

    这里搜集了两种实现Android 手机采集摄像头视频 socket 视频传输实时传播的方法,两种都可以使用. 第一种如下: 1.通过客户端socket请求,服务端接受到请求后,获取socket的输出流 ...

  9. java多线程数据采集,【多线程数据采集课题】java采集网页数据方法

    [多线程数据采集专题]java采集网页数据方法 java多线程网络数据采集  第一步抓取数据. java采集网页数据.获取html文本节点 有几种办法.转载文章请注明来处:http://blog.cs ...

最新文章

  1. 皮一皮:这孩子想必长大了一定是个程序猿...
  2. java学习笔记—国际化(41)
  3. ATT Protocol 属性协议
  4. 曼尼托巴大学计算机硕士录取要求,曼尼托巴大学硕士
  5. Linux内核的Softirq机制
  6. ECCV 2020 论文大盘点-实例分割篇
  7. java 泛型 类型形参(Type Parameters) 类型
  8. Competitive Programming 3题解
  9. 基于麻雀搜索算法的极限学习机(ELM)分类算法-附代码
  10. 老游戏与你共渡亲子时光
  11. ant design-Table中的分页实现(包括点击跳页,输入跳页,以及指定每页项目数)
  12. IntelliJ IDEA 添加对 Extjs6 支持
  13. 熟练掌握计算机应用,计算机应用技术专业个人技能怎么写
  14. ArcGIS中shp文件的裁剪
  15. 苹果摄像头黑屏_报道称苹果已将折叠 iPhone 送往测试/苹果官网上线送份好礼,送到心里页面/iPhone 12 mini 拆解报告公布...
  16. 生产计划排产的十二个应用场景
  17. 2108 JAVASE每日复习总结 链接汇总
  18. C++基础(1)- 声明(前向声明 Forward Declaration)与定义
  19. t440p安装黑苹果+win10双系统记录
  20. django的通过set_password注册密码加密

热门文章

  1. 使用MediaPlayer播放USB中读取到的MP3音乐文件,遇到java.io.FileNotFoundException异常总结
  2. 系列文章-大数阶算之计算从入门到精通(序)
  3. 电玩世界——青龙羊毛
  4. 终于找到blender渲染总是崩溃的原因了
  5. Python数据分析之使用pandas-datareader获取国家经济信息进行分析
  6. excel怎么更改坐标轴刻度_excel2013怎么设置图表坐标轴刻度?调节图表坐标轴刻度方法介绍...
  7. Java基础语法——方法
  8. 这个0成本必赚套利方法,值得你学习!
  9. 暑假实习面经 | 华为通用软件开发
  10. 字符函数库cctype的使用_C++