语音数据指标解读

一、语音数据类型

按照话语的自然程度分类:

  1. 朗读式语音
  2. 对话式语音

按照信号频宽角度分类

  1. 手机信道语音
  2. 电话信道语音
  3. 桌面语音(高保真麦克风或阵列)

按照应用角度分类

  1. 基础识别数据
    基础语音识别能力的训练数据可分为:朗读语音、自然对话、引导语音、噪音环境、情感语音、声纹识别等六大类语音数据。

  2. 智能家居数据
    3000小时中国儿童语音数据
    797人低幼儿童中文语音数据
    220人美国儿童麦克风采集语音数据
    1044小时闽南语手机采集语音数据
    1032小时上海方言手机采集语音数据
    1000小时昆明方言手机采集语音数据
    ……

  3. 智能车载数据
    531小时麦克风手机采集车载噪音数据
    245小时车载环境普通话手机采集语音数据
    1,030小时中英混读手机采集语音数据
    ……

  4. 智能手机数据
    3125小时语音助手普通话实网采集语音数据
    200人中文唤醒词手机语音采集数据
    ……

  5. 智能会议数据
    1000小时普通话多人自然对话语音数据
    800小时美式英语语音数据-交互场景
    ……

  6. 智能客服数据
    2823小时普通话客服实网语音采集数据
    555小时全领域客服实网语音采集数据
    140小时电商客服普通话实网采集语音数据
    ……

二、语音数据制作要求

录音人的特征要求

  1. 性别:男女比例
  2. 年龄分布
  3. 方言区域分布
  4. 特殊发音人
  5. 语速
  6. 发音方式

质量要求

  1. 数据结构的完整性
  2. 数据量的完整性
  3. 语音的合格率
  4. 标注的合格率

三、 语音采集
①录音文本:

内容覆盖:
录音文本的选择要尽量贴合客户应用场景
数据堂语音数据的录音文本设计很有优势。
例如:通用类、交互类、家居命令类、车载命令类、数字类句子重复率:
句子重复率越低越好,国内客户大多希望重复最多3次,国外客户容忍度高些
数据堂语音数据,大部分都是重复小于3次

②录音设备:

固定电话:办公电话、家庭电话
手机(通信设备):安卓系统、苹果系统手机
录音笔:手持式、非手持式
高保真麦克风:外接声卡、内置声卡
其他移动设备:智能语音录音设备

③录音环境:
安静室内、家居、车载、街景、车站、工厂
•通常的相对安静采集环境:不能有明显回音、不能有其他人说话声、没有电流声、没有持续噪音(空调声等)。
噪音DB值:
量化环境噪音的强度,可以用声压计测量。业内通常要求不超过40-50DB,我们18年开始做的数据基本都在40DB以内
信噪比:
量化说话人音量比环境噪音音量高出多少。业内通常要求大于10-20DB,我们的数据符合

④录音数据格式:
采样率:16KHz、22KHz、44.1KHz、48KHz
量化位数:8bit、16bit、32bit
声道:单双声道

•不同设备通常采集的格式不同:
采集设备:
手机:16KHz、16bit (不同手机的降噪性能不同)
电话:8KHz、16bit
高保真麦克风或麦克风阵列:44.1KHz48KHz、16bit32bit
存储格式:WAV(录音时用的标准的WINDOWS文件格式)

⑤录音人注意事项
1.性别比例:通常要均衡,男女1:1最佳,可以有5%-10%的波动误差
2. 地域比例:覆盖越广越好(中国是七大方言区,按人数比例分布)
3.年龄比例:通常是18-25岁年轻人为主,但中年人也要有一定比例覆盖
4.语音时长:交付客户时,一个录音人的语音时长最佳在30分钟左右,不超过1小时为宜。

⑥合格指标

⑥错误样例
1.音量大小、听不清(语速过快、发音不清)
3. 截幅:声音信号经音频设备重放后多出来的额外的谐波成分.(模拟截幅、数字截幅)
4. 失帧、丢帧 (模拟到数字信号后丢失数据信息)
5. 噪音、语音内容中有第二发话人出现
5.变声
6.喷麦
6. 语义不通
7. 重复音、磕巴音导致标注错误

四、语音标注
1、标注类型
• 标注的内容分类
必需项:
语音打点:按句切分,每句保留一定静音段;文字转写;对多人对话语音,还需区分说话人
可选项:噪音标注;拼音标注

2、标注要求
语音打点:

•判断语音是否有效

※ 判断是否为有效或无效语音的原则:

  1. 如果一段语音声音极小,小到几乎听不到,则标注为无效。
  2. 如果一段语音中只含有噪声或者静音(视为无声音),则标注为无效。
  3. 如果只有“嗯”、“啊”、“哇噻”、“喂”等再无其他内容,则标注为无效。
  4. 一句话有听不清楚的部分,不能判断内容,转写不出全部正确结果的情况下,则标注为无效。

•语音内容转写标注
※ 数据转写标注人员根据所听到的音频写出内容,力求使文本内容与音频发音内容保持一致。
一般准则:

1.标注内容的完整性要与实际发音一致,不能多字、少字、错字。
◎ 口语不流利时会出现重复、修正、断续、犹豫的现象,统一按照实际发音情况进行转写。
例如:“我是 北 北 京人”“那个 那个 有没有”
◎口语快速发音时会出现吞音、错音、变音的现象,错音和变音需要按照上下文语义判断正确转写内容。例如:“政府”发音为“正负”,根据语义判断后应该标注为“我要去政府街”。吞音现象为发音不明显,无法断定。标注的时候需要用“{}”符号辅助转写。例如:“走不走{啊}”,其中“啊”字不明显。儿化音同样采取和吞音现象的转写方法。例如:“这{儿}不错”,其中“儿”字不清晰。

2.音频中的阿拉伯数字要转写成汉字形式,如要写成“一二三”,而不是“123”。 注意区分“一”和“幺”,“二”和“两”。

3.音频中有英文发音的应转写成相应的汉字或英文。具体分为以下几种情况:
◎ 网址中包含的所有的字母或单词,均为大写。例如:发音内容为”www.pp.com”, 应转写为“三W点PP点COM”。
◎ 发音中包含的英文单词,转写时全部为小写。
◎ 发音中包含的英文字母,转写时全部为大写。
◎ 对于一些专有名词,或者一些英文缩写,转写时全部为大写,例如:WTO、ERP等。

4.如发音清楚,但是语义不确定,比如普通人名等,可以选择同音字转写,但需要保证转写的读音正确。

5.关于添加空格注意事项:
◎ 空格只允许出现在英文单词之间。
◎ 英文字母、中文、中文和英文之间,均不能出现空格。

3、噪音符号解析
•噪音标注

  1. 采集环境噪音标注
  2. 语音内噪音内容标注
    •噪音内容标注项
    [h]: 表示人的呼吸声
    [k]: 表示人的咳嗽声
    [x]: 表示人的笑声
    [p]: 表示人的喷嚏声
    [z]: 表示人的咂嘴声、喷麦声
    [n]: 非人发出的声音,主要是一些偶然出现的噪声,例如:鼠标操作声音,敲击键盘的声音,汽车笛声等。

4、合格指标

  1. 按句计算合格率
    ※ 句准确率=正确的句子数/总句子数
    注:一句话里有一个字错,也算该句错

  2. 按字计算合格率
    ※ 字准确率=正确的字数/总字数
    业内要求:普通话朗读类通常要求句准确率96%-98%、普通话对话或客服类通常要求句准确率95%-97%、方言和外语通常要求句准确率95%

五、发音词典
1、发音词典作用

2、发音词典格式
发音词典和语种一一对应:一个语种只需要一个发音词典
发音词典里包含的词汇尽可能全,至少包含语音数据里的所有词
OOV:语音数据里有发音词典里没有的词
发音词典的规模通常是5-10万词
一个词对应一个或多个音标(一个词可能有多个音标)
音标通常是国际音标(IPA)或其他类似书写形式(中文通常用拼音表示)

3、发音词典样例

4、发音词典的商务策略
发音词典和语音数据是独立的两套数据
大部分客户会自己持续构建和扩充一个语种的发音词典
有些客户希望我们有发音词典,否则不买我们语音数据
建议:如果我们的发音词典没有或工期慢,可建议客户采购别家发音词典(如果客户担心别家发音词典词汇不全,可以把词表给我们,我们卖只有这些词的语音数据)

本文分享自:数据堂
网址:https://www.datatang.com/

人工智能语音训练数据的制作方式?相关推荐

  1. python篮球-基于Python/Java的人工智能篮球训练系统的制作方法

    本发明涉及信息技术领域,尤其涉及一种基于Python/Java的人工智能篮球训练系统. 背景技术: 人工智能的发展已经开始渗透到各行各业.经过发明人的研究和检索,发现作为篮球训练,已经有专利申请.其中 ...

  2. 语义分割 patches 训练数据制作

    patches 切割 在制作训练数据集,或使用训练好的模型对大尺寸图像进行预测时,需要将图像进行切割成 patches patches 的切割可以分为: 离线切割,将 切割的 patches 保存至本 ...

  3. 行人检测0-05:LFFD-行人训练数据制作以及训练

    以下链接是个人关于LFFD(行人检测)所有见解,如有错误欢迎大家指出,我会第一时间纠正.有兴趣的朋友可以加微信:17575010159 相互讨论技术.若是帮助到了你什么,一定要记得点赞!因为这是对我最 ...

  4. DNSPod十问贾宇航:告别“人工智障”?训练数据厂商为AI正名

    云测数据总经理,拥有多年To B企业服务市场研究经验.2015年成立Testin云测北美事业部,统筹海外市场及前沿技术研发.2017年创立AI数据采集标注事业部,为人工智能提供高质量.场景化的数据采集 ...

  5. Unity 实现人工智能语音

    Unity 实现人工智能语音 欧拉密SDK 下载 欧拉密基础教学 欧拉密 NLI管理系统 自定义模块 Unity 模块 文件导入 项目创建 ASR 代码模块 NluApiSample ASR 语音合成 ...

  6. 深度学习训练中关于数据处理方式--原始样本采集以及数据增广

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/SMF0504/article/details/78695908 好久没有写博客,一直想重新调整自己的 ...

  7. 人脸识别0-02:insightFace-模型训练与训练数据制作-史上最全

    以下链接是个人关于insightFace所有见解,如有错误欢迎大家指出,我会第一时间纠正,如有兴趣可以加QQ:944284742相互讨论技术. 人脸识别0-00:insightFace目录:https ...

  8. 基于Movingmnist结构制作predrnn++的训练数据过程记录

    Alpha pose数据准备部分可以看我之前的[文1]: AlphaPose姿态估计 只输出骨架 源码修改 相关记录 关于PredRNN++的内容见[文2]: predRNN++代码实战 tensor ...

  9. 网络训练需要的混合类型数据的组织方式

    在准备神经网络模型需要的训练数据时,经常需要构造顺手的数据形式,如下 特征1 特征2 特征3 - 特征n 标签 37.584 37.632 38.045 - 38.902 'a' 33.216 39. ...

  10. 【DOTA】制作Efficientdet训练数据

    [DOTA]制作Efficientdet训练数据 记录一下用Efficientdet训练DOTA数据集前的数据准备工作 文章目录 [DOTA]制作Efficientdet训练数据 1.图片整理 2.生 ...

最新文章

  1. Retrofit2.0
  2. Android之linux基础教学之八 内核同步介绍
  3. 地图瓦片相关学习总结
  4. 如何在Java JVM中处理图像和视频
  5. 前端学习(3202):函数式组件
  6. BOOTSTRAP ---- 重要部分
  7. ubuntu联网_Ubuntu物联网操作系统新版发布,支持10年安全更新,镜像仅280M
  8. 编译运行BSR/bench源码
  9. mysql 主从复制 性能_MySQL 主从复制搭建
  10. spoj 2798 Query on a tree again! 树链剖分
  11. NetSarang旗下网络通讯系列产品v5版本更新合集丨附下载
  12. app不走系统代理?如何抓包?
  13. 二十一世纪大学英语读写教程学习笔记(原文)——10 - Cloning: good Science or Baaaad Idea(克隆技术是好科学还是馊主意)
  14. 机器人学编程简介~2019~
  15. FBReader工程结构解析
  16. python发送邮件群发软件_python使用tkinter写的邮件群发软件-python图形界面编程
  17. 达内python第一次月考题目_月考来临!第一次月考远比你想象的重要!
  18. 关于ios13升级到ios14企业APP出现无法安装解决方案
  19. 移动应用数据统计平台(之一)
  20. 10-特质-Scala

热门文章

  1. 9月第2周网络安全报告:境内感染病毒主机68万个
  2. 6、深思数盾加密狗使用小记
  3. eclipse给jar包打断点
  4. 模拟信号的数字处理方法
  5. Linux如何刷新DNS缓存
  6. html阻止超链接跳转,009_阻止html标签默认事件的执行,比如阻止超链接默认点击事件的执行...
  7. php滑动解锁验证码,javascript实现支付宝滑块验证码效果
  8. python王者战斗_把英雄分类,看 Python 带你上王者
  9. linux车机carplay模块,卸甲科技UI2.0版本Linux车机发布
  10. matlab天线阵列分析,基于Matlab的阵列天线数值分析