人工智能语音训练数据的制作方式?
语音数据指标解读
一、语音数据类型
按照话语的自然程度分类:
- 朗读式语音
- 对话式语音
按照信号频宽角度分类
- 手机信道语音
- 电话信道语音
- 桌面语音(高保真麦克风或阵列)
按照应用角度分类
基础识别数据
基础语音识别能力的训练数据可分为:朗读语音、自然对话、引导语音、噪音环境、情感语音、声纹识别等六大类语音数据。智能家居数据
3000小时中国儿童语音数据
797人低幼儿童中文语音数据
220人美国儿童麦克风采集语音数据
1044小时闽南语手机采集语音数据
1032小时上海方言手机采集语音数据
1000小时昆明方言手机采集语音数据
……智能车载数据
531小时麦克风手机采集车载噪音数据
245小时车载环境普通话手机采集语音数据
1,030小时中英混读手机采集语音数据
……智能手机数据
3125小时语音助手普通话实网采集语音数据
200人中文唤醒词手机语音采集数据
……智能会议数据
1000小时普通话多人自然对话语音数据
800小时美式英语语音数据-交互场景
……智能客服数据
2823小时普通话客服实网语音采集数据
555小时全领域客服实网语音采集数据
140小时电商客服普通话实网采集语音数据
……
二、语音数据制作要求
录音人的特征要求
- 性别:男女比例
- 年龄分布
- 方言区域分布
- 特殊发音人
- 语速
- 发音方式
质量要求
- 数据结构的完整性
- 数据量的完整性
- 语音的合格率
- 标注的合格率
三、 语音采集
①录音文本:
内容覆盖:
录音文本的选择要尽量贴合客户应用场景
数据堂语音数据的录音文本设计很有优势。
例如:通用类、交互类、家居命令类、车载命令类、数字类句子重复率:
句子重复率越低越好,国内客户大多希望重复最多3次,国外客户容忍度高些
数据堂语音数据,大部分都是重复小于3次
②录音设备:
固定电话:办公电话、家庭电话
手机(通信设备):安卓系统、苹果系统手机
录音笔:手持式、非手持式
高保真麦克风:外接声卡、内置声卡
其他移动设备:智能语音录音设备
③录音环境:
安静室内、家居、车载、街景、车站、工厂
•通常的相对安静采集环境:不能有明显回音、不能有其他人说话声、没有电流声、没有持续噪音(空调声等)。
噪音DB值:
量化环境噪音的强度,可以用声压计测量。业内通常要求不超过40-50DB,我们18年开始做的数据基本都在40DB以内
信噪比:
量化说话人音量比环境噪音音量高出多少。业内通常要求大于10-20DB,我们的数据符合
④录音数据格式:
采样率:16KHz、22KHz、44.1KHz、48KHz
量化位数:8bit、16bit、32bit
声道:单双声道
•不同设备通常采集的格式不同:
采集设备:
手机:16KHz、16bit (不同手机的降噪性能不同)
电话:8KHz、16bit
高保真麦克风或麦克风阵列:44.1KHz48KHz、16bit32bit
存储格式:WAV(录音时用的标准的WINDOWS文件格式)
⑤录音人注意事项
1.性别比例:通常要均衡,男女1:1最佳,可以有5%-10%的波动误差
2. 地域比例:覆盖越广越好(中国是七大方言区,按人数比例分布)
3.年龄比例:通常是18-25岁年轻人为主,但中年人也要有一定比例覆盖
4.语音时长:交付客户时,一个录音人的语音时长最佳在30分钟左右,不超过1小时为宜。
⑥合格指标
⑥错误样例
1.音量大小、听不清(语速过快、发音不清)
3. 截幅:声音信号经音频设备重放后多出来的额外的谐波成分.(模拟截幅、数字截幅)
4. 失帧、丢帧 (模拟到数字信号后丢失数据信息)
5. 噪音、语音内容中有第二发话人出现
5.变声
6.喷麦
6. 语义不通
7. 重复音、磕巴音导致标注错误
四、语音标注
1、标注类型
• 标注的内容分类
必需项:
语音打点:按句切分,每句保留一定静音段;文字转写;对多人对话语音,还需区分说话人
可选项:噪音标注;拼音标注
2、标注要求
语音打点:
•判断语音是否有效
※ 判断是否为有效或无效语音的原则:
- 如果一段语音声音极小,小到几乎听不到,则标注为无效。
- 如果一段语音中只含有噪声或者静音(视为无声音),则标注为无效。
- 如果只有“嗯”、“啊”、“哇噻”、“喂”等再无其他内容,则标注为无效。
- 一句话有听不清楚的部分,不能判断内容,转写不出全部正确结果的情况下,则标注为无效。
•语音内容转写标注
※ 数据转写标注人员根据所听到的音频写出内容,力求使文本内容与音频发音内容保持一致。
一般准则:
1.标注内容的完整性要与实际发音一致,不能多字、少字、错字。
◎ 口语不流利时会出现重复、修正、断续、犹豫的现象,统一按照实际发音情况进行转写。
例如:“我是 北 北 京人”“那个 那个 有没有”
◎口语快速发音时会出现吞音、错音、变音的现象,错音和变音需要按照上下文语义判断正确转写内容。例如:“政府”发音为“正负”,根据语义判断后应该标注为“我要去政府街”。吞音现象为发音不明显,无法断定。标注的时候需要用“{}”符号辅助转写。例如:“走不走{啊}”,其中“啊”字不明显。儿化音同样采取和吞音现象的转写方法。例如:“这{儿}不错”,其中“儿”字不清晰。
2.音频中的阿拉伯数字要转写成汉字形式,如要写成“一二三”,而不是“123”。 注意区分“一”和“幺”,“二”和“两”。
3.音频中有英文发音的应转写成相应的汉字或英文。具体分为以下几种情况:
◎ 网址中包含的所有的字母或单词,均为大写。例如:发音内容为”www.pp.com”, 应转写为“三W点PP点COM”。
◎ 发音中包含的英文单词,转写时全部为小写。
◎ 发音中包含的英文字母,转写时全部为大写。
◎ 对于一些专有名词,或者一些英文缩写,转写时全部为大写,例如:WTO、ERP等。
4.如发音清楚,但是语义不确定,比如普通人名等,可以选择同音字转写,但需要保证转写的读音正确。
5.关于添加空格注意事项:
◎ 空格只允许出现在英文单词之间。
◎ 英文字母、中文、中文和英文之间,均不能出现空格。
3、噪音符号解析
•噪音标注
- 采集环境噪音标注
- 语音内噪音内容标注
•噪音内容标注项
[h]: 表示人的呼吸声
[k]: 表示人的咳嗽声
[x]: 表示人的笑声
[p]: 表示人的喷嚏声
[z]: 表示人的咂嘴声、喷麦声
[n]: 非人发出的声音,主要是一些偶然出现的噪声,例如:鼠标操作声音,敲击键盘的声音,汽车笛声等。
4、合格指标
按句计算合格率
※ 句准确率=正确的句子数/总句子数
注:一句话里有一个字错,也算该句错按字计算合格率
※ 字准确率=正确的字数/总字数
业内要求:普通话朗读类通常要求句准确率96%-98%、普通话对话或客服类通常要求句准确率95%-97%、方言和外语通常要求句准确率95%
五、发音词典
1、发音词典作用
2、发音词典格式
发音词典和语种一一对应:一个语种只需要一个发音词典
发音词典里包含的词汇尽可能全,至少包含语音数据里的所有词
OOV:语音数据里有发音词典里没有的词
发音词典的规模通常是5-10万词
一个词对应一个或多个音标(一个词可能有多个音标)
音标通常是国际音标(IPA)或其他类似书写形式(中文通常用拼音表示)
3、发音词典样例
4、发音词典的商务策略
发音词典和语音数据是独立的两套数据
大部分客户会自己持续构建和扩充一个语种的发音词典
有些客户希望我们有发音词典,否则不买我们语音数据
建议:如果我们的发音词典没有或工期慢,可建议客户采购别家发音词典(如果客户担心别家发音词典词汇不全,可以把词表给我们,我们卖只有这些词的语音数据)
本文分享自:数据堂
网址:https://www.datatang.com/
人工智能语音训练数据的制作方式?相关推荐
- python篮球-基于Python/Java的人工智能篮球训练系统的制作方法
本发明涉及信息技术领域,尤其涉及一种基于Python/Java的人工智能篮球训练系统. 背景技术: 人工智能的发展已经开始渗透到各行各业.经过发明人的研究和检索,发现作为篮球训练,已经有专利申请.其中 ...
- 语义分割 patches 训练数据制作
patches 切割 在制作训练数据集,或使用训练好的模型对大尺寸图像进行预测时,需要将图像进行切割成 patches patches 的切割可以分为: 离线切割,将 切割的 patches 保存至本 ...
- 行人检测0-05:LFFD-行人训练数据制作以及训练
以下链接是个人关于LFFD(行人检测)所有见解,如有错误欢迎大家指出,我会第一时间纠正.有兴趣的朋友可以加微信:17575010159 相互讨论技术.若是帮助到了你什么,一定要记得点赞!因为这是对我最 ...
- DNSPod十问贾宇航:告别“人工智障”?训练数据厂商为AI正名
云测数据总经理,拥有多年To B企业服务市场研究经验.2015年成立Testin云测北美事业部,统筹海外市场及前沿技术研发.2017年创立AI数据采集标注事业部,为人工智能提供高质量.场景化的数据采集 ...
- Unity 实现人工智能语音
Unity 实现人工智能语音 欧拉密SDK 下载 欧拉密基础教学 欧拉密 NLI管理系统 自定义模块 Unity 模块 文件导入 项目创建 ASR 代码模块 NluApiSample ASR 语音合成 ...
- 深度学习训练中关于数据处理方式--原始样本采集以及数据增广
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/SMF0504/article/details/78695908 好久没有写博客,一直想重新调整自己的 ...
- 人脸识别0-02:insightFace-模型训练与训练数据制作-史上最全
以下链接是个人关于insightFace所有见解,如有错误欢迎大家指出,我会第一时间纠正,如有兴趣可以加QQ:944284742相互讨论技术. 人脸识别0-00:insightFace目录:https ...
- 基于Movingmnist结构制作predrnn++的训练数据过程记录
Alpha pose数据准备部分可以看我之前的[文1]: AlphaPose姿态估计 只输出骨架 源码修改 相关记录 关于PredRNN++的内容见[文2]: predRNN++代码实战 tensor ...
- 网络训练需要的混合类型数据的组织方式
在准备神经网络模型需要的训练数据时,经常需要构造顺手的数据形式,如下 特征1 特征2 特征3 - 特征n 标签 37.584 37.632 38.045 - 38.902 'a' 33.216 39. ...
- 【DOTA】制作Efficientdet训练数据
[DOTA]制作Efficientdet训练数据 记录一下用Efficientdet训练DOTA数据集前的数据准备工作 文章目录 [DOTA]制作Efficientdet训练数据 1.图片整理 2.生 ...
最新文章
- Retrofit2.0
- Android之linux基础教学之八 内核同步介绍
- 地图瓦片相关学习总结
- 如何在Java JVM中处理图像和视频
- 前端学习(3202):函数式组件
- BOOTSTRAP ---- 重要部分
- ubuntu联网_Ubuntu物联网操作系统新版发布,支持10年安全更新,镜像仅280M
- 编译运行BSR/bench源码
- mysql 主从复制 性能_MySQL 主从复制搭建
- spoj 2798 Query on a tree again! 树链剖分
- NetSarang旗下网络通讯系列产品v5版本更新合集丨附下载
- app不走系统代理?如何抓包?
- 二十一世纪大学英语读写教程学习笔记(原文)——10 - Cloning: good Science or Baaaad Idea(克隆技术是好科学还是馊主意)
- 机器人学编程简介~2019~
- FBReader工程结构解析
- python发送邮件群发软件_python使用tkinter写的邮件群发软件-python图形界面编程
- 达内python第一次月考题目_月考来临!第一次月考远比你想象的重要!
- 关于ios13升级到ios14企业APP出现无法安装解决方案
- 移动应用数据统计平台(之一)
- 10-特质-Scala
热门文章
- 9月第2周网络安全报告:境内感染病毒主机68万个
- 6、深思数盾加密狗使用小记
- eclipse给jar包打断点
- 模拟信号的数字处理方法
- Linux如何刷新DNS缓存
- html阻止超链接跳转,009_阻止html标签默认事件的执行,比如阻止超链接默认点击事件的执行...
- php滑动解锁验证码,javascript实现支付宝滑块验证码效果
- python王者战斗_把英雄分类,看 Python 带你上王者
- linux车机carplay模块,卸甲科技UI2.0版本Linux车机发布
- matlab天线阵列分析,基于Matlab的阵列天线数值分析