人工智能语音训练数据的制作方式？

语音数据指标解读

一、语音数据类型

按照话语的自然程度分类：

朗读式语音
对话式语音

按照信号频宽角度分类

手机信道语音
电话信道语音
桌面语音（高保真麦克风或阵列）

按照应用角度分类

基础识别数据
基础语音识别能力的训练数据可分为：朗读语音、自然对话、引导语音、噪音环境、情感语音、声纹识别等六大类语音数据。
智能家居数据
3000小时中国儿童语音数据
797人低幼儿童中文语音数据
220人美国儿童麦克风采集语音数据
1044小时闽南语手机采集语音数据
1032小时上海方言手机采集语音数据
1000小时昆明方言手机采集语音数据
……
智能车载数据
531小时麦克风手机采集车载噪音数据
245小时车载环境普通话手机采集语音数据
1,030小时中英混读手机采集语音数据
……
智能手机数据
3125小时语音助手普通话实网采集语音数据
200人中文唤醒词手机语音采集数据
……
智能会议数据
1000小时普通话多人自然对话语音数据
800小时美式英语语音数据-交互场景
……
智能客服数据
2823小时普通话客服实网语音采集数据
555小时全领域客服实网语音采集数据
140小时电商客服普通话实网采集语音数据
……

二、语音数据制作要求

录音人的特征要求

性别：男女比例
年龄分布
方言区域分布
特殊发音人
语速
发音方式

质量要求

数据结构的完整性
数据量的完整性
语音的合格率
标注的合格率

三、语音采集
①录音文本：

内容覆盖：
录音文本的选择要尽量贴合客户应用场景
数据堂语音数据的录音文本设计很有优势。
例如：通用类、交互类、家居命令类、车载命令类、数字类句子重复率：
句子重复率越低越好，国内客户大多希望重复最多3次，国外客户容忍度高些
数据堂语音数据，大部分都是重复小于3次

②录音设备：

固定电话：办公电话、家庭电话
手机（通信设备）：安卓系统、苹果系统手机
录音笔：手持式、非手持式
高保真麦克风：外接声卡、内置声卡
其他移动设备：智能语音录音设备

③录音环境：
安静室内、家居、车载、街景、车站、工厂
•通常的相对安静采集环境：不能有明显回音、不能有其他人说话声、没有电流声、没有持续噪音（空调声等）。
噪音DB值：
量化环境噪音的强度，可以用声压计测量。业内通常要求不超过40-50DB，我们18年开始做的数据基本都在40DB以内
信噪比：
量化说话人音量比环境噪音音量高出多少。业内通常要求大于10-20DB，我们的数据符合

④录音数据格式：
采样率：16KHz、22KHz、44.1KHz、48KHz
量化位数：8bit、16bit、32bit
声道：单双声道

•不同设备通常采集的格式不同：
采集设备：
手机：16KHz、16bit （不同手机的降噪性能不同）
电话：8KHz、16bit
高保真麦克风或麦克风阵列：44.1KHz_{48KHz、16bit}32bit
存储格式：WAV（录音时用的标准的WINDOWS文件格式）

⑤录音人注意事项
1.性别比例：通常要均衡，男女1:1最佳，可以有5%-10%的波动误差
2. 地域比例：覆盖越广越好（中国是七大方言区，按人数比例分布）
3.年龄比例：通常是18-25岁年轻人为主，但中年人也要有一定比例覆盖
4.语音时长：交付客户时，一个录音人的语音时长最佳在30分钟左右，不超过1小时为宜。

⑥合格指标

⑥错误样例
1.音量大小、听不清（语速过快、发音不清）
3. 截幅：声音信号经音频设备重放后多出来的额外的谐波成分.(模拟截幅、数字截幅）
4. 失帧、丢帧（模拟到数字信号后丢失数据信息）
5. 噪音、语音内容中有第二发话人出现
5.变声
6.喷麦
6. 语义不通
7. 重复音、磕巴音导致标注错误

四、语音标注
1、标注类型
• 标注的内容分类
必需项：
语音打点：按句切分，每句保留一定静音段；文字转写；对多人对话语音，还需区分说话人
可选项：噪音标注；拼音标注

2、标注要求
语音打点：

•判断语音是否有效

※ 判断是否为有效或无效语音的原则：

如果一段语音声音极小，小到几乎听不到，则标注为无效。
如果一段语音中只含有噪声或者静音（视为无声音），则标注为无效。
如果只有“嗯”、“啊”、“哇噻”、“喂”等再无其他内容，则标注为无效。
一句话有听不清楚的部分，不能判断内容，转写不出全部正确结果的情况下，则标注为无效。

•语音内容转写标注
※ 数据转写标注人员根据所听到的音频写出内容，力求使文本内容与音频发音内容保持一致。
一般准则：

1.标注内容的完整性要与实际发音一致，不能多字、少字、错字。
◎ 口语不流利时会出现重复、修正、断续、犹豫的现象，统一按照实际发音情况进行转写。
例如：“我是北北京人”“那个那个有没有”
◎口语快速发音时会出现吞音、错音、变音的现象，错音和变音需要按照上下文语义判断正确转写内容。例如：“政府”发音为“正负”，根据语义判断后应该标注为“我要去政府街”。吞音现象为发音不明显，无法断定。标注的时候需要用“{}”符号辅助转写。例如：“走不走{啊}”，其中“啊”字不明显。儿化音同样采取和吞音现象的转写方法。例如：“这{儿}不错”，其中“儿”字不清晰。

2.音频中的阿拉伯数字要转写成汉字形式，如要写成“一二三”，而不是“123”。注意区分“一”和“幺”，“二”和“两”。

3.音频中有英文发音的应转写成相应的汉字或英文。具体分为以下几种情况：
◎ 网址中包含的所有的字母或单词，均为大写。例如：发音内容为”www.pp.com”, 应转写为“三W点PP点COM”。
◎ 发音中包含的英文单词，转写时全部为小写。
◎ 发音中包含的英文字母，转写时全部为大写。
◎ 对于一些专有名词，或者一些英文缩写，转写时全部为大写，例如：WTO、ERP等。

4.如发音清楚，但是语义不确定，比如普通人名等，可以选择同音字转写，但需要保证转写的读音正确。

5.关于添加空格注意事项：
◎ 空格只允许出现在英文单词之间。
◎ 英文字母、中文、中文和英文之间，均不能出现空格。

3、噪音符号解析
•噪音标注

采集环境噪音标注
语音内噪音内容标注
•噪音内容标注项
[h]: 表示人的呼吸声
[k]: 表示人的咳嗽声
[x]: 表示人的笑声
[p]: 表示人的喷嚏声
[z]: 表示人的咂嘴声、喷麦声
[n]: 非人发出的声音，主要是一些偶然出现的噪声，例如:鼠标操作声音，敲击键盘的声音，汽车笛声等。

4、合格指标

按句计算合格率
※ 句准确率=正确的句子数/总句子数
注：一句话里有一个字错，也算该句错
按字计算合格率
※ 字准确率=正确的字数/总字数
业内要求：普通话朗读类通常要求句准确率96%-98%、普通话对话或客服类通常要求句准确率95%-97%、方言和外语通常要求句准确率95%

五、发音词典
1、发音词典作用

2、发音词典格式
发音词典和语种一一对应：一个语种只需要一个发音词典
发音词典里包含的词汇尽可能全，至少包含语音数据里的所有词
OOV：语音数据里有发音词典里没有的词
发音词典的规模通常是5-10万词
一个词对应一个或多个音标（一个词可能有多个音标）
音标通常是国际音标（IPA）或其他类似书写形式（中文通常用拼音表示）

3、发音词典样例

4、发音词典的商务策略
发音词典和语音数据是独立的两套数据
大部分客户会自己持续构建和扩充一个语种的发音词典
有些客户希望我们有发音词典，否则不买我们语音数据
建议：如果我们的发音词典没有或工期慢，可建议客户采购别家发音词典（如果客户担心别家发音词典词汇不全，可以把词表给我们，我们卖只有这些词的语音数据）

本文分享自：数据堂
网址：https://www.datatang.com/

人工智能语音训练数据的制作方式？相关推荐

python篮球-基于Python/Java的人工智能篮球训练系统的制作方法
本发明涉及信息技术领域,尤其涉及一种基于Python/Java的人工智能篮球训练系统. 背景技术: 人工智能的发展已经开始渗透到各行各业.经过发明人的研究和检索,发现作为篮球训练,已经有专利申请.其中 ...
语义分割 patches 训练数据制作
patches 切割在制作训练数据集,或使用训练好的模型对大尺寸图像进行预测时,需要将图像进行切割成 patches patches 的切割可以分为: 离线切割,将切割的 patches 保存至本 ...
行人检测0-05：LFFD-行人训练数据制作以及训练
以下链接是个人关于LFFD(行人检测)所有见解,如有错误欢迎大家指出,我会第一时间纠正.有兴趣的朋友可以加微信:17575010159 相互讨论技术.若是帮助到了你什么,一定要记得点赞!因为这是对我最 ...
DNSPod十问贾宇航：告别“人工智障”？训练数据厂商为AI正名
云测数据总经理,拥有多年To B企业服务市场研究经验.2015年成立Testin云测北美事业部,统筹海外市场及前沿技术研发.2017年创立AI数据采集标注事业部,为人工智能提供高质量.场景化的数据采集 ...
Unity 实现人工智能语音
Unity 实现人工智能语音欧拉密SDK 下载欧拉密基础教学欧拉密 NLI管理系统自定义模块 Unity 模块文件导入项目创建 ASR 代码模块 NluApiSample ASR 语音合成 ...
深度学习训练中关于数据处理方式--原始样本采集以及数据增广
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/SMF0504/article/details/78695908 好久没有写博客,一直想重新调整自己的 ...
人脸识别0-02：insightFace-模型训练与训练数据制作-史上最全
以下链接是个人关于insightFace所有见解,如有错误欢迎大家指出,我会第一时间纠正,如有兴趣可以加QQ:944284742相互讨论技术. 人脸识别0-00:insightFace目录:https ...
基于Movingmnist结构制作predrnn++的训练数据过程记录
Alpha pose数据准备部分可以看我之前的[文1]: AlphaPose姿态估计只输出骨架源码修改相关记录关于PredRNN++的内容见[文2]: predRNN++代码实战 tensor ...
网络训练需要的混合类型数据的组织方式
在准备神经网络模型需要的训练数据时,经常需要构造顺手的数据形式,如下特征1 特征2 特征3 - 特征n 标签 37.584 37.632 38.045 - 38.902 'a' 33.216 39. ...
【DOTA】制作Efficientdet训练数据
[DOTA]制作Efficientdet训练数据记录一下用Efficientdet训练DOTA数据集前的数据准备工作文章目录 [DOTA]制作Efficientdet训练数据 1.图片整理 2.生 ...

人工智能语音训练数据的制作方式？

人工智能语音训练数据的制作方式？相关推荐

最新文章

热门文章