testkuaibao|软件测试自学公众号

一、引言

小编新接触语音SDK项目,SDK无UI、底层调用多个C++算法库、提供的是AI服务。语音AI项目,识别效果是至关重要的一环,识别效果评测也是一项测试重点。为了制定一个专业、全面的效果评测的方案,小编学习了相关知识,对方案制定有了初步思路。希望对测试小伙伴有所帮助~~(●—●)

二、ASR流程、系统结构、评测指标及评测模型

1、语音识别(Automatic Speech Recognition,ASR)

语音识别,也被称自动语音识别,所要解决的问题是让机器能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来,相当于给机器安装上“耳朵”,使其具备“能听”的功能。

语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别的目标是将人类的语音内容转换为相应的文字。

2、语音识别基本流程、系统结构

语音识别原理的4个基本流程:“输入——编码——解码——输出”

语音识别系统本质上是一种模式识别系统,主要包括信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索四部分。

3、ASR评测模型

评测模型,各家评测模型殊途同归。下图参考为例:

首先要有测试的数据集,测试的数据集也是有一段音频和标注。标注的就是标注音频内容,说的是什么。注意:评测的数据集和训练的数据集是严格隔离的。

准备好数据集后,SDK读取数据集中的音频(批量评测),每条音频都严格按照待识别效果评测模块的实际逻辑流程,得到每条音频的识别结果,最后得到这个数据集的指标衡量的统计结果。

4、语音识别(ASR)评测指标

语音识别(ASR)评测指标:WER(字错误率)和SER(句错误率)

(1). WER 字错误率

为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。

公式为:

Substitution——替换(错误识别)

Deletion——删除(漏识别)

Insertion——插入(多识别)

N——单词数目(标注中含有字数总和)

结果比较示例:

比如下图是某个小功能需求更换模型参数识别效果评测,其中一个测试集的WER统计。

(2). SER句错误率

SER表述为句子中如果有一个词识别错误,那么这个句子被认为识别错误。ASR句子识别错误的个数,除以音频中句子总数即为SER

其计算公式如下所示:

三、ASR评测影响因素

1、语⾳识别准确率影响因素

影响到准确率的因素逐渐增多,其中主要因素有以下几种:

(1). 说话人的口音、多语种混合识别(Code-switching,如中英混合等)等问题仍对识别性能影响较大。

(2). 语音方式:目前人机对话场景下,讲话相对会收着说,吐字相对清晰,识别精度会有保证。但是自然对话场景下,断断续续(停顿造成的断句错误)、吞音、咬字不清、语速快慢等问题对识别效果有影响。

(3). 语音场景(环境):语音识别近讲、远讲场景,环境噪音、混响等问题对识别效果影响很大。

(4). 识别领域:针对特定场景,需要预先对语言模型进行优化,确保领域内的专有名词,语言习惯都能够正确识别。

上述四项中,前三项与声学模型相关,第四项与语言模型有关。

2、语⾳识别评测影响因素

(1). 声音来源(人声 录音声 广播声 耳机 麦克风 单/双通道/立体声)

(2). 语种分类(普通话 方言 英语 小语种 混合语言)

(3). 语音内容/领域(日常话语 非日常话语)【不同行业 不同场景】

(4). 音色(男音 女音)【不同年龄段的男/女音:儿童 少年 中年 老年】

(5). 环境(室内 室外 公共场所 安静 嘈杂 回音)

(6). 音量(分贝值大 小 时大时小)

(7). 语音方式(哼唱 断断续续 正常说话 咬字不清)

(8). 语速(快 中等 慢 时快时慢)

(9). 录入语音时长(0秒 1秒 1分钟内 >1分钟)

(10).对话方式(间隔 连续 单人 多人)

(11).特殊发音(比如普通话中sh与s ping与pin l与n f与h)

四、ASR评测方案制定

评测方案具体设计流程

(1). 了解业务逻辑、实现流程,和针对具体评测项目的主流方法;

(2). 设计专项评测方案;

(3). 组内根据方案设计文档进行讨论、补充;与相关项目组成员组会沟通,确保所有内容的认知达成一致,且对评测方案认可通过;

(4). 完成专项评测方案,并撰写评测报告;

(5). 根据需求变更或者版本变更定期更新维护专项评测。

1、ASR评测方案设计——确定测试场景(简单举例)

考虑评测的各种影响因素,需要先确定某些维度(下例),制定一个测试场景评测:

确定:语种分类(普通话)、声音来源(人声录音)、对话方式(单人)、语音内容(日常话语)、音色(青年女音)、语音方式(正常说话)、语速(中等)、录入语音时长(2分钟)

距离 声源和麦克风之间的距离

角度 声源和麦克风之间的角度

中等语速 每分钟字数大约150左右

2、ASR评测方案设计——确定测试标准(简单举例)

3、ASR评测方案设计——制备输⼊语料、选取数据集

目前现状:标注数据集,数量有限,扩充、更新慢;

数据集要反映用户的实际情况,做识别效果评测,需要更多、贴近用户的数据集;

评测集拓展:新的语料来源:自己录制;调研用户top N的数据内容类型;收集⾼频的badcase;

4、ASR评测方案执行——过程设计

小编所在项目的ASR评测需要基于语音SDK进行,具体执行方案还在修订,遇到的问题和解决方案,小编在实践总结后再总结分享~~

注:参考

https://my.oschina.net/u/4594489/blog/4441264

https://www.zhihu.com/question/53001402/answer/148537722

MTSC2019

来源:搜狗测试,如有侵权请联系删除

觉得文章不错就点个在看呗,转发就更好了

评测方案设计之用户场景设计

软件测试实用工具之手机的心电监护仪PrefDog

作为测试人员,如何理解线程同步异步

这五个新自动化测试框架,你可以了解一下

软件测试技能之查看log日志

语音识别软件测试面试,软件测试之ASR(语音识别)评测学习相关推荐

  1. 手机软件测试系统,软件测试之手机软件系统测试用例设计方法.doc

    软件零碎测试用例计划举例 目次 TOC\o"1-3"\h\z\uHYPERLINK\l"_Toc117478167"一.等价类剖析法PAGEREF_Toc117 ...

  2. 软件测试之语音识别(ASR)测试

    软件测试之语音识别(ASR)测试 **写在前面:测试不是一种目的,而是一种保证软件质量的手段** 一.语音识别(ASR)评估指标 在测试语音识别的过程中,衡量识别内容的准确性,一般通过如下指标进行评估 ...

  3. 英文语音识别_英文语音识别软件_英文语音识别翻译 - 云+社区 - 腾讯云

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 语音识别功能是否支持英文识别? 2. 语音识别是否支持离线命令词识别?3 ...

  4. 软件测试之MySQL数据库必知必会,面试必备

    软件测试之MySQL数据库必知必会,面试必备! 一.前言 1.1 数据库概念及分类 1.2 SQL语句概念及分类 1.3 MySQL数据类型 二.常用SQL语句 2.1 数据库相关SQL 2.2 表相 ...

  5. 《Google软件测试之道》- Google软件测试介绍

    <Google软件测试之道>- Google软件测试介绍 2015-05-21 目录 1 质量与测试   2 角色   3 组织结构   4 爬.走.跑   5 测试类型   相关链接 与 ...

  6. 软件测试密码修改教程,软件测试之用户注册和密码修改测试用例设计

    软件测试之用户注册和密码修改测试用例设计 发表于:2009-03-05来源:作者:点击数: 软件测试技术导航 软件测试技术 : 软件测试工程师 测试用例 功能测试 测试管理 缺陷管理 手机测试 自动测 ...

  7. 软件测试之软件测试的分类上

    软件测试之软件测试的分类 1. 什么是软件测试 预期结果和实际结果做对比 2.软件测试的分类 按照方法分类 黑盒测试:通过对于输入和输出的检查判断预期结果和实际结果是否一致 白盒测试:通过对代码的检查 ...

  8. 嵌入式软件测试与一般软件测试之异同研究

    嵌入式软件测试与一般软件测试之异同研究https://yq.aliyun.com/articles/130556 嵌入式软件测试与一般软件测试之异同研究http://www.51testing.com ...

  9. ASR 语音识别(VOSK)API资源/DEMO

    jiaying系列 网页版演示地址:ai.moneymeeting.club ASR 语音识别(VOSK)API资源/DEMO 注:VOSK将下线,改为NEMO,请移步:https://blog.cs ...

  10. python语音识别库kaldi_pytorch使用pytorch-kaldi实现ASR语音识别 - pytorch中文网

    pytorch-kaldi是开发最先进的DNN/RNN混合语音识别系统的公共存储库.DNN部分由pytorch管理,而特征提取,标签计算和解码使用kaldi工具包执行.前面我们已经介绍了Linux/W ...

最新文章

  1. Web会话安全分析工具ProxyStrike
  2. 从面试蚂蚁失败反思-缓存穿透技术
  3. R语言观察日志(part12)--关于.Rprofile文件
  4. 密码学专题 随机数文件
  5. SQL Server 索引结构及其使用(三)(转)
  6. Git笔记(1) 版本控制
  7. Python安装以及简单使用
  8. as3中强制垃圾回收
  9. 使用Canvas基于手势可以使树秋千
  10. 数据增强 | 小综述
  11. 如何写好产品需求文档?
  12. 强化学习中的各类算法
  13. skyline 系列 1 - 简介、下载
  14. matlab中阶跃函数算卷积,与冲激函数、阶跃函数的卷积.ppt
  15. PLM项目目标及阶段
  16. 两个int类型数据交换的神级操作
  17. 限制Editext输入字节长度
  18. Recurrent Neural Networks(RNN) 循环神经网络初探
  19. 2013江苏计算机二级vfp试题,2008年春季江苏省计算机等级考试二级VFP考试试题(含答案)...
  20. surface装双系统后在移动硬盘上装ubuntu系统

热门文章

  1. 人口各省预测模型matlab_流体力学/医学学科交叉:感染人口预测模型
  2. 霍尼236主机说明书_霍尼韦尔236系统中文说明.DOC
  3. php 快递100接口
  4. PyQt5教程(七)——实现QQ登录界面(一、Qt Designer创建界面,Eric6创建项目)
  5. 阿里视频播放vodPlayer.setMuteMode(true) 设置静音失效的解决办法
  6. 【机器人学导论知识点+习题笔记2.1~2.13】(间歇性更新)
  7. 浮点数计算机组成原理问题,计算机组成原理习题及答案
  8. Windows 98 SE
  9. sqlplus基本使用
  10. 如何连接到sqlplus