最近这几天有相关的语音转文字的测试,主要是针对几个供应商提供的接口,然后对识别结果进行校对和评估,来确认哪个供应商提供的品质和性价比等更好。

然后自学了下语音转文字的一些测试方法,记录下来,方便使用。

一、语音识别(ASR)评估指标

在测试语音识别的过程中,衡量识别内容的准确性,一般通过如下指标进行评估

WER(Word Error Rate,词错率)

定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER

WER=(S+D+I)/N

S:substitution,替换

D:Deletion,删除

I:Insertion,插入

N:标准词序列中词的总个数

(S+D+I)=识别出来的词序列与标准的词序列之间的编辑距离

注意:因为有插入词(Insertion),所以可能会出现WER>1的情况,不过,WER>1时,表明识别出来的词序列和标准的词序列相差很大,识别效果特别差

SER(Sentence Error Rate,句错率)

定义:句子中如果有一个词识别错误,那么这个句子被认为识别错误,句子识别错误的个数,除以总的句子个数即为SER

SER=SE/N

SE:识别出来的序列中,识别错误的句子个数(即WER!=0的句子个数)

N:标准序列中总句子个数

二、语音识别(ASR)思路

(1)、语音识别的测试点主要包括如下几点:

i.输入测试语音

(中间过程:语音识别模块接收到测试语音,执行语音转文字操作,并将识别文字输出)

ii.验证识别文字内容的准确性

iii.语音识别耗时

(2)、 测试语音的输入,主要包括以下几个方面:

①语音输入离拾音设备的距离:近距离、远距离

②拾音设备:移动端(安卓、IOS)原生麦克风、PC端原生麦克风、日常用耳机麦克风、专业设备麦克风(罗技等)

③语音输入与拾音设备的相对位置:正对拾音口,背对拾音口

④语音输入的环境:办公环境、会议室环境

⑤语音输入时的语速:正常语速、语速较快、语速较慢、时快时慢、断断续续

⑥语音输入时的音量:正常音量、音量较大、音量较小,时大时小

⑦语音输入时的音色:男声、女声

⑧语音输入的音频类型:自然人声、录音、广播、变声等

(3)、测试识别内容,主要包括以下几个方面:

①支持识别的语种:普通话、英文、方言等

②支持的应用场景:日常对话、尽职调查、娱乐访谈等

③支持的对话模式:单人对话,多人对话,同一时间只有一个人说话,同一时间多人一起说话

④覆盖的词库内容:根据应用场景,是否包含了应用场景(比如金融、娱乐领域)对应的词库训练

(4)、验证识别内容的准确性

统计识别文字的WER、SER指标

(5)、关注语音识别耗时

①短语音的识别耗时

②长语音的识别耗时

三、WER、SER指标的计算

①计算识别的词序列与标准的词序列之间的编辑距离

②计算WER

③计算SER

asr语音转写_【AI模型测试】语音转文字ASR的测试方法学习相关推荐

  1. 谈谈机器学习AI模型测试与评估方法分析

    随着数字化转型与人工智能发展,AI应用软件层出不穷,人们虽然理解人工智能趋势,但是,企业往往很难接受这样AI应用软件,其中质疑点主要有: 预测或识别的准确性 模型相关性 鲁棒性 安全性 数据隐私 性能 ...

  2. 【语音之家】AI产业沙龙—语音技术在贝壳的应用

    由CCF语音对话与听觉专委会 .中国人工智能产业发展联盟(AIIA)评估组 .贝壳找房语音团队.语音之家.北京希尔贝壳科技有限公司共同主办的[语音之家]AI产业沙龙-语音技术在贝壳的应用,将于2022 ...

  3. asr标注工具_【AI模型测试】语音识别ASR的结果校对

    语音转文字(ASR)识别完毕后,目前对于各家的结果都是纯手工的计算,标注错别字和漏识字,感觉到很费时费力,少量的还可以,大量的就有点太费劲了. 所以,为了解放自己的劳动力,让代码帮忙做更多的事情,所以 ...

  4. asr语音转写_搜狗智能录音笔C1正式上市 语音转文字准确率达95%

    中新网3月19日电 3月18日,搜狗旗下全新智能硬件--搜狗智能录音笔C1在搜狗商城.京东等平台正式发售.在当天的产品沟通会上,搜狗公司CTO杨洪涛表示,搜狗智能录音笔C1集成了搜狗的核心AI技术,能 ...

  5. 点钞机语音怎么打开_抖音内测语音直播!支持8人在线聊天,一文教你如何玩?...

    这两天,抖音又传来新消息,语音直播功能已经开始内测,一些安装了内测版抖音的朋友已经可以在"开直播"功能下看到它的入口了. 这个功能对于广大用户来说是多了一个有意思的新玩法,语音直播 ...

  6. asr语音转写_语音识别(ASR)--语音转文字

    语音识别(Automatic Speech Recognition)是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语.语音识别技术就是让机器通过识别和理解过程把语音信号转 ...

  7. java junit 怎么写_使用JUnit测试java代码

    标签: Junit 单元测试实验报告 一.实验环境 MyEclipse2014.Junit4.10 二.实验目的 学会单元测试,在MyEclipse中进行Junit测试 三.实验步骤 1.写出要测试的 ...

  8. Google开源新AI模型,语音区分准确率92%创新高 | 论文+GitHub

    雷刚 发自 凹非寺  量子位 报道 | 公众号 QbitAI 一个AI音箱,认得每一个说话的对象. 所谓"千人千面",此之谓也.小孩说话,它就依照小孩的喜好和模式,老人票友,它的智 ...

  9. blp模型 上读下写_读写模型整理笔记

    读模型 1.主键读 最常见的读模型,说是主键,其实也包括其它索引键,或者联合主键. 常见实现:hash,时间复杂度可以接近 O(1):B 树或变种:时间复杂度接近 O(log(n)). 关于 B 树和 ...

最新文章

  1. 【Linux】【服务器】 CentOS7下关机和重启命令
  2. 【NLP实战】Task1 数据集探索
  3. node.js 函数外定义的变量 函数内赋值后为什么不能带出_(44)python少儿编程之函数(五)--- 作用域...
  4. 达摩院十大科技趋势发布:2020 非同小可!
  5. 能用c语言编写图形界面吗,「分享」C语言如何编写图形界面
  6. 产品经理专业知识50篇(十二)-抖音训练营项目实战(知识付费MVP产品模型)
  7. 【ElasticSearch】Es 源码之 HttpServerTransport 源码解读
  8. 计算机对身体有哪些危害,经常玩电脑的危害 经常玩电脑对身体有哪些伤害
  9. logstash multiline
  10. GeoServer设置栅格影像的发布样式
  11. ArcGIS for Desktop入门教程_第六章_用ArcMap制作地图 - ArcGIS知乎-新一代ArcGIS问答社区...
  12. 小猿圈web分享-一个web全栈工程师的面试总结
  13. STM32F429+W25Q256+TouchFGX
  14. 金融风控建模评分卡系列:机器学习特征选择方法
  15. ArcGIS网络分析之中国邮递员问题
  16. 深入理解Linux文件系统与日志分析
  17. POJ原题测试数据合集+使用方法
  18. Oracle中根据日期范围进行查询,查询大于某一天的数据,查询小于某一天的数据
  19. rails3 新特性 和 RJS评论
  20. 解析产品开发失败的5个根本原因

热门文章

  1. LDheatmap | SNP连锁不平衡图(LD)可视化,自己数据实现版!
  2. 嵌入式软件开发杂谈(7):静态分析工具Pclint与source insight的整合
  3. 【深度学习系列】(二)--An overview of gradient descent optimization algorithms
  4. vim 自带教程命令_vim教程和命令示例
  5. JVM 问题排查分析上篇(调优经验)
  6. Cadence Orcad Capture CIS更换元器件之Link Database 功能介绍图文教程及视频演示
  7. excel 2010 多个窗口打开
  8. linux mono jexus性能,docker运行jexus+mono爬坑记,
  9. Presto时间日常处理:
  10. java在程序运行过程中_Java内存管理-程序运行过程(一)