语音客观评价标准一般分为语音质量评价和语音可懂度评价,这里先介绍语音质量评价。提起语音质量评价,大家第一个想到的肯定是信噪比这个十分常用的评价标准以及它的相关衍生标准,这里总结一些常用的语音质量评价标准供大家参考和使用。

基于SNR的语音质量评价标准

SNR和分段SNR

基于SNR的评价标准想必大家都已经有所了解, 我们首先给出信噪比的定义

但是我们知道语音是短时平稳性的,在语音长度较长的情况下对整体按上式求信噪比,于是有了分段信噪比(segmental SNR),其计算公式为:

其中L为语音长度,M为语音帧数,N为语音帧长度,x(n)为原始语音,x_hat(n)为增强后的语音。但是上述的计算方法会出现一个问题,那就是当语音静音部分较多时会降低信噪比的值,为了解决这一问题可以使用VAD检测的方法在只有语音段才计算信噪比。另外一种方法就是限制信噪比在一定范围内如[-10, 35dB]这样就不需要额外进行VAD检测。

频域SNR

值得一提的是SNR不仅可以在时域进行计算也可以在频域进行计算,频域分段信噪比的计算公式为:

其中K为频带数目,Wj为每个频带的权重。权重可以通过回归分析得到(有兴趣的可以搜索frequency-variant objective measures),另一种方法就是查表,如下表所示。

基于LPC系数的语音质量评价标准

有的算法针对干净语音和增强语音信号的所有LPC模型之间的差异,提出了客观评价标准。我们将语音用p阶全极点模型来表示,即

其中ax就是这节的主角LPC系数,Gx是噪声的激励。

对数似然比距离

那么我们就可以使用对数似然比(Log-Likelihood Ratio, LLR)来评估语音质量,其计算公式为:

同样的将其扩展到频域

其中ax是原始语音的LPC系数,ax_hat是增强后语音的LPC系数,Rx是原始语音LPC系数的自相关矩阵。Ax(ω)对应的是频谱。LLR可以理解为增强信号和原始号的预测残差的能量之比。

Itakura–Saito距离

除了使用LLR之外还有另外一个测度Itakura–Saito, IS,其计算公式为:

其中Gx为增益,计算公式为:

r^T_x是自相关矩阵的第一行。这种方法有个缺点增强信号和原始信号频谱的差异会被这个算法惩罚,但心理声学研究表明频谱水平的差异对质量的影响最小。

倒谱距离

提到LPC不得不让人联想到倒谱,倒谱系数可以从LPC系数递归得到,即

然后我们就可以使用基于倒谱的测度

基于感知的语音质量评价标准

语音质量到底如何主观感受是最重要的,许多工作从听觉机理的角度去对语音质量进行评价。

加权谱倾斜测度

心理声学研究表明,人们对共振峰频率不同的成对元音感觉最敏锐。加权谱倾斜测度(Weighted Spectral Slope, WSS) 首先通过一阶差分来计算每个频段的频谱斜率

然后根据频段是在谱峰值附近还是在波谷附近,峰值是否是最大峰值等条件对谱斜率进行加权,加权公式为:

其中max下标表示全局最大值,locmax表示离其最近的最大值。最后WSS测度可以表示为:

PESQ

PESQ可谓是无人不知,无人不晓虽然它只能检测8000/16000窄带范围内的语音质量,但在很多论文中它被用来评估处理后的语音质量。PESQ的具体细节比较多,如果要写的话需要单独开一篇文章来介绍,因此这里只给出它的流程图。想要了解更多细节可以查看代码的注释。

总结

大多数语音客观评价标准都关注在语音信号的失真程度,较少从人类的听觉去分析,不同评价标准和真实情况的相关系数如下表所示(最后的Composite方法是把上面几种方法加权综合起来得到一个最终的评价结果)。语音评价除了云质量外还有可懂度的评价,它们会在后续的文章中介绍。


本文相关代码是Matlab代码,公众号菜单栏点击More->Code即可获取


参考文献:

[1]. Speech Enhancement Theory and Practice

matlab语音信号的变速_十种客观评价语音质量的方法相关推荐

  1. 十种客观评价语音质量的方法

    目录 1. 基于SNR的语音质量评价标准 1.1 SNR和分段SNR 1.2 频域SNR 2. 基于LPC系数的语音质量评价标准 2.1 对数似然比距离 2.2 Itakura–Saito距离 2.3 ...

  2. matlab语音信号分析实验报告,DSP实验二 语音信号分析与处理,南京理工大学紫金学院实验报告,信号与系统...

    实验二语音信号分析与处理 学号姓名 注:1)此次实验作为<数字信号处理>课程实验成绩的重要依据,请同学们认真.独立完成,不得抄袭. 2)请在授课教师规定的时间内完成: 3)完成作业后,请以 ...

  3. 利用函数wavread对语音信号进行采样_语音识别第4讲:语音特征参数MFCC

    一.MFCC概述[1] 在语音识别(SpeechRecognition)和话者识别(SpeakerRecognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency ...

  4. 基于matlab 的语音信号分析和处理,基于matlab_的语音信号分析和处理

    基于matlab_的语音信号分析和处理 1 基于MATLAB 的语音信号分析和处理 福建师范大学协和学院 信息技术系 电子信息科学与技术专 124122006028 王祯飞 指导老师 黄小芬[摘要]本 ...

  5. matlab gui语音信号去噪的原理,多媒体实验报告语音信号的去噪增强处理

    一.实验目的●了解计算机存储信号的方式以及语音信号的特点.●掌握谱减法实现语音去噪增强的原理.二.实验设备条件●计算机(带话筒).●Matlab.三.实验要求1.利用windows自带的录音机录制一段 ...

  6. 利用函数wavread对语音信号进行采样_语音信号处理相关知识

    本文的初衷是为后续模型介绍和论文速览提供一个过渡,核心价值在于介绍一些较为基础的概念,以使得后文中如遇到不太理解的概念通过本文查证 一.语音的表示 语音的表示形式本质为波形,从语音到波形的理解可以想象 ...

  7. 利用函数wavread对语音信号进行采样_统计与自适应信号处理知识点总结-期末考试...

    图片不好上传,需要完全版本请付费咨询我! 信号包括:确定性信号和随机信号. 确定性信号,可以清楚的用数学关系描述的信号.也就是说可以用过去的观察来预测未来值. 随机信号,以不可预见的方式实时产生,他们 ...

  8. 华为语音助手怎么关闭_一直觉得华为语音助手挺鸡肋的,直到用了这个功能!真香...

    虽然一直知道华为有手机语音助手这个功能,但是一直没怎么用过,这阵子闲着在家,觉得无聊把语音助手召唤出来玩一玩,没想到,华为的语音助手还真挺好用的!今天小编就来带大家玩转华为的语音助手! 一.语音助手开 ...

  9. 04|主观与客观评价音频质量

    目录 引言: 一. 音频主观评价方法 MUSHRA 介绍 特点: 应用MUSHRA例子: 常用的主观评价指标: 二. 音频客观评价方法 有参考评价: PESQ与POLQA PESQ的算法步骤: not ...

最新文章

  1. 在WPF的DATAGRID中快速点击出现在ADDNEW或EDITITEM事务过程不允许DEFERREFRESH
  2. httpd 处理模型
  3. php反序列化漏洞 freebuf,最全的PHP反序列化漏洞的理解和应用
  4. 如何避免JS内存泄漏?
  5. 2016.05.07华为网盘-将会暂停服务的网站一览 - 做好数据迁移的准备哦
  6. 2ASK调制解调实验
  7. 关于磁力计偏置值的标定实践
  8. cad统计面积长度插件vlx_CAD线段长度计算插件
  9. 中职计算机说课稿三篇,中职计算机说课稿三篇.docx
  10. J1800N-D2H主板升级bios,安装Fedora20,并搭建开发环境
  11. React hook必须要知道的知识: useEffect的cleanup
  12. 不可不知的国际贸易术语
  13. java第十一次作业
  14. Norgen提取试剂盒丨血浆/血清循环和核外RNA提取试剂盒
  15. ActivityManagerService解读之Activity启动时间闲聊--Android Framework层时间计算介绍
  16. 【Java编程】创建人类Person
  17. Java实现QQ简易登录界面
  18. 排列组合公式 与24点编程游戏
  19. 微信小程序引入阿里巴巴彩色图标字体(Symbol)
  20. 云南地震救援面临哪些困难

热门文章

  1. 秋冬季节来临,VR全景如何玩转室内项目?
  2. 电脑装双系统------计算机经验
  3. html 设置流星效果,如何使用html实现流星雨的效果(代码)
  4. DOM与BOM与Echarts
  5. Sequel Pro意外退出问题解决
  6. IC验证培训——SV Interface 入门指导
  7. emlog mysql文件,emlog数据库操作类
  8. 【渗透测试框架】Metasploit-Framework(MSF)安装与使用
  9. 数据仓库-BI商业智能
  10. 说说MySQL中的Redo log Undo log都在干啥