matlab语音信号的变速_十种客观评价语音质量的方法

语音客观评价标准一般分为语音质量评价和语音可懂度评价，这里先介绍语音质量评价。提起语音质量评价，大家第一个想到的肯定是信噪比这个十分常用的评价标准以及它的相关衍生标准，这里总结一些常用的语音质量评价标准供大家参考和使用。

基于SNR的语音质量评价标准

SNR和分段SNR

基于SNR的评价标准想必大家都已经有所了解, 我们首先给出信噪比的定义

但是我们知道语音是短时平稳性的，在语音长度较长的情况下对整体按上式求信噪比，于是有了分段信噪比(segmental SNR)，其计算公式为：

其中L为语音长度，M为语音帧数，N为语音帧长度，x(n)为原始语音，x_hat(n)为增强后的语音。但是上述的计算方法会出现一个问题，那就是当语音静音部分较多时会降低信噪比的值，为了解决这一问题可以使用VAD检测的方法在只有语音段才计算信噪比。另外一种方法就是限制信噪比在一定范围内如[-10, 35dB]这样就不需要额外进行VAD检测。

频域SNR

值得一提的是SNR不仅可以在时域进行计算也可以在频域进行计算，频域分段信噪比的计算公式为：

其中K为频带数目，Wj为每个频带的权重。权重可以通过回归分析得到(有兴趣的可以搜索frequency-variant objective measures)，另一种方法就是查表，如下表所示。

基于LPC系数的语音质量评价标准

有的算法针对干净语音和增强语音信号的所有LPC模型之间的差异，提出了客观评价标准。我们将语音用p阶全极点模型来表示，即

其中ax就是这节的主角LPC系数，Gx是噪声的激励。

对数似然比距离

那么我们就可以使用对数似然比(Log-Likelihood Ratio, LLR)来评估语音质量，其计算公式为：

同样的将其扩展到频域

其中ax是原始语音的LPC系数，ax_hat是增强后语音的LPC系数，Rx是原始语音LPC系数的自相关矩阵。Ax(ω)对应的是频谱。LLR可以理解为增强信号和原始号的预测残差的能量之比。

Itakura–Saito距离

除了使用LLR之外还有另外一个测度Itakura–Saito, IS，其计算公式为：

其中Gx为增益，计算公式为：

r^T_x是自相关矩阵的第一行。这种方法有个缺点增强信号和原始信号频谱的差异会被这个算法惩罚，但心理声学研究表明频谱水平的差异对质量的影响最小。

倒谱距离

提到LPC不得不让人联想到倒谱，倒谱系数可以从LPC系数递归得到，即

然后我们就可以使用基于倒谱的测度

基于感知的语音质量评价标准

语音质量到底如何主观感受是最重要的，许多工作从听觉机理的角度去对语音质量进行评价。

加权谱倾斜测度

心理声学研究表明，人们对共振峰频率不同的成对元音感觉最敏锐。加权谱倾斜测度(Weighted Spectral Slope, WSS) 首先通过一阶差分来计算每个频段的频谱斜率

然后根据频段是在谱峰值附近还是在波谷附近，峰值是否是最大峰值等条件对谱斜率进行加权，加权公式为:

其中max下标表示全局最大值，locmax表示离其最近的最大值。最后WSS测度可以表示为：

PESQ

PESQ可谓是无人不知，无人不晓虽然它只能检测8000/16000窄带范围内的语音质量，但在很多论文中它被用来评估处理后的语音质量。PESQ的具体细节比较多，如果要写的话需要单独开一篇文章来介绍，因此这里只给出它的流程图。想要了解更多细节可以查看代码的注释。

总结

大多数语音客观评价标准都关注在语音信号的失真程度，较少从人类的听觉去分析，不同评价标准和真实情况的相关系数如下表所示(最后的Composite方法是把上面几种方法加权综合起来得到一个最终的评价结果)。语音评价除了云质量外还有可懂度的评价，它们会在后续的文章中介绍。

本文相关代码是Matlab代码，公众号菜单栏点击More->Code即可获取

参考文献：

[1]. Speech Enhancement Theory and Practice