语音情感识别中的音频检测算法学习

引言：目前大体学习多模态语音情感识别，对语音数据的训练过程有个初步的了解，但对于原始语音音频生成具体的数据特征、以及如何获取有些疑惑，因此通过这篇文章来总结语音情感识别中的音频特征检测算法。

音频检测的关键技术-MFCC特征提取

为了从音频信号中提取语音信息，目前使用的是普遍用于分析音频信号的mfcc值。MFCC（梅尔频率倒谱系数），梅尔频率是基于人耳听觉特性提取出来的，和赫兹频率呈现一个非线性对应关系。梅尔频率倒谱系数是利用好梅尔频率和赫兹频谱关系计算得出的赫兹频谱特征，其主要应用于语音数据的特征提取。

如图显示MFCC提取语音特征的过程，从输入语音进行傅里叶变换，从中得到频谱，然后通过梅尔滤波器进行倒谱分析，在得到MFCC系数。

具体步骤是：对语音信号进行分帧处理；在用周期图法来进行功率谱估计；接着对功率谱用Mel滤波器进行滤波，计算每个滤波器里的能量；同时对每个滤波器的能量取log；在进行DCT变换；保留DCT的第2-13个系数，去掉其他。

具体可以参考：MFCC特征提取教程 - 李理的博客http://fancyerii.github.io/books/mfcc/

音频检测的关键技术特征提取-DBN

MFCC是显示语音浅层的特征，只要通过语音参数的分析就可以得到，但是不同人说话的声音特征还体现在其他方面，所以通过神经网络中的特征层BottleNeck进行特征提取。

其他

通俗来说获取音频数据中就是将音频中的蕴含的音频、谐波、音量等信号转换为具体的语音特征。

音频特征生成：

音调：即声带产生的波形会随着我们的情绪而变化。自相关的中心剪裁帧算法估计音调信号。

谐波：在愤怒的情绪状态或紧张的讲话中，除了音调之外，还有其他激励信号。这种额外的激励在频谱中表现为谐波和交叉谐波。我们基于中值的滤波器计算谐波。

音量（语音能量）：由于语音信号的能量与其响度有关，我们可以用它来检测特定的情绪。比如“愤怒”信号比“悲伤”信号在能级上更强。使用RMSE来计算，RMSE逐帧计算，我们将平均偏差和标准偏差作为特征。

静音：这个数量与我们的情绪直接相关；例如，我们在激动时往往会说得很快（比如，生气或高兴，导致停顿值很低）。

中心矩：使用信号振幅的平均值和标准偏差来合并输入的“汇总”信息。