【论文阅读】智能设备中基于深度特征的语音情感识别

Badshah A M , Rahim N , Ullah N , et al. Deep features-based speech emotion recognition for smart affective services[J]. Multimedia Tools and Applications, 2017.

文章目录

摘要
主要创新点
本文的主要工作
数据集
具体方法
- 原始数据
- 网络结构
- 实验方法
- - 实验一：探究CNN性能——AlexNet
  - 实验二：带噪语料库
总结

摘要

语音情感识别具有包括智能医疗、自主语音响应系统、急救中心评估呼叫者情景严重性等多种应用。本文提出了一种基于深度卷积神经网络的方法。通常CNN使用方形的卷积核，并且在不同层使用池化操作，这些操作均适合于2D的图像数据。然而在语音频谱图中，信息使用不同的编码方式，x轴表示时间，y轴表示信号频率，振幅由频谱图中特定位置的强度表示。为了从频谱图中分析语音信号，本文提出使用不同形状的矩形卷积核，以及在矩形范围中使用最大池化的方式以提取特征。本方案在EmoDB库和韩语语音数据库上有效学习了语谱图的判别特征，实现了比许多现有技术更好的性能。

主要创新点

在kernel_size、pool_size、strides等设置上改为矩形，并且模仿了AlexNet的结构进行实验

本文的主要工作

提出了一种使用矩形核和修正池化策略的CNN结构
评估了提出网络在有噪环境下的性能，并与对照网络进行对比

数据集

EmoDB数据库 7种基本情绪
Korean real calls from emergencies using phones

具体方法

原始数据

一维时间序列转换为语谱图处理

直接将语音转换为语谱图
以overlap：50%将完整的语谱图分割，由16×256变为256×256

网络结构

（图片上有明显标注错误，晕死）

Layer	Shape	n_kernel	kernel_size	stride_size	Activation	Method
conv1	16×256, resized to 256×256	96	(15, 3)	(3, 1)	ReLU
pool1			(3, 1)	(2, 1)		max
conv2		256	(9, 3)	(1, 1)	ReLU
pool2			(3, 1)	(1, 1)		max
conv3		384	(7, 3)	(1, 1)	ReLU
pool3			(3, 1)	(1, 1)		max
conv4		384	(7, 1)	(1, 1)	ReLU
pool4			(3, 1)	(1, 1)		max
conv5		256	(7, 1)	(1, 1)	ReLU
pool5			(3, 1)	(2, 1)		max
fc1		4096				dropout=0.75
fc2		4096				dropout=0.75
fc3		7			Softmax

实验方法

75%训练数据，25%测试数据，五倍交叉验证
batch_size = 128, epochs = 10
initial learning rate = 0.01, with a decay of 1 after every 10 epochs（每10个周期衰减一次）

实验一：探究CNN性能——AlexNet

square shaped kernels	rectangular shaped kernels

总体来说，性能变化不大。但在happy、boredom等易混淆情绪上的识别率明显提高。

实验二：带噪语料库

语料库标签分为“正常”和“有情感”两种
训练模型并进行识别，与SVM、Decision Tree、Random Forest、AlexNet进行对比。

总结

文章认为矩形核能够更好的拟合语谱图的形式。
个人认为本文章很普通，模型上不具有太大的学习性。。。但其中一个想法很好，就是使用带噪语料库进行实验，这在其他论文中是不常见的，不过这也可能是作者凑篇幅的产物hhhh，个人意见，请勿上纲上线，不喜勿踩。