SER 语音情感识别-论文笔记3

《SPEECH EMOTION RECOGNITION USING SEMANTIC INFORMATION》
2021年ICASSP
Code available here: https://github.com/glam-imperial/semantic_speech_emotion_recognition

文章目录

SER 语音情感识别-论文笔记3
前言
一、数据集
二、特征
三、模型方法
- 1. 语义抽取器
- 2. 副语言抽取器
- 3. 融合策略
四、识别结果
- 1. 实验参数设置
- 2. 目标函数
- 3. 消融实验
总结

前言

在本文中，提出了一个新的框架，可以捕获信号中的语义和副语言信息。该框架由一个语义特征提取器和一个副语言特征提取器组成，前者捕获语义信息，后者捕获副语言信息。然后，使用一种新的注意机制，将语义和副语言特征结合到一个统一的表示中。在最终预测之前，统一的特征向量通过LSTM捕捉信号中的时间动态。

一、数据集

本文使用了2017年AVEC挑战赛中使用的野外情绪分析**（SEW A）数据集**。该数据集由32对（即64名参与者）的网络摄像机和麦克风拍摄的“野生”视听记录组成，观看90秒的商业视频，并与伴侣讨论最多3分钟。**该数据集提供了三种方式，即音频、视频和文本，用于三个情感维度：唤醒、配价和喜好。**数据集分为3个部分：培训（17对）、开发（7对）和测试（8对），并由6名德语注释员（3名女性，3名男性）注释。

二、特征

语言信息种的语义特征和副语言特征。

三、模型方法

该模型可以利用语音信号中的语义（高级）信息和副语言（低级）动态。低层和高层特征集使用一种新的注意融合策略融合在一起，然后将它们馈送给一层LSTM模块，以捕获信号中的时间动态，用于最终的帧级预测。

1. 语义抽取器

为了捕获语音信号中的语义信息，本文训练了Word2V ec和Speech2V ec模型。第一个模型使用文本信息从给定单词中提取语义向量表示，而第二个模型使用语音。并且将它们的嵌入空间对齐，以获得语义更丰富的语音表示。
为此，通过域对抗训练学习W的初始代理。对抗性训练是一个两层游戏，生成器通过计算W来欺骗鉴别器正确识别嵌入空间，并使WS和T尽可能相似。

2. 副语言抽取器

副语言特征提取网络由三个1-D CNN层组成，其中一个校正线性单元（ReLU）作为激活函数，最大池操作介于两者之间。卷积和池运算都是在时域上执行的，使用原始波形作为输入。受之前工作的启发，使用较小的内核大小和步长执行卷积，并使用较大的内核大小和步长执行最大池。

3. 融合策略

最后一步是融合语义和副语言语音特征，然后将它们输入LSTM。
有两个策略可以实现特征融合：
（i）串联：标准的特征级融合，即特征向量的简单串联。
（ii）分离”注意机制：
该方法对每个特征集执行线性投影，并使它们位于相同的向量空间。得到投影矩阵分别是语义和副语言特征集，并且使用注意力机制进行融合。之后使用三个完全连接（FC）层，使用不同的参数映射到不同的层，选择使用三个FC层，这样网络种的每个情感维度（即唤醒，配价和喜好）的信息流就可以被解开。

为了融合“分离”向量空间的信息，我们应用了一个注意层，以便每个合适的特征集能够相互关注，并产生丰富的融合特征输出，用于最终预测。特别是，我们首先关注a和l；最后，关于v的结果。

四、识别结果

1. 实验参数设置

为了训练模型，使用Adam优化方法，固定学习率为10-4。在所有实验中。我们使用了一小批25个样本，序列长度为300，以及一个p=0.5的dropout，用于除重复出现的层外的所有层，以规范网络。由于模型有大量的参数，不规范化网络会使其容易对训练数据进行过度拟合。此外，在训练阶段使用的LSTM网络的训练值为0.5，梯度范数剪裁为5.0。最后，我们将原始波形分割成10秒长的序列，采样率为22 050 Hz。因此，每个序列对应一个22 0500维向量。

2. 目标函数

目标函数是基于协和相关系数，它通过将预测与金标准之间的相关系数与其均方差进行缩放，来评估预测与金标准之间的一致性水平。

3. 消融实验

总结

本文提出了一种基于音频和文本信息的语音情感识别训练框架。使用Word2V ec和Speech2V ec模型，并对齐它们的嵌入空间，以便仅使用语音信号进行准确的语义特征提取。同时使用一种新的注意融合策略将语义和副语言特征结合起来，该策略首先将每个情感维度的信息分离出来，然后使用注意将其结合起来。在SEW A数据集上对提议的模型进行评估，并在配价和喜好维度上产生最先进的结果，与提交给AVEC 2017挑战赛的表现最佳的论文进行比较。