SER 语音情感识别-论文笔记3
SER 语音情感识别-论文笔记3
《SPEECH EMOTION RECOGNITION USING SEMANTIC INFORMATION》
2021年ICASSP
Code available here: https://github.com/glam-imperial/semantic_speech_emotion_recognition
文章目录
- SER 语音情感识别-论文笔记3
- 前言
- 一、数据集
- 二、特征
- 三、模型方法
- 1. 语义抽取器
- 2. 副语言抽取器
- 3. 融合策略
- 四、识别结果
- 1. 实验参数设置
- 2. 目标函数
- 3. 消融实验
- 总结
前言
在本文中,提出了一个新的框架,可以捕获信号中的语义和副语言信息。该框架由一个语义特征提取器和一个副语言特征提取器组成,前者捕获语义信息,后者捕获副语言信息。然后,使用一种新的注意机制,将语义和副语言特征结合到一个统一的表示中。在最终预测之前,统一的特征向量通过LSTM捕捉信号中的时间动态。
一、数据集
本文使用了2017年AVEC挑战赛中使用的野外情绪分析**(SEW A)数据集**。该数据集由32对(即64名参与者)的网络摄像机和麦克风拍摄的“野生”视听记录组成,观看90秒的商业视频,并与伴侣讨论最多3分钟。**该数据集提供了三种方式,即音频、视频和文本,用于三个情感维度:唤醒、配价和喜好。**数据集分为3个部分:培训(17对)、开发(7对)和测试(8对),并由6名德语注释员(3名女性,3名男性)注释。
二、特征
语言信息种的语义特征和副语言特征。
三、模型方法
该模型可以利用语音信号中的语义(高级)信息和副语言(低级)动态。低层和高层特征集使用一种新的注意融合策略融合在一起,然后将它们馈送给一层LSTM模块,以捕获信号中的时间动态,用于最终的帧级预测。
1. 语义抽取器
为了捕获语音信号中的语义信息,本文训练了Word2V ec和Speech2V ec模型。第一个模型使用文本信息从给定单词中提取语义向量表示,而第二个模型使用语音。并且将它们的嵌入空间对齐,以获得语义更丰富的语音表示。
为此,通过域对抗训练学习W的初始代理。对抗性训练是一个两层游戏,生成器通过计算W来欺骗鉴别器正确识别嵌入空间,并使WS和T尽可能相似。
2. 副语言抽取器
副语言特征提取网络由三个1-D CNN层组成,其中一个校正线性单元(ReLU)作为激活函数,最大池操作介于两者之间。卷积和池运算都是在时域上执行的,使用原始波形作为输入。受之前工作的启发,使用较小的内核大小和步长执行卷积,并使用较大的内核大小和步长执行最大池。
3. 融合策略
最后一步是融合语义和副语言语音特征,然后将它们输入LSTM。
有两个策略可以实现特征融合:
(i)串联:标准的特征级融合,即特征向量的简单串联。
(ii)分离”注意机制:
该方法对每个特征集执行线性投影,并使它们位于相同的向量空间。得到投影矩阵分别是语义和副语言特征集,并且使用注意力机制进行融合。之后使用三个完全连接(FC)层,使用不同的参数映射到不同的层,选择使用三个FC层,这样网络种的每个情感维度(即唤醒,配价和喜好)的信息流就可以被解开。
为了融合“分离”向量空间的信息,我们应用了一个注意层,以便每个合适的特征集能够相互关注,并产生丰富的融合特征输出,用于最终预测。特别是,我们首先关注a和l;最后,关于v的结果。
四、识别结果
1. 实验参数设置
为了训练模型,使用Adam优化方法,固定学习率为10-4。在所有实验中。我们使用了一小批25个样本,序列长度为300,以及一个p=0.5的dropout,用于除重复出现的层外的所有层,以规范网络。由于模型有大量的参数,不规范化网络会使其容易对训练数据进行过度拟合。此外,在训练阶段使用的LSTM网络的训练值为0.5,梯度范数剪裁为5.0。最后,我们将原始波形分割成10秒长的序列,采样率为22 050 Hz。因此,每个序列对应一个22 0500维向量。
2. 目标函数
目标函数是基于协和相关系数,它通过将预测与金标准之间的相关系数与其均方差进行缩放,来评估预测与金标准之间的一致性水平。
3. 消融实验
总结
本文提出了一种基于音频和文本信息的语音情感识别训练框架。使用Word2V ec和Speech2V ec模型,并对齐它们的嵌入空间,以便仅使用语音信号进行准确的语义特征提取。同时使用一种新的注意融合策略将语义和副语言特征结合起来,该策略首先将每个情感维度的信息分离出来,然后使用注意将其结合起来。在SEW A数据集上对提议的模型进行评估,并在配价和喜好维度上产生最先进的结果,与提交给AVEC 2017挑战赛的表现最佳的论文进行比较。
SER 语音情感识别-论文笔记3相关推荐
- SER 语音情感识别-论文笔记2
SER 语音情感识别-论文笔记2 <Speech emotion recognition: Emotional models, databases, features, preprocessin ...
- SER 语音情感识别-论文笔记4
SER 语音情感识别-论文笔记4 <SPEECH EMOTION RECOGNITION WITH MULTISCALE AREA ATTENTION AND DATA AUGMENTATION ...
- SER 语音情感识别-论文笔记5
SER 语音情感识别-论文笔记5 <MULTI-HEAD ATTENTION FOR SPEECH EMOTION RECOGNITION WITH AUXILIARY LEARNING OF ...
- SER 语音情感识别-论文笔记1
<A Comprehensive Review of Speech Emotion Recognition Systems> 摘要 在过去的十年中,语音情感识别(SER)已经成为人机交互( ...
- 语音情感识别(Speech Emotion Recognition)相关资料
150 万条语音的情感分析 - 云+社区 - 腾讯云 深度学习论文笔记 - 一夜星辰 - 博客园 语音情感 - 博客园 语音情感 - GitHub 语音情感 - Gitee 语音情感识别 · GitH ...
- 论文笔记:语音情感识别(三)手工特征+CRNN
一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...
- 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术
语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...
- 论文笔记:语音情感识别(二)声谱图+CRNN
一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 Inte ...
- ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型
本次分享华南理工大学.优必选研究院等合作在ICASSP2023会议发表的论文<DST: Deformable Speech Transformer for Emotion Recognition ...
最新文章
- JSON(JavaScript Object Notation)数据在python中的读写
- CoordinatorLayout+AppBarLayout实现上滑隐藏ToolBar-Android M新控件
- android 二级列表拖动排序_Excel的数据透视表六种排序方法
- git ssh创建分支_【ssh简单版git-server 1】自建git-server
- 1224 哥德巴赫猜想(2)
- js中变量名提升和函数名提升
- javax.crypto.BadPaddingException: Blocktype ...
- Ruby之入门(一)
- 倍福TwinCAT(贝福Beckhoff)常见问题(FAQ)-如何让不同的PLC程序分线程运行 TC2
- c语言智能公交系统,基于单片机智能公交小车控制系统设计(含电路图,程序清单)...
- 独家汉化SDL Passolo 2018(软件汉化工具) v18.0.130简体中文版
- php 斗牛 牌型 和 比牌 规则
- 高云fpga.Tang Nano 4k(GW1NSR-4C)呼吸灯
- 重装 Macos sierra系统 U盘
- 根据浏览器标识判断浏览器类型
- python如何画散点图
- python中assert的用法记录
- redis 安装
- android 系统图片为壁纸后,壁纸拉伸的现象
- 3D图形学(一):三维几何学基础(1):三维坐标系