SER 语音情感识别-论文笔记3

《SPEECH EMOTION RECOGNITION USING SEMANTIC INFORMATION》
2021年ICASSP
Code available here: https://github.com/glam-imperial/semantic_speech_emotion_recognition


文章目录

  • SER 语音情感识别-论文笔记3
  • 前言
  • 一、数据集
  • 二、特征
  • 三、模型方法
    • 1. 语义抽取器
    • 2. 副语言抽取器
    • 3. 融合策略
  • 四、识别结果
    • 1. 实验参数设置
    • 2. 目标函数
    • 3. 消融实验
  • 总结

前言

在本文中,提出了一个新的框架,可以捕获信号中的语义和副语言信息。该框架由一个语义特征提取器和一个副语言特征提取器组成,前者捕获语义信息,后者捕获副语言信息。然后,使用一种新的注意机制,将语义和副语言特征结合到一个统一的表示中。在最终预测之前,统一的特征向量通过LSTM捕捉信号中的时间动态。

一、数据集

本文使用了2017年AVEC挑战赛中使用的野外情绪分析**(SEW A)数据集**。该数据集由32对(即64名参与者)的网络摄像机和麦克风拍摄的“野生”视听记录组成,观看90秒的商业视频,并与伴侣讨论最多3分钟。**该数据集提供了三种方式,即音频、视频和文本,用于三个情感维度:唤醒、配价和喜好。**数据集分为3个部分:培训(17对)、开发(7对)和测试(8对),并由6名德语注释员(3名女性,3名男性)注释。

二、特征

语言信息种的语义特征和副语言特征。

三、模型方法

该模型可以利用语音信号中的语义(高级)信息和副语言(低级)动态。低层和高层特征集使用一种新的注意融合策略融合在一起,然后将它们馈送给一层LSTM模块,以捕获信号中的时间动态,用于最终的帧级预测。

1. 语义抽取器

为了捕获语音信号中的语义信息,本文训练了Word2V ec和Speech2V ec模型。第一个模型使用文本信息从给定单词中提取语义向量表示,而第二个模型使用语音。并且将它们的嵌入空间对齐,以获得语义更丰富的语音表示。
为此,通过域对抗训练学习W的初始代理。对抗性训练是一个两层游戏,生成器通过计算W来欺骗鉴别器正确识别嵌入空间,并使WS和T尽可能相似。

2. 副语言抽取器

副语言特征提取网络由三个1-D CNN层组成,其中一个校正线性单元(ReLU)作为激活函数,最大池操作介于两者之间。卷积和池运算都是在时域上执行的,使用原始波形作为输入。受之前工作的启发,使用较小的内核大小和步长执行卷积,并使用较大的内核大小和步长执行最大池。

3. 融合策略

最后一步是融合语义和副语言语音特征,然后将它们输入LSTM。
有两个策略可以实现特征融合:
(i)串联:标准的特征级融合,即特征向量的简单串联。
(ii)分离”注意机制:
该方法对每个特征集执行线性投影,并使它们位于相同的向量空间。得到投影矩阵分别是语义和副语言特征集,并且使用注意力机制进行融合。之后使用三个完全连接(FC)层,使用不同的参数映射到不同的层,选择使用三个FC层,这样网络种的每个情感维度(即唤醒,配价和喜好)的信息流就可以被解开。

为了融合“分离”向量空间的信息,我们应用了一个注意层,以便每个合适的特征集能够相互关注,并产生丰富的融合特征输出,用于最终预测。特别是,我们首先关注a和l;最后,关于v的结果。

四、识别结果

1. 实验参数设置

为了训练模型,使用Adam优化方法,固定学习率为10-4。在所有实验中。我们使用了一小批25个样本,序列长度为300,以及一个p=0.5的dropout,用于除重复出现的层外的所有层,以规范网络。由于模型有大量的参数,不规范化网络会使其容易对训练数据进行过度拟合。此外,在训练阶段使用的LSTM网络的训练值为0.5,梯度范数剪裁为5.0。最后,我们将原始波形分割成10秒长的序列,采样率为22 050 Hz。因此,每个序列对应一个22 0500维向量。

2. 目标函数

目标函数是基于协和相关系数,它通过将预测与金标准之间的相关系数与其均方差进行缩放,来评估预测与金标准之间的一致性水平。

3. 消融实验




总结

本文提出了一种基于音频和文本信息的语音情感识别训练框架。使用Word2V ec和Speech2V ec模型,并对齐它们的嵌入空间,以便仅使用语音信号进行准确的语义特征提取。同时使用一种新的注意融合策略将语义和副语言特征结合起来,该策略首先将每个情感维度的信息分离出来,然后使用注意将其结合起来。在SEW A数据集上对提议的模型进行评估,并在配价和喜好维度上产生最先进的结果,与提交给AVEC 2017挑战赛的表现最佳的论文进行比较。

SER 语音情感识别-论文笔记3相关推荐

  1. SER 语音情感识别-论文笔记2

    SER 语音情感识别-论文笔记2 <Speech emotion recognition: Emotional models, databases, features, preprocessin ...

  2. SER 语音情感识别-论文笔记4

    SER 语音情感识别-论文笔记4 <SPEECH EMOTION RECOGNITION WITH MULTISCALE AREA ATTENTION AND DATA AUGMENTATION ...

  3. SER 语音情感识别-论文笔记5

    SER 语音情感识别-论文笔记5 <MULTI-HEAD ATTENTION FOR SPEECH EMOTION RECOGNITION WITH AUXILIARY LEARNING OF ...

  4. SER 语音情感识别-论文笔记1

    <A Comprehensive Review of Speech Emotion Recognition Systems> 摘要 在过去的十年中,语音情感识别(SER)已经成为人机交互( ...

  5. 语音情感识别(Speech Emotion Recognition)相关资料

    150 万条语音的情感分析 - 云+社区 - 腾讯云 深度学习论文笔记 - 一夜星辰 - 博客园 语音情感 - 博客园 语音情感 - GitHub 语音情感 - Gitee 语音情感识别 · GitH ...

  6. 论文笔记:语音情感识别(三)手工特征+CRNN

    一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...

  7. 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术

    语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...

  8. 论文笔记:语音情感识别(二)声谱图+CRNN

    一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 Inte ...

  9. ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型

    本次分享华南理工大学.优必选研究院等合作在ICASSP2023会议发表的论文<DST: Deformable Speech Transformer for Emotion Recognition ...

最新文章

  1. JSON(JavaScript Object Notation)数据在python中的读写
  2. CoordinatorLayout+AppBarLayout实现上滑隐藏ToolBar-Android M新控件
  3. android 二级列表拖动排序_Excel的数据透视表六种排序方法
  4. git ssh创建分支_【ssh简单版git-server 1】自建git-server
  5. 1224 哥德巴赫猜想(2)
  6. js中变量名提升和函数名提升
  7. javax.crypto.BadPaddingException: Blocktype ...
  8. Ruby之入门(一)
  9. 倍福TwinCAT(贝福Beckhoff)常见问题(FAQ)-如何让不同的PLC程序分线程运行 TC2
  10. c语言智能公交系统,基于单片机智能公交小车控制系统设计(含电路图,程序清单)...
  11. 独家汉化SDL Passolo 2018(软件汉化工具) v18.0.130简体中文版
  12. php 斗牛 牌型 和 比牌 规则
  13. 高云fpga.Tang Nano 4k(GW1NSR-4C)呼吸灯
  14. 重装 Macos sierra系统 U盘
  15. 根据浏览器标识判断浏览器类型
  16. python如何画散点图
  17. python中assert的用法记录
  18. redis 安装
  19. android 系统图片为壁纸后,壁纸拉伸的现象
  20. 3D图形学(一):三维几何学基础(1):三维坐标系

热门文章

  1. 【听译大师说话】python 创始人访谈录2: python 的起源,特点和未来
  2. 华为,好狠一公司,应届生你给201万
  3. Angular5实现组件缓存(RouteReuseStrategy)类似vue中的keep-alive的效果
  4. python后端脚本停止运行_Python 启动/停止脚本(后台服务)
  5. 西门子MES解决方案
  6. 用明道云搭建一个住宅式物业管理系统
  7. Flutter 底部弹窗详解
  8. 基于Bert的微博舆论分析Web系统
  9. 物理数据处理,不确定度的计算C++代码
  10. RISC架构与CISC架构对比