• 陈婧, 李海峰, 马琳, et al. 多粒度特征融合的维度语音情感识别方法[J]. 信号处理, 2017(3).

主要内容:针对传统维度语音情感识别系统采用全局统计特征造成韵律学细节信息丢失以及特征演化规律缺失的问题,提出了一种基于不同时间单元的多粒度特征提取方法,提取短时帧粒度、中时段粒度和长时窗粒度特征,并提出了一种可以融合多粒度特征的基于认知机理的循环神经网络CIRNN,使用不同时间单元的特征参与网络训练,实现多层级信息融合。本文在VAM维度语料库上进行实验,得到平均相关系数0.66,优于传统的ANN和SVR识别结果。

收获:了解了连续语音识别中多粒度特征提取方法,实验评价方法与指标。

文章的主要工作

  1. 针对全局统计特征引起时序信息丢失的问题,研究了合适的情感表达时长,提出基于不同时间单元的多粒度情感特征提取方法。
  2. 提出了可以融合多粒度特征的基于认知机理的循环神经网络(CMRNN)。
  3. 在VAM语料库上评估模型的性能。

多粒度语音情感特征提取方法

文章认为短时帧特征太过于关注语义信息,而全局统计特征有可能导致情感韵律细节信息丢失,因此提出语段粒度特征和情感认知窗粒度特征两个粒度特征。

帧粒度特征提取

使用25ms汉明窗,帧移10ms对语音进行分帧处理,然后提取96维特征并进行归一化。本文的一个创新点是,使用Teager_Mel特征代替MFCC特征,并通过实验验证了该特征的有效性,可在后续的研究中作为参考。

其中,Teager_Mel特征的理论基础是:一个完整的语音是由线性和涡流区域的非线性模块构成,涡流部分会对语音信号产生影响。提取过程如图所示:

TEO变换为,它的优点是更加突出语音信号能量在不同频段上的偏差,从而使得情感能量在不同情绪下的偏移更为明显。

作者为验证Teager_Mel的有效性,与MFCC相对比,每种特征提取了共273维的统计特征,如图所示:

然后使用相关系数作为评价指标,在VAM语料库上进行实验,实验结果如图所示,从而证明了Teager_Mel的有效性。

段粒度特征提取

  • 分段

以“帧/段”为单位衡量段长,分别取10帧/段、20帧/段、……、200帧/段共20种情况进行实验。语段划分方法与交叠分帧方法类似,使用矩形窗,段移为段长的一半。分段后,对段内帧特征进行统计,取19种统计函数,从而得到19×96=1824维的段特征。选取的统计函数如图所示。

  • 确定最优段长

使用Elman的SRN(简单循环神经网络)做分类器,分别在Activation、Valence和Dominance三个维度拟合,使用相关系数评价拟合效果。

实验结果表明不同段长划分对系统的结果影响较大,且随段长的增长拟合效果并未明显提高,综合来看,段长取80帧/段时得到最优的拟合效果。

窗粒度特征提取

人的情感表达分为酝酿阶段、充分表达阶段和收尾阶段,其中在收尾阶段中,语气、语调都相应降低,因此文章采用高斯函数拟合这一过程,即在多个语段特征上加载高斯函数,提取过程和具体算法如图所示。

XN表示语段特征,G(·)为高斯函数,wi是第i段对应高斯函数的位置,由于高斯函数有效值服从3原则,因此S是,M是3区间长度。

网络结构

在RNN的基础上增加输入层和隐含层得到CMRNN。因此,CMRNN包含2个输入层、2个隐含层、1个记忆层和1个输出层共6层。其中,z(t)由x(t)和e(t)都加权并使用sigmoid函数激活得到的。然后使用误差反向传播算法更新权重。

为了融合多粒度特征进行识别,输入层u(t)是由帧粒度特征和段粒度特征构成,窗粒度特征则作为另一个输入单独进入网络,如图所示。

实验

数据集——VAM语料库

VAM数据库的情感标注在情感的空间,分别在Activation、Dominance、Valence 三个维度。它是通过德国的电视访谈节目录制的信息,由三个子研究方向的库组成:VAM-Video、VAM-Audio 和VAM-Faces 三个数据库。其中VAM-Video 数据库保存着这些对话的视频信息;VAM-Audio 数据库保存着这些对话的音频信息;VAM-Faces 是从VAM-Video中提取出这些图像的面部情感信息。文章使用VAM-Audio 语料库进行实验。VAM-Audio 语料库共有 12 小时的时长。语料库由 47 个话语者(11 名男性/36 名女性)进行录制的,每个实验人员平均录制22 条语句。最终这些语料被 17 个标注者进行标注,分别标签在情感的三个维度:效价度、激活度和控制度,标注值在-1和1之间。VAM-Audio语料库共有947条情感语句。将语料库随机10等分,九份作为训练集,采用10折交叉验证。

实验设置

1. 对比实验

3层ANN:输入层为1824个神经元,隐含层为50个神经元,输出层包含3个节点,分别对应3个维度。

CMRNN:输入为(1824维段特征+96维帧特征)和1824维窗特征。隐含层和记忆层均包括50个节点,输出层3个节点对应3个维度。

2. 评价指标:相关系数CC和均方误差MSE。

3. 其他说明:

  • 训练或测试阶段,当输入一个语料的最后一段特征时,将最后一段输入的特征得到的神经网络输出结果作为该语料的识别结果;
  • 在训练或者测试阶段,按照特征的时序信息进行输入,对属于同一个语料的记忆层信息需要进行保留;对于不同的语料,需要在输入本样本的第一个时序特征之前将记忆层的数值置为零,这样使得两个独立样本之间不会受到影响;
  • 在训练阶段,对于同一语料样本的特征输入,网络的误差要累积到最后一个特征输入,进行一次神经网络的权值修改,但是不同的语料样本,误差信息不会累计

实验结果

相关系数结果:

均方误差结果:

另外,文章还与使用SVR的方法比较,得到了如下结果:

【论文阅读】多粒度特征融合的维度语音情感识别方法相关推荐

  1. ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型

    本次分享华南理工大学.优必选研究院等合作在ICASSP2023会议发表的论文<DST: Deformable Speech Transformer for Emotion Recognition ...

  2. SER 语音情感识别-论文笔记5

    SER 语音情感识别-论文笔记5 <MULTI-HEAD ATTENTION FOR SPEECH EMOTION RECOGNITION WITH AUXILIARY LEARNING OF ...

  3. 语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术

    语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...

  4. 【论文阅读】智能设备中基于深度特征的语音情感识别

    Badshah A M , Rahim N , Ullah N , et al. Deep features-based speech emotion recognition for smart af ...

  5. 论文笔记:语音情感识别(三)手工特征+CRNN

    一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...

  6. 多尺度特征融合的知识蒸馏异常检测方法文献笔记

    多尺度特征融合的知识蒸馏异常检测方法 期刊:计算机辅助设计与图形学学报 学校:南京信息工程大学计算机学院 时间:2022 关键词:异常检测;知识蒸馏;一分类问题;特征融合 背景 异常检测一般是指判断并 ...

  7. SER 语音情感识别-论文笔记2

    SER 语音情感识别-论文笔记2 <Speech emotion recognition: Emotional models, databases, features, preprocessin ...

  8. SER 语音情感识别-论文笔记4

    SER 语音情感识别-论文笔记4 <SPEECH EMOTION RECOGNITION WITH MULTISCALE AREA ATTENTION AND DATA AUGMENTATION ...

  9. SER 语音情感识别-论文笔记3

    SER 语音情感识别-论文笔记3 <SPEECH EMOTION RECOGNITION USING SEMANTIC INFORMATION> 2021年ICASSP Code avai ...

最新文章

  1. Qt运行时中文乱码的解决办法
  2. suoi46 最大和和 (线段树)
  3. Linux中打开文件管理器的命令
  4. mysql replication延迟_深入mysql主从复制延迟问题的详解
  5. linux运维脚本编写,最强Linux自动化运维 Shell高级脚本编程实战 带习题+项目实战案例+全套配置脚本...
  6. Linux内存管理:分页
  7. 设计模式学习笔记之四:抽象工厂模式
  8. [转]通过秘钥实现scp不输入密码传送文件
  9. 微信公众号H5网页跳转小程序方法
  10. Using insecure protocols with repositories(已解决)
  11. 小学生必积累的名人名言汇总100条
  12. unbuntu 安装nginx
  13. Java-给会员打折
  14. 外研在线:如何用云技术优化教育服务
  15. cap 2 加州房价预测
  16. python中iter是什么意思,python中iter的用途是什么?
  17. 应该来说没有什么太大的关系。因为计算精度既取决于你的级数的项
  18. 对一名电子信息工程专业应届毕业生的建议【转自没毛菜鸟要成长的一篇博文】
  19. Mac 键盘符号说明
  20. 我要大学答案-大学生都在用的小程序 课后习题答案|实验报告|考研资料|期末真题~

热门文章

  1. [BZOJ2151]种树
  2. MATLIB用Box-Muller变换产生高斯白噪声
  3. Redis:列表RPOPLPUSH、BLPOP、BRPOP、BRPOPLPUSH命令介绍
  4. python常用表达式
  5. 华为手机摄影入门到精通pdf_华为液体镜头专利发布,再谈华为手机摄影有哪些创新?...
  6. 计算机专业招聘简历自我评价,计算机专业大学生简历自我评价
  7. Effective java 总结1 - 创建和销毁对象
  8. C# NutShell 第二十三章 任务并行
  9. 数学学习书籍(有些带视频 有标注)
  10. Python中读写文件的read_csv()