语音情感识别----语音特征集之eGeMAPS，ComParE，09IS，BoAW

一：LLDs特征和HSFs特征
（1）首先区分一下frame和utterance，frame就是一帧语音。utterance是一段语音，是比帧高一级的语音单位，通常指一句话，一个语音样本。utterance由多帧语音组成，通常对一个utterance做分帧来得到多帧信号。
（2）LLDs（low level descriptors）LLDs指的是手工设计的一些低水平特征，一般是在一帧语音上进行的计算，是用来表示一帧语音的特征。
（3）HSFs（high level statistics functions）是在LLDs的基础上做一些统计而得到的特征，比如均值，最大值等等。HSFs是对utterance上的多帧语音做统计，所以是用来表示一个utterance的特征。
（4）后面讲的一些特征集，是由一些专家设计的一些特征，包括了LLDs和HSFs。

二：GeMAPS特征集
（1）GeMAPS特征集总共62个特征，这62个都是HSF特征，是由18个LLD特征计算得到。下面先介绍18个LLD特征，然后介绍62个HSF特征。这里只简单介绍每个特征的概念，不涉及具体计算细节。
（2）18个LLD特征包括6个频率相关特征，3个能量/振幅相关特征，9个谱特征。
（3）基音F0的概念：先理解一个常用的概念，基音，通常记作F0（F0一般也指基音频率），一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，由它发出的音就是基音，其余为泛音。
（4）6个频率相关特征包括：Pitch（log F0，在半音频率尺度上计算，从27.5Hz开始）；Jitter（单个连续基音周期内的偏差，偏差衡量的是观测变量与特定值的差，如果没有指明特定值通常使用的是变量的均值）；前三个共振峰的中心频率，第一个共振峰的带宽。
（5）3个能量/振幅的特征包括：Shimmer（相邻基音周期间振幅峰值之差），Loudness（从频谱中得到的声音强度的估计，可以根据能量来计算），HNR（Harmonics-to-noise）信噪比。
（6）9个谱特征包括，Alpha Ratio（50-1000Hz的能量和除以1-5kHz的能量和），Hammarberg Index（0-2kHz的最强能量峰除以2-5kHz的最强能量峰），Spectral Slope 0-500 Hz and 500-1500 Hz（对线性功率谱的两个区域0-500 Hz和500-1500 Hz做线性回归得到的两个斜率），Formant 1, 2, and 3 relative energy（前三个共振峰的中心频率除以基音的谱峰能量），Harmonic difference H1-H2（第一个基音谐波H1的能量除以第二个基音谐波的能量），Harmonic difference H1-A3（第一个基音谐波H1的能量除以第三个共振峰范围内的最高谐波能量）。
（7）对18个LLD做统计，计算的时候是对3帧语音做symmetric moving average。首先计算算术平均和coefficient of variation（计算标准差然后用算术平均规范化），得到36个统计特征。然后对loudness和pitch运算8个函数，20百分位，50百分位，80百分位，20到80百分位之间的range，上升/下降语音信号的斜率的均值和标准差。这样就得到16个统计特征。上面的函数都是对voiced regions（非零的F0）做的。对Alpha Ratio，Hammarberg Index，Spectral Slope 0-500 Hz and 500-1500 Hz做算术平均得到4个统计特征。另外还有6个时间特征，每秒loudness峰的个数，连续voiced regions（F0>0）的平均长度和标准差，unvoiced regions（F0=0）的平均长度和标准差，每秒voiced regions的个数。36+16+4+6得到62个特征。

三：eGeMAPS特征集
（1）eGeMAPS是GeMAPS的扩展，在18个LLDs的基础上加了一些特征，包括5个谱特征：MFCC1-4和Spectral flux（两个相邻帧的频谱差异）和2个频率相关特征：第二个共振峰和第三个共振峰的带宽。
（2）对这扩展的7个LLDs做算术平均和coefficient of variation（计算标准差然后用算术平均规范化）可以得到14个统计特征。对于共振峰带宽只在voiced region做，对于5个谱特征在voiced region和unvoiced region一起做。
（3）另外，只在unvoiced region计算spectral flux的算术平均，然后只在voiced region计算5个谱特征的算术平均和coefficient of variation，得到11个统计特征。
（4）另外，还加多一个equivalent sound level 。
（5）所以总共得到14+11+1=26个扩展特征，加上原GeMAPS的62个特征，得到88个特征，这88个特征就是eGeMAPS的特征集。

四：ComParE特征集
（1）ComParE，Computational Paralinguistics ChallengE，是InterSpeech上的一个挑战赛，从13年至今（2018年），每年都举办，每年有不一样的挑战任务。
（2）从13年开始至今（2018年），ComParE的挑战都会要求使用一个设计好的特征集，这个特征集包含了6373个静态特征，是在LLD上计算各种函数得到的，称为ComParE特征集。
（3）可以通过openSmile开源包来获得，另外前面提到的eGeMAPS也可以用openSmile获得。

五：2009 InterSpeech挑战赛特征
（1）前面说的6373维特征集ComparE是13年至今InterSpeech挑战赛中用的。（2）有论文还用了09年InterSpeech上Emotion Challenge提到的特征，总共有384个特征，计算方法如下。
（3）首先计算16个LLD，过零率，能量平方根，F0，HNR（信噪比，有些论文也叫vp，voice probability 人声概率），MFCC1-12，然后计算这16个LLD的一阶差分，可以得到32个LLD。
（4）对这32个LLD应用12个统计函数，最后得到32x12 = 384个特征。
（5）同样可以通过openSmile来获得。
（6）另外还有2010年InterSpeech的Paralinguistic Challenge上的特征，称为10IS，共有1582维特征。也可以从openSmile中获得，这工具挺好的，可以帮你提取很多特征，建议使用。

六：BoAW
（1）BoAW，bag-of-audio-words，是特征的进一步组织表示，是根据一个codebook对LLDs做计算得到的。这个codebook可以是k-means的结果，也可以是对LLDs的随机采样。
（2）在论文会看到BoAW特征集的说法，指的是某个特征集的BoAW形式。比如根据上下文“使用特征集有ComparE和BoAW”，可以知道，这样的说法其实是指原来的特征集ComparE，和ComparE经过计算后得到的BoAW表示。
（3）可以通过openXBOW开源包来获得BoAW表示。

七：YAAFE特征：
（1）使用YAAFE库提取到的特征，具体特征见YAAFE主页。

八：参考资料
[1] 论文：eGeMAPS特征集（2016 IEEE trans on Affective Computing）
[2] 论文：2013 InterSpeech ComparE挑战赛（2013 InterSpeech）
[3] 论文：2009 InterSpeech情感挑战（2009 InterSpeech）
[4] 论文：BoAW用于语音情感识别（2016 InterSpeech）
[5] YAAFE主页

语音情感识别----语音特征集之eGeMAPS，ComParE，09IS，BoAW相关推荐

语音情感识别--语音(声音的预处理)
语音信号(声音是什么) 声音是由物体振动产生的声波,是通过介质(空气或固体.液体)传播并能被人或动物听觉器官所感知的波动现象,最初发出振动的物体叫声源.声音(语音消息)的基本模拟形式是一种称为语音信号 ...
语音情感识别研究现状
语音情感识别研究现状情感是什么语音情感识别是什么为什么要研究语音情感识别语音情感识别方法语音情感识别未来趋势情感是什么情感是什么:按照当前心理学研究表示为情绪,或者是感觉的体现.这些都是 ...
基于音频和文本的多模态语音情感识别(一篇极好的论文，值得一看哦！)
基于音频和文本的多模态语音情感识别语音情感识别是一项具有挑战性的任务,在构建性能良好的分类器时,广泛依赖于使用音频功能的模型.本文提出了一种新的深度双循环编码器模型,该模型同时利用文本数据和音频信号 ...
论文笔记：语音情感识别（二）声谱图+CRNN
一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 Inte ...
论文笔记：语音情感识别（三）手工特征+CRNN
一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...
语音情感识别研究进展综述
人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能够反映说话人情感状态的信息(如特殊的语气词.语调的变化等)的能力.自动语音情感识别则是计算机对人类上述情感感知 ...
SER 语音情感识别-论文笔记3
SER 语音情感识别-论文笔记3 <SPEECH EMOTION RECOGNITION USING SEMANTIC INFORMATION> 2021年ICASSP Code avai ...
语音情感识别领域-论文阅读笔记1：融合语音和文字的句段级别情感识别技术
语音情感识别领域-论文阅读笔记1 Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Tran ...
基于CNN+MFCC的语音情感识别
个人博客:http://www.chenjianqu.com/ 原文链接:http://www.chenjianqu.com/show-45.html 近年来 ,随着信息技术的飞速发展 ,智能设备正在 ...

语音情感识别----语音特征集之eGeMAPS，ComParE，09IS，BoAW

语音情感识别----语音特征集之eGeMAPS，ComParE，09IS，BoAW相关推荐

最新文章

热门文章