一种基于敏感度可调的语音情感识别方法及系统
技术领域
本发明属于语音识别领域,尤其涉及一种基于敏感度可调的语音情感识别方法及系统。
背景技术
情感是人类交流手段的一种常见的表达方式,在人机交互中起着重要的作用。语音作为人类最直接的交流手段,其本身能传递丰富的情感信息,已被成功用于情感的自动识别中。尽管语音情感识别取得了可应用性的成果,但不同的情感对人类交流和反应有着不同重要性,人类在识别不同情感变化时有着不同的敏感度,例如语气中情感的愤怒、悲伤等特殊情感出现时的敏感觉察对有效的交际有着重要的意义。目前的语音情感识别系统一般采用识别错误率最小的决策方式,可以保证整体识别准确率最高,但对敏感情感识别率难以达到要求,而在很多情境下特殊情感如愤怒、开心等的变化对人与人的交往很重要。
现有的语音情感识别方法,主要包括语音特征表示和分类器结构的方法。语音信息本身包含丰富的情感信息,但并不是情感的全部信息,并且音频信号本身存在一些固有缺陷,如信号弱、噪声强等,从单一的语音模型识别情感并不全面。多模态的融合是利用文本、生理信号、面部表情等多个通道的情感信息互补性提高分类器的识别性能,从而提高识别分类器的准确度。不同通道的信息对不同情绪有不同的区别作用,研究表明语音通道对情感强度有较丰富的信息,文本通道包含更敏感的正负情感区分信息。所以,在现有语音情感识别的基础上,将语音与文本两通道的信息融合,在语音情感识别中增加对特殊情感敏感识别功能是人工智能中类人情感交互的亟待解决的问题。
发明内容
发明目的:针对以上存在问题和不足,本发明提出一种基于敏感度可调的语音情感识别方法及系统,该方法及系统可以将语音与文本两通道的信息融合,通过设置情感的敏感度权值,得到不同情感的概率值。
技术方案:为实现本发明的上述目的,本发明所采用的技术方案是:一种基于敏感度可调的语音情感识别方法,包括如下步骤:
(1.1)接收用户语音信号,提取语音的声学特征矢量;
(1.2)将语音信号转换为文本信息,获取语音的文本特征矢量;
(1.3)将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;
(1.4)设置不同情感的权值,得到语音情感的最终判断识别结果。
其中,所述情感包括高兴、生气、悲伤和平静。
其中,在步骤(1)中,使用如下方法提取语音的声学特征矢量:
(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;
(1.2)应用全局统计函数,将每个语音句子的每一组时长不等的基础声学特征转化为等长的静态特征,得到多维度声学特征矢量。
其中,在步骤(2)中,使用如下方法获取文本信息的文本特征矢量:
(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;
(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;
(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。
其中,在步骤(3)中,使用如下神经网络结构分别训练声音数据集和文本数据集得到所述语音情感识别模型和文本情感识别模型:
a)分类器结构为两个卷积层加上一个全连接层,第一层使用卷积核数目采用32个;第二层卷积层采用64个卷积核,两层都采用一维的卷积层,卷积核的窗长度为10,卷积步长为1,补零策略采用“same”,保留边界处的卷积结果;
b)第一、第二层的激活函数采用“relu”函数,训练的dropoutrate变量设置为0.2以防止过拟合;
c)池化层采用最大值池化方式,池化窗口大小设为2,下采样因子设为2,补零策略采用“same”,保留边界处的卷积结果;
d)最后的全连接层选用softmax激活函数对以上所有的dropout层的输出进行回归得到每类的输出概率。
其中,在步骤(4)中,得到不同情感的判断结果的方法如下:
(4.1)通过语音情感识别模型对语音信号进行处理,得到高兴的概率SH、生气的概率SA、悲伤的概率SS和平静的概率SM;
(4.2)通过文本情感识别模型对语音信号进行处理,得到高兴的概率TH、生气的概率TA、悲伤的概率TS和平静的概率TM;
(4.3)设置高兴的权值PH、生气的权值PA、悲伤的权值PS和平静的权值PM;
(4.4)通过下述公式计算情感的判断识别结果E:
E=Max((SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM),其中Max()表示取最大值,(SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM分别表示加权后的高兴的概率、生气的概率、悲伤的概率和平静的概率。
其中,本发明还提供了一种基于敏感度可调的语音情感识别系统,包括如下模块:
声学特征矢量模块,用于接收用户语音信号,提取语音的声学特征矢量;
文本特征矢量模块,用于将语音信号转换为文本信息,获取语音的文本特征矢量;
情感概率计算模块,将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;
情感权值设置模块,设置调整不同情感的权值;
情感判断识别模块,根据每一情感类别的概率,加权融合后,得到语音情感的最终判断识别结果。
其中,声学特征矢量模块功能如下:
(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;
(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到多维度的声学特征矢量。
其中,文本特征矢量模块功能如下:
(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;
(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;
(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。
其中,情感判断识别模块功能如下:
(4.1)通过语音情感识别模型对语音信号进行处理,得到高兴的概率SH、生气的概率SA、悲伤的概率SS和平静的概率SM;
(4.2)通过文本情感识别模型对语音信号进行处理,得到高兴的概率TH、生气的概率TA、悲伤的概率TS和平静的概率TM;
(4.3)设置高兴的权值为PH、生气的权值为PA、悲伤的权值为PS和平静的权值为PM;
(4.4)通过下述公式计算情感的判断识别结果E:
E=Max((SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM),其中Max()表示取最大值,(SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM分别表示加权后的高兴的概率、生气的概率、悲伤的概率和平静的概率。
有益效果:与现有技术相比,本发明具有如下优点:
本发明针对不同场景下用户对不同情感的重要性的需求,可以调节语音情感识别系统对需要关注的情感识别的敏感度,以实现人的人机情感交互,提高对需要关注的语音情感的识别率。
附图说明
图1是情感敏感度可调的语音情感识别方法框架图;
图2是本发明语音和文本情感识别模型建立的框架图;
图3是本发明语音特征矢量和文本特征矢量构建过程图;
图4是情感敏感度调整模块的输入界面。
具体实施方式
下面结合附图和实施示例对本发明作进一步详细地说明。
本发明公开的一种基于敏感度可调的语音情感识别方法及系统的整体框图如图1所示,本方法及系统从语音和通过语音识别软件获得的语音信息和语音文本信息,分别提取语音特征矢量和文本特征矢量;在情感识别时,利用语音识别模块SERModel和文本识别TERModel识别出各种语音情感的概率,利用情感感知灵敏度调节模块ERAdjust设置每种情感的判断权值,由决策融合层得到最终识别的情感。本发明公开的上述方法建立的步骤如下:
(1)模型训练使用的语音和文本数据集收集
四种情感类型分别为高兴、悲伤、生气和平静,通过语音数据集SpeechSet收集:本发明对南加利福利亚大学录制的情感数据库(Interactive Emotional Motion Capture,IEMOCAP)综合提取了四类离散情感识别。IEMOCAP包含12小时的视听数据,即视频、音频和语音文本、面部表情,10名演员,5段对话,每段对话一男一女在有台词或即兴的场景下,引导出情感表达。为了平衡不同情感类别的数据,将高兴和兴奋合并成高兴类,由高兴、生气、悲伤和平静最终构成了4类情感识别数据库,总共5531个句子,如表1所示,其展示了SpeechSet和TextSet数据集中每个情感类别分布。
(1.1)从IEMOCAP数据集中选择高兴、生气、悲伤和平静四类情感,共5531个语音数据样本的SpeechSet集合;
(1.2)利用语音识别软件对SpeechSet中的5531个语音信号样本进行语音识别,获得对应的5531个与语音对应的文本数据集TextSet。
表1
 
(2)提取声学特征矢量和文本特征矢量
(2.1)提取输入语音样本的特征矢量,进行声音的情感识别,语音预处理如下:
(2.1.1)预加重使语音高频部分得以提升,使声道参数分析或频谱分析更加便捷可靠,其可以利用计算机中6dB/倍频程的提升高频特性的预加重数字滤波器来实现;
(2.1.2)进行加窗分帧处理,一般约为33帧/s到100帧/s,其中选择50帧/s为最佳;本发明中分帧采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性;前一帧与后一帧的交叠部分称为帧移,帧移与帧长的比值取1/2,分帧是用可移动的有限长度窗口进行加权和利用窗函数ω(n)在原始语音信号s(n)之上叠加来实现,公式如下:
sω(n)=s(n)*ω(n)
其中,sω(n)就是加窗分帧处理后的语音信号,并且窗函数使用汉明窗函数,表达式如下:
 
其中,N为帧长。
(2.1.3)去除静音段和噪声段,为了获得更好的端点检测结果,本发明综合短时能量和短时过零率进行两级判决,具体算法如下:
(A)计算短时能量:
 
其中,si(n)为每一帧的信号,i表示帧数,N为帧长;
(B)计算短时过零率:
 
其中,
(C)计算语音和噪声的平均能量,设置一高一低两个能量门限T1和T2,高门限确定语音开端,低门限判断语音结束点;
(D)计算背景噪声的平均过零率,可以设置过零率门限T3,该门限用于判断语音前端的清音位置和后端的尾音位置,从而完成辅助判决。
本发明首先对每个语音句子提取了帧级的低层次声学特征(low leveldescriptors,LLDs),在基础声学特征上应用了多个不同的统计函数,将每个句子的一组时长不等的基础声学特征转化为等长的静态特征;然后,使用openSMILE工具包将音频分割为帧,计算LLDs,最后应用全局统计函数。本发明参考了Interspeech2010年泛语言学挑战赛(Paralinguistic Challenge)中广泛使用的特征提取配置文件“embose2010.conf”,其中提取基频特征和声音质量特征用40ms的帧窗和10ms的帧移提取,频谱相关特征使用25ms的帧窗和10ms的帧移提取。它包含了多个不同的低层次的声学特征,具体可以按照实际需求,设置低层次声学特征的个数,如MFCC、音量、归一化强度提高到0.3的幂的响度、美尔频率倒谱系数、梅尔频带的对数功率、平滑的基频轮廓线等,优选为38个,多个全局统计函数应用于低层次的声学特征和它们相应的系数,这些统计函数包括最大最小值、均值、时长、方差等,统计函数可以按照实际需要设置,优选为21个,得到共1582维声学特征。部分低层次的声学特征以及统计函数如表2所示:
表2声学特征
 
(2.2)提取语音识别后的文本样本的特征矢量,进行文本的情感识别,具体步骤如下:
(A)情感词提取:利用文本数据集TextSet对四种情感分别进行词频与逆词频统计,即term frequency-inverse document frequency,tf-idf;
(B)根据tf-idf每种情感选取前400个词共400*4个情感词,合并去除重复词后形成去除重复词,并将它们合并成情感特征基本词汇955;
(C)得到的955个词作为文本的特征矢量TextF,以语音中每个词在每个样本中出现与否作为该特征的值,出现为1,不出现为0,得到语音的文本特征矢量表达。
(3)情感识别模型SERModel和TERModel的建立
(A)声音情感识别模型SERModel的建立:利用声音数据集SpeechSet的样本训练卷积神经网络(convolutional neural network,CNN)分类器,具体训练方法如下:
(a)CNN分类器结构为两个卷积层加上一个全连接层,第一层使用卷积核数目采用32个;第二层卷积层采用64个卷积核,两层都采用一维的卷积层,卷积核的窗长度为10,卷积步长为1,补零策略采用“same”,保留边界处的卷积结果;
(b)第一、第二层的激活函数采用“relu”函数,训练时dropoutrate变量设置为0.2以防止过拟合;
(c)池化层采用最大值池化方式,池化窗口大小设为2,下采样因子设为2,补零策略采用“same”,保留边界处的卷积结果;
(d)最后的全连接层选用softmax激活函数对以上所有的dropout层的输出进行回归得到每类的输出概率,以此得到以最小错误率为决策策略的情感识别模型语音情感识别模型SERModel。输出结果是声音样本属于四种情感高兴H、生气A、悲伤S和平静M的概率值,声音分别为高兴的概率SH、生气的概率SA、悲伤的概率SS和平静的概率SM。
(B)将文本数据集TextSet中的样本进行训练CNN,训练方法同(A),即可得到文本情感识别模型TERModel。输出是文本样本属于四类情感高兴H、生气A、悲伤S和平静M的概率百分比,四个参数分别为高兴的概率TH、生气的概率TA、悲伤的概率TS和平静的概率TM。
(4)情感感知敏感度调整,用户输入设置四种情感高兴、生气、悲伤和平静的百分值,每个情感缺省为25%,四个总和为100%,当某个情感值大于25%时该情感识别敏感度高,当某个情感值小于25%时识别敏感度低,设置高兴的权值为PH、生气的权值为PA、悲伤的权值为PS和平静的权值为PM。
(5)决策层判断最终结果,根据每一情感类别的概率,加权融合后,识别结果就是概率大的维度代表的情感类别E。决策层根据ERAdjust模块的权值和SERModel和TERModel的输出情感类别E根据下面公式1计算最后识别的情感结果E如下:
E=Max((SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM)(1)
下面以SpeechSet数据集的样本进行训练,对表4的试验结果进行说明。
在自动情感识别领域,实验的评测标准是不加权的平均召回率,即UnweightedAverage Recall,UAR和准确率,即Accuracy score,ACC。
其中,召回率UAR是指查找出的某类实验样本数和数据库中所有的该类样本数的比率:
 
ci表示属于情感类别i分类的正确样本总数,ni表示情感类别i的样本总数,M表示情感类别个数。
其中,准确率ACC是指对于给定的测试数据集,分类器正确分类的样本数与总样本数之比:
 
ci表示属于情感类别i分类的正确样本总数,N表示样本总数,M表示情感类别个数。
本实验采用十组留一交叉验证模式,即用9个说话人的数据做为训练集,1个说话人的数据做为验证集,实验结果如表4所示。实验结果验证了本发明提出的多通道融合的自动语音情感识别方法的有效性,并且本发明可有效调整特定情感的识别灵敏度。
(1)表4第二列,情感感知灵敏度权值使用缺省设置,即PH=25%,PA=25%,PS=25%,PM=25%,对应的各类情感的样本识别准确率ACC和召回率UAR。
(2)表4第三列,当情感感知灵敏度权值设置为PH=30%,PA=24%,PS=22%,PM=22%,即高兴的识别灵敏度提高,高兴情绪的召回率由缺省参数时的60%提升到当前的78%。
(3)第4第四列中,当情感感知灵敏度权值设置为PH=24%,PA=25%,PS=30%,PM=21%,即悲哀的识别灵敏度提高,悲哀情感的召回率由缺省参数时的62%提高到当前的79%。
表4不同情感感知灵敏度下的每类情感召回率和总体准确率
 
本发明提供的方法可以应用在以下几个领域,但不限制于以下几个领域:
1、在服务业上,本发明提供的语音情感识别技术应用在自动远程电话服务中心系统上,通过理解客户的“画外音”及时发现客户的不满情感,使得公司能够及时有效地做出变通,最大限度地保留住可能的客户资源。
2、在教育业上,本发明提供的语音情感识别技术应用在计算机远程教学系统上,老师可以及时识别学生的情感并做出适当的处理,从而提高教学质量。
3、在医学上,本发明提供的语音情感识别技术应用在医学计算机上,能帮助那些缺乏正常情感反应和交流的孤僻症患者反复练习情感交流,逐步达到康复的目的

一种基于敏感度可调的语音情感识别方法及系统相关推荐

  1. java识别农作物病虫害源码,一种基于微信公众号的农作物虫害识别方法及其系统与流程...

    本发明涉及农业技术领域,具体涉及一种基于微信公众号的农作物虫害识别方法及其系统. 背景技术: 针对目前我国农作物害虫诊断大多停留在人工阶段,存在着客观性差.效率低.劳动强度大等问题,以及现有的基于图像 ...

  2. 基于Attention机制的BiLSTM语音情感识别研究与系统实现

    1.摘要 以往的情感分类大多是基于粗粒度进行的,针对七分类情感语料进行的研究不多,且最终的情感分类结果只包含一种情感,很少对多情感共存现象进行研究,因此不能完全体现用户情感的丰富性. 针对这些不足,本 ...

  3. 【论文阅读】多粒度特征融合的维度语音情感识别方法

    陈婧, 李海峰, 马琳, et al. 多粒度特征融合的维度语音情感识别方法[J]. 信号处理, 2017(3). 主要内容:针对传统维度语音情感识别系统采用全局统计特征造成韵律学细节信息丢失以及特征 ...

  4. 【情感识别】SVM语音情感识别(带面板)【含GUI Matlab源码 876期】

    ⛄一.SVM语音情感识别简介 0 引 言 语音情感识别是当前研究热点,在人机交互(Human-Computer Interaction,HCI)领域的应用价值日益突显.在今天的HCI系统中,机器可以通 ...

  5. android 电视语音遥控器,基于遥控器的Android电视语音聊天系统及其方法与流程

    本发明涉及,尤其涉及一种基于遥控器的Android电视语音聊天系统及其方法. 背景技术: 随着科技越来越发展,电视机的功能也越来越强大,对于电视机,相对于传统电视机的单纯看电视功能,现有技术中,还支持 ...

  6. matlab svm 语音识别,【情感识别】基于matlab支持向量机(SVM)的语音情感识别【含Matlab源码 543期】...

    一.简介 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本.非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数 ...

  7. 语音情感识别研究现状

    语音情感识别研究现状 情感是什么 语音情感识别是什么 为什么要研究语音情感识别 语音情感识别方法 语音情感识别未来趋势 情感是什么 情感是什么:按照当前心理学研究表示为情绪,或者是感觉的体现.这些都是 ...

  8. 空间金字塔匹配 matlab,基于核函数匹配的空间金字塔物体识别方法

    基于核函数匹配的空间金字塔物体识别方法 [技术领域]: [0001] 本发明涉及机器视觉领域,特别涉及一种基于核函数匹配的空间金字塔物体识别 方法. [背景技术]: [0002] 随着计算机和多媒体技 ...

  9. 语音情感识别(Speech Emotion Recognition)相关资料

    150 万条语音的情感分析 - 云+社区 - 腾讯云 深度学习论文笔记 - 一夜星辰 - 博客园 语音情感 - 博客园 语音情感 - GitHub 语音情感 - Gitee 语音情感识别 · GitH ...

最新文章

  1. 盘点那些最常用的Linux命令,都应该记熟!
  2. spring 数组中随机取几个_游戏编程中需要掌握哪些数学物理知识
  3. SpringMVC环境配置全过程IntelliJ IDEA 2020.3.1
  4. 辨异 —— 不同的编程语言(编译型语言、解释型语言、动态语言、静态语言)...
  5. Linux设备驱动模型3——platform平台总线工作原理
  6. java 俄罗斯方块窗口_[代码全屏查看]-java 俄罗斯方块
  7. 本年度读书计划-看几本必须好好琢磨的书
  8. (转)“跑批”发展编年史
  9. Oracle傻瓜手册
  10. 《软件工程导论》期末复习知识点总结(全)
  11. Fragstats景观多样性
  12. FPS游戏的方框透视+自瞄原理
  13. 开发一个APP要多少钱?
  14. TalkingData的移动大数据探索:联合Kochava发布移动广告监测国际版
  15. JS/JQuery如何判断文本中是否有繁体字
  16. vue项目落地(qiankun.js)微前端服务
  17. Nature reviews Neurology:癫痫合并神经行为障碍:基于网络的精确分类
  18. Kafka的灵魂伴侣Logi-KafkaManger(2)之kafka针对Topic粒度的配额管理(限流)
  19. 有一副由NxN矩阵表示的图像,这里每个像素用一个int表示,请编写一个算法,在不占用额外内存空间的情况下(即不使用缓存矩阵),将图像顺时针旋转90度。 给定一个NxN的矩阵,和矩阵的阶数N,请返回旋转
  20. OSI参考模型与TCP/IP协议

热门文章

  1. 程序运行产生SIGABRT信号的原因
  2. R和RStudio软件安装
  3. EFM32片内外设--VCMP 基本操作
  4. 完整打造一个多功能音乐播放器项目(初步设想跟酷狗类似)
  5. Stimulsoft Reports报告工具,Stimulsoft创建和构建报告
  6. 平台建设的7大问题:蚂蚁AI平台实践深度总结
  7. VS程序中使用ODBC登陆sql数据库的时候出现18456错误
  8. android 1.5 app,萌新编程app
  9. 过年别再逼婚了,《黑镜》里的AI相亲系统是对爱情最好的匹配
  10. 【从零开始学深度学习编译器】十三,如何在MLIR里面写Pass?