引言:目前大体学习多模态语音情感识别,对语音数据的训练过程有个初步的了解,但对于原始语音音频生成具体的数据特征、以及如何获取有些疑惑,因此通过这篇文章来总结语音情感识别中的音频特征检测算法。

音频检测的关键技术-MFCC特征提取

为了从音频信号中提取语音信息,目前使用的是普遍用于分析音频信号的mfcc值。MFCC(梅尔频率倒谱系数),梅尔频率是基于人耳听觉特性提取出来的,和赫兹频率呈现一个非线性对应关系。梅尔频率倒谱系数是利用好梅尔频率和赫兹频谱关系计算得出的赫兹频谱特征,其主要应用于语音数据的特征提取。

如图显示MFCC提取语音特征的过程,从输入语音进行傅里叶变换,从中得到频谱,然后通过梅尔滤波器进行倒谱分析,在得到MFCC系数。

具体步骤是:对语音信号进行分帧处理;在用周期图法来进行功率谱估计;接着对功率谱用Mel滤波器进行滤波,计算每个滤波器里的能量;同时对每个滤波器的能量取log;在进行DCT变换;保留DCT的第2-13个系数,去掉其他。

具体可以参考:MFCC特征提取教程 - 李理的博客http://fancyerii.github.io/books/mfcc/

音频检测的关键技术 特征提取-DBN

MFCC是显示语音浅层的特征,只要通过语音参数的分析就可以得到,但是不同人说话的声音特征还体现在其他方面, 所以通过神经网络中的特征层BottleNeck进行特征提取。

其他

通俗来说获取音频数据中就是将音频中的蕴含的音频、谐波、音量等信号转换为具体的语音特征。

音频特征生成:

        音调:即声带产生的波形会随着我们的情绪而变化。自相关的中心剪裁帧算法估计音调信号。

        谐波:在愤怒的情绪状态或紧张的讲话中,除了音调之外,还有其他激励信号。这种额外的激励在频谱中表现为谐波和交叉谐波。我们基于中值的滤波器计算谐波。

        音量(语音能量):由于语音信号的能量与其响度有关,我们可以用它来检测特定的情绪。比如“愤怒”信号比“悲伤”信号在能级上更强。使用RMSE来计算,RMSE逐帧计算,我们将平均偏差和标准偏差作为特征。

        静音:这个数量与我们的情绪直接相关;例如,我们在激动时往往会说得很快(比如,生气或高兴,导致停顿值很低)。  

        中心矩:使用信号振幅的平均值和标准偏差来合并输入的“汇总”信息。

语音情感识别中的音频检测算法学习相关推荐

  1. 计算机视觉子方向,计算机视觉方向简介 | 人脸识别中的活体检测算法综述

    原标题:计算机视觉方向简介 | 人脸识别中的活体检测算法综述 本文转载自"SIGAI人工智能学习与实践平台"(ID:SIGAICN) 导言 1. 什么是活体检测? 判断捕捉到的人脸 ...

  2. 人脸识别中的活体检测算法

    人脸识别中的活体检测算法综述 1. 什么是活体检测? 判断捕捉到的人脸是真实人脸,还是伪造的人脸攻击(如:彩色纸张打印人脸图,电子设备屏幕中的人脸数字图像 以及 面具 等) 2. 为什么需要活体检测? ...

  3. 人脸识别中的活体检测算法综述

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 1. 什 ...

  4. 浅析人脸识别中的活体检测算法的几种类型

    人脸识别技术在各种有安全性需求的身份识别鉴定场景有着广泛应用,例如手机电脑解锁, 企业住宅安全管理,公安司法刑侦等领域.目前已经有了越来越多的基于人脸识别的应用,例如我们现在应用极广的"刷脸 ...

  5. 基于音频和文本的多模态语音情感识别(一篇极好的论文,值得一看哦!)

    基于音频和文本的多模态语音情感识别 语音情感识别是一项具有挑战性的任务,在构建性能良好的分类器时,广泛依赖于使用音频功能的模型.本文提出了一种新的深度双循环编码器模型,该模型同时利用文本数据和音频信号 ...

  6. 语音情感识别研究进展综述

    人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能够反映说话人情感状态的信息(如特殊的语气词.语调的变化等)的能力.自动语音情感识别则是计算机对人类上述情感感知 ...

  7. 一种基于敏感度可调的语音情感识别方法及系统

    一种基于敏感度可调的语音情感识别方法及系统 技术领域 本发明属于语音识别领域,尤其涉及一种基于敏感度可调的语音情感识别方法及系统. 背景技术 情感是人类交流手段的一种常见的表达方式,在人机交互中起着重 ...

  8. 语音情感识别--RNN

    1. 背景与简介 1.1. 现状 计算机只能识别"说了什么",无法识别"谁说的"."怎样说". 1.2. 目标 关注"怎样说&qu ...

  9. 基于CNN+MFCC的语音情感识别

    个人博客:http://www.chenjianqu.com/ 原文链接:http://www.chenjianqu.com/show-45.html 近年来 ,随着信息技术的飞速发展 ,智能设备正在 ...

最新文章

  1. ITK:将颜色贴图应用于图像
  2. 使用ABAP代码获得Netweaver环境变量
  3. 坑爹的uint32_t
  4. Django框架——HttpResponse对象
  5. 归档-软考部分科目的考察内容
  6. php 数组相乘,PHP如何计算数组中所有值的乘积?(代码示例)
  7. 马斯克刚骂了激光雷达,这篇用纯视觉代替激光雷达的名校论文「力挺」了他...
  8. JAVA之CRC校验算法
  9. eclipse上svn创建分支、合并、切换
  10. NVIDIA GPU简史、命名规则及基础知识
  11. 计算机毕业设计-SSM企业OA管理系统-JavaWeb企业OA管理系统
  12. DR,TUN,NAT优缺点
  13. python导入Wordcloud包
  14. 影响计算机性能的决定因素,影响cpu性能的因素有哪些
  15. 【谷粒商城 - k8s、devOps专栏】
  16. VennDiagram包绘制Venn图
  17. 普通程序员如何走出困境?【转】
  18. 什么是 ASP.NET?
  19. 知识图谱本体建模工具Protege使用教程
  20. L2TP客户端之Strongswan移植(一)

热门文章

  1. python自动排版公众号_那些排版好看的公众号,都在偷偷使用这些神器
  2. Dice Loss与mIoU
  3. linux桌面系统 5种经典的Linux桌面系统
  4. Jsrpc学习——网易云热评加密函数逆向
  5. Qt 数字报阅读器 图文版
  6. 【c++】——函数的堆栈调用详细过程
  7. 本机修改虚拟机linux中的代码文件
  8. 解析力評測(1) MTF和SFR
  9. arcgis制作瓦片地图_一种GIS瓦片地图的存储方式的制作方法
  10. 干支纪年法简便算法_天干地支的简单算法