【论文阅读】智能设备中基于深度特征的语音情感识别
- Badshah A M , Rahim N , Ullah N , et al. Deep features-based speech emotion recognition for smart affective services[J]. Multimedia Tools and Applications, 2017.
文章目录
- 摘要
- 主要创新点
- 本文的主要工作
- 数据集
- 具体方法
- 原始数据
- 网络结构
- 实验方法
- 实验一:探究CNN性能——AlexNet
- 实验二:带噪语料库
- 总结
摘要
语音情感识别具有包括智能医疗、自主语音响应系统、急救中心评估呼叫者情景严重性等多种应用。本文提出了一种基于深度卷积神经网络的方法。通常CNN使用方形的卷积核,并且在不同层使用池化操作,这些操作均适合于2D的图像数据。然而在语音频谱图中,信息使用不同的编码方式,x轴表示时间,y轴表示信号频率,振幅由频谱图中特定位置的强度表示。为了从频谱图中分析语音信号,本文提出使用不同形状的矩形卷积核,以及在矩形范围中使用最大池化的方式以提取特征。本方案在EmoDB库和韩语语音数据库上有效学习了语谱图的判别特征,实现了比许多现有技术更好的性能。
主要创新点
- 在kernel_size、pool_size、strides等设置上改为矩形,并且模仿了AlexNet的结构进行实验
本文的主要工作
- 提出了一种使用矩形核和修正池化策略的CNN结构
- 评估了提出网络在有噪环境下的性能,并与对照网络进行对比
数据集
EmoDB数据库 7种基本情绪
Korean real calls from emergencies using phones
具体方法
原始数据
一维时间序列转换为语谱图处理
- 直接将语音转换为语谱图
- 以overlap:50%将完整的语谱图分割,由16×256变为256×256
网络结构
(图片上有明显标注错误,晕死)
Layer | Shape | n_kernel | kernel_size | stride_size | Activation | Method |
---|---|---|---|---|---|---|
conv1 | 16×256, resized to 256×256 | 96 | (15, 3) | (3, 1) | ReLU | |
pool1 | (3, 1) | (2, 1) | max | |||
conv2 | 256 | (9, 3) | (1, 1) | ReLU | ||
pool2 | (3, 1) | (1, 1) | max | |||
conv3 | 384 | (7, 3) | (1, 1) | ReLU | ||
pool3 | (3, 1) | (1, 1) | max | |||
conv4 | 384 | (7, 1) | (1, 1) | ReLU | ||
pool4 | (3, 1) | (1, 1) | max | |||
conv5 | 256 | (7, 1) | (1, 1) | ReLU | ||
pool5 | (3, 1) | (2, 1) | max | |||
fc1 | 4096 | dropout=0.75 | ||||
fc2 | 4096 | dropout=0.75 | ||||
fc3 | 7 | Softmax |
实验方法
- 75%训练数据,25%测试数据,五倍交叉验证
- batch_size = 128, epochs = 10
- initial learning rate = 0.01, with a decay of 1 after every 10 epochs(每10个周期衰减一次)
实验一:探究CNN性能——AlexNet
square shaped kernels | rectangular shaped kernels |
---|---|
总体来说,性能变化不大。但在happy、boredom等易混淆情绪上的识别率明显提高。
实验二:带噪语料库
- 语料库标签分为“正常”和“有情感”两种
- 训练模型并进行识别,与SVM、Decision Tree、Random Forest、AlexNet进行对比。
总结
文章认为矩形核能够更好的拟合语谱图的形式。
个人认为本文章很普通,模型上不具有太大的学习性。。。但其中一个想法很好,就是使用带噪语料库进行实验,这在其他论文中是不常见的,不过这也可能是作者凑篇幅的产物hhhh,个人意见,请勿上纲上线,不喜勿踩。
【论文阅读】智能设备中基于深度特征的语音情感识别相关推荐
- ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型
本次分享华南理工大学.优必选研究院等合作在ICASSP2023会议发表的论文<DST: Deformable Speech Transformer for Emotion Recognition ...
- 基于CNN+MFCC的语音情感识别
个人博客:http://www.chenjianqu.com/ 原文链接:http://www.chenjianqu.com/show-45.html 近年来 ,随着信息技术的飞速发展 ,智能设备正在 ...
- 【情感识别】基于matlab BP神经网络语音情感识别【含Matlab源码 349期】
一.BP神经网络语音情感识别简介 0 引言 随着科技的迅速发展, 人机交互显得尤为重要.语音是语言的载体, 是人与人之间交流的重要媒介.相较于其它交流方式而言, 语音交流更加直接.便捷.近年来, 随着 ...
- 论文阅读02:基于深度学习的图像细粒度分类算法
阅读一篇上海师范大学的硕士论文 这个方法目前看不懂
- 基于深度学习的语音分类识别(附代码)
音频与我们生活有着十分联系. 我们的大脑不断处理和理解音频数据,并为您提供有关环境的信息. 一个简单的例子就是你每天与人交谈. 这个演讲被另一个人看出来进行讨论. 即使你认为自己处于一个安静的环境中, ...
- 基于Attention机制的BiLSTM语音情感识别研究与系统实现
1.摘要 以往的情感分类大多是基于粗粒度进行的,针对七分类情感语料进行的研究不多,且最终的情感分类结果只包含一种情感,很少对多情感共存现象进行研究,因此不能完全体现用户情感的丰富性. 针对这些不足,本 ...
- 在OpenCV中基于深度学习的边缘检测
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:AI算法与图像处理 导读 分析了Canny的优劣,并给出 ...
- 基于深度学习的命名实体识别研究综述——论文研读
基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...
- [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述
1. 题目 Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, N ...
最新文章
- ios兼容 iphoneX ios10 ios11
- 如何使用 Nginx 优雅地限流?
- Mac安装php和redis扩展
- win10无法开启夜间模式
- Spring容器的底层实现
- 案例:监听域对象的属性变更
- linux中快捷脚本,Linux下Shell编程快捷键大全(日常整理)
- WCF技术剖析之六:为什么在基于ASP.NET应用寄宿(Hosting)下配置的BaseAddress无效...
- 修改服务器的AJP监听地址,修改服务器的AJP监听地址
- python多个对象嵌套会有问题吗_Python列表嵌套常见坑点及解决方案
- 人生苦短,请用 Chrome!
- 软件需求规格说明书范例
- 非合作博弈篇——纳什均衡(Nash Equilibrium)
- 如何使用Vegas进行调音?
- Android5.0+win8双系统平板PK苹果ipad
- 笔记本的结构深入分析
- python机器学习实战一:入门
- GDT陶瓷气体放电管的材质介绍
- Ubuntu 安装shutter
- 清华计算机系超算团队,清华学生超算团队获得国际大学生超级计算机竞赛总冠军...
热门文章
- 小程序webview组件实践
- vue 使用 el-table 添加搜索框 实现简单搜索功能 ,同时判断输入是否为空
- Excel函数应用之查询与引用函数
- 电脑无规律无响应,鼠标能动但是点击无反应一直在转圈。
- 手机从哈林子弹节省人力
- intel32/ctor.dll mysql_ctor.dll,下载,简介,描述,修复,等相关问题一站搞定_DLL之家
- hangfire mysql_Hangfire 在.NET Core环境的使用
- lga2066服务器准系统,LGA2066低配版Corei7-7740K再曝光:21WTDP换来100MHz频率
- 视频超分修复,让重温经典影片有了新的可能
- C语言判断第几天(最简版)