• Badshah A M , Rahim N , Ullah N , et al. Deep features-based speech emotion recognition for smart affective services[J]. Multimedia Tools and Applications, 2017.

文章目录

  • 摘要
  • 主要创新点
  • 本文的主要工作
  • 数据集
  • 具体方法
    • 原始数据
    • 网络结构
    • 实验方法
      • 实验一:探究CNN性能——AlexNet
      • 实验二:带噪语料库
  • 总结

摘要

语音情感识别具有包括智能医疗、自主语音响应系统、急救中心评估呼叫者情景严重性等多种应用。本文提出了一种基于深度卷积神经网络的方法。通常CNN使用方形的卷积核,并且在不同层使用池化操作,这些操作均适合于2D的图像数据。然而在语音频谱图中,信息使用不同的编码方式,x轴表示时间,y轴表示信号频率,振幅由频谱图中特定位置的强度表示。为了从频谱图中分析语音信号,本文提出使用不同形状的矩形卷积核,以及在矩形范围中使用最大池化的方式以提取特征。本方案在EmoDB库和韩语语音数据库上有效学习了语谱图的判别特征,实现了比许多现有技术更好的性能。

主要创新点

  • 在kernel_size、pool_size、strides等设置上改为矩形,并且模仿了AlexNet的结构进行实验

本文的主要工作

  1. 提出了一种使用矩形核和修正池化策略的CNN结构
  2. 评估了提出网络在有噪环境下的性能,并与对照网络进行对比

数据集

EmoDB数据库 7种基本情绪
Korean real calls from emergencies using phones

具体方法

原始数据

一维时间序列转换为语谱图处理

  1. 直接将语音转换为语谱图
  2. 以overlap:50%将完整的语谱图分割,由16×256变为256×256

网络结构

(图片上有明显标注错误,晕死)

Layer Shape n_kernel kernel_size stride_size Activation Method
conv1 16×256, resized to 256×256 96 (15, 3) (3, 1) ReLU
pool1 (3, 1) (2, 1) max
conv2 256 (9, 3) (1, 1) ReLU
pool2 (3, 1) (1, 1) max
conv3 384 (7, 3) (1, 1) ReLU
pool3 (3, 1) (1, 1) max
conv4 384 (7, 1) (1, 1) ReLU
pool4 (3, 1) (1, 1) max
conv5 256 (7, 1) (1, 1) ReLU
pool5 (3, 1) (2, 1) max
fc1 4096 dropout=0.75
fc2 4096 dropout=0.75
fc3 7 Softmax

实验方法

  • 75%训练数据,25%测试数据,五倍交叉验证
  • batch_size = 128, epochs = 10
  • initial learning rate = 0.01, with a decay of 1 after every 10 epochs(每10个周期衰减一次)
实验一:探究CNN性能——AlexNet
square shaped kernels rectangular shaped kernels

总体来说,性能变化不大。但在happy、boredom等易混淆情绪上的识别率明显提高。

实验二:带噪语料库
  • 语料库标签分为“正常”和“有情感”两种
  • 训练模型并进行识别,与SVM、Decision Tree、Random Forest、AlexNet进行对比。

总结

文章认为矩形核能够更好的拟合语谱图的形式。
个人认为本文章很普通,模型上不具有太大的学习性。。。但其中一个想法很好,就是使用带噪语料库进行实验,这在其他论文中是不常见的,不过这也可能是作者凑篇幅的产物hhhh,个人意见,请勿上纲上线,不喜勿踩。

【论文阅读】智能设备中基于深度特征的语音情感识别相关推荐

  1. ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型

    本次分享华南理工大学.优必选研究院等合作在ICASSP2023会议发表的论文<DST: Deformable Speech Transformer for Emotion Recognition ...

  2. 基于CNN+MFCC的语音情感识别

    个人博客:http://www.chenjianqu.com/ 原文链接:http://www.chenjianqu.com/show-45.html 近年来 ,随着信息技术的飞速发展 ,智能设备正在 ...

  3. 【情感识别】基于matlab BP神经网络语音情感识别【含Matlab源码 349期】

    一.BP神经网络语音情感识别简介 0 引言 随着科技的迅速发展, 人机交互显得尤为重要.语音是语言的载体, 是人与人之间交流的重要媒介.相较于其它交流方式而言, 语音交流更加直接.便捷.近年来, 随着 ...

  4. 论文阅读02:基于深度学习的图像细粒度分类算法

    阅读一篇上海师范大学的硕士论文 这个方法目前看不懂

  5. 基于深度学习的语音分类识别(附代码)

    音频与我们生活有着十分联系. 我们的大脑不断处理和理解音频数据,并为您提供有关环境的信息. 一个简单的例子就是你每天与人交谈. 这个演讲被另一个人看出来进行讨论. 即使你认为自己处于一个安静的环境中, ...

  6. 基于Attention机制的BiLSTM语音情感识别研究与系统实现

    1.摘要 以往的情感分类大多是基于粗粒度进行的,针对七分类情感语料进行的研究不多,且最终的情感分类结果只包含一种情感,很少对多情感共存现象进行研究,因此不能完全体现用户情感的丰富性. 针对这些不足,本 ...

  7. 在OpenCV中基于深度学习的边缘检测

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:AI算法与图像处理 导读 分析了Canny的优劣,并给出 ...

  8. 基于深度学习的命名实体识别研究综述——论文研读

    基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...

  9. [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述

    1. 题目 Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, N ...

最新文章

  1. ios兼容 iphoneX ios10 ios11
  2. 如何使用 Nginx 优雅地限流?
  3. Mac安装php和redis扩展
  4. win10无法开启夜间模式
  5. Spring容器的底层实现
  6. 案例:监听域对象的属性变更
  7. linux中快捷脚本,Linux下Shell编程快捷键大全(日常整理)
  8. WCF技术剖析之六:为什么在基于ASP.NET应用寄宿(Hosting)下配置的BaseAddress无效...
  9. 修改服务器的AJP监听地址,修改服务器的AJP监听地址
  10. python多个对象嵌套会有问题吗_Python列表嵌套常见坑点及解决方案
  11. 人生苦短,请用 Chrome!
  12. 软件需求规格说明书范例
  13. 非合作博弈篇——纳什均衡(Nash Equilibrium)
  14. 如何使用Vegas进行调音?
  15. Android5.0+win8双系统平板PK苹果ipad
  16. 笔记本的结构深入分析
  17. python机器学习实战一:入门
  18. GDT陶瓷气体放电管的材质介绍
  19. Ubuntu 安装shutter
  20. 清华计算机系超算团队,清华学生超算团队获得国际大学生超级计算机竞赛总冠军...

热门文章

  1. 小程序webview组件实践
  2. vue 使用 el-table 添加搜索框 实现简单搜索功能 ,同时判断输入是否为空
  3. Excel函数应用之查询与引用函数
  4. 电脑无规律无响应,鼠标能动但是点击无反应一直在转圈。
  5. 手机从哈林子弹节省人力
  6. intel32/ctor.dll mysql_ctor.dll,下载,简介,描述,修复,等相关问题一站搞定_DLL之家
  7. hangfire mysql_Hangfire 在.NET Core环境的使用
  8. lga2066服务器准系统,LGA2066低配版Corei7-7740K再曝光:21WTDP换来100MHz频率
  9. 视频超分修复,让重温经典影片有了新的可能
  10. C语言判断第几天(最简版)