多个文章介绍了用卷积网络实现语音分类的思想和实现过程, 在数据准备过程中需要关注的一些点总结如下:

1.数据集 urbandsound8K

2.数据分类10

3.基本思路:

3.1) 对音频段计算每帧MFCC

3.2)多个帧MFCC构成时间相关的输入序列

3.3).利用lstm或rnn网络,多mfcc序列进行分类

4.音频预处理

urbandsound8K 数据集中的音频片段采样率,通道数,采样位数有不同,比如48k,44,1K采样, 单双通道,16bit,24bit音频均有。故先要统一转换成16K采样,16bit音频和单声道。

4.1)双通道转单通道方法:

4.1.1)仅取某一通道数据(本文取此方法)

4,1.2)取两通道数据平均值

4.2)音频重采样

要考虑不同情况,比如48k转换为16K, 8K转换为16K. 此处采用fft实现音频重采样,最大限度减少过程中的质量损失

4.3)采样位数变化

4.3.1)8比特转16比特。注意8比特音频为无符号数 ,中值为128,转换到16比特时要减去128再乘以256

4.3.2)24比特转16比特。24比特音频采用小端存储,为有符号数,最大值为2^23.可以先转为【-1,1】之间的32位浮点数,然后再乘以32767变为16比特音频数据

5.mfcc计算

主要是采用fft3w库计算fft,然后计算标准的mfcc值,基本过程为:预加重,加窗,fft变换,计算平方能量值,  DCT变换,解卷积,倒谱提升

6.神经网络选择

可以基于CNN也可以基于lstm或rnn.从实际测试情况看,采用cnn网络具有更好的分辨准确率。而加入了mfcc一阶差分的比不加入具有更高的分辨准确率,初步训练后,测试准确率为75%

用神经网络实现语音分类相关推荐

  1. 基于神经网络的语音频带扩展

    本博客转载自顾宇的<基于神经网络的语音频带扩展方法研究>,大家可从知网获取. 摘要 语音频带扩展旨在从频带受限的窄带语音信号中恢复宽带语音信号.由于受到语音采集设备以及信道条件的限制,传输 ...

  2. Matlab神经网络语音增强,基于BP神经网络的语音增强研究

    曰髯? 分类号: 论文编号:2丛坦丝旦生丛 密级:公开 贵州大学 2009届硕士研究生学位论文 基于即神经网络的语音增强研究 学科专业:电路与系统 研究方向:模式识别 导师:刘宇红教授 研究生:周元芬 ...

  3. 简单的语音分类任务入门

    引言 上次公众号刚刚讲过使用 python 播放音频与录音的方法,接下来我将介绍一下简单的语音分类处理流程.简单主要是指,第一:数据量比较小,主要是考虑到数据量大,花费的时间太长.作为演示,我只选取了 ...

  4. RNN语音分类-普通话广东话分类

    利用循环神经网络,基于梅尔频率倒谱系数(MFCC)的语音信号处理技术来进行语音分类,由于只有两个分类,学习难度不算大.对语音分类后可以将语音传给百度不同类别的语音识别翻译出对应的文字. 收集数据及整理 ...

  5. 基于Matlab的BP神经网络在语音特征信号识别中的应用

    本微信图文详细介绍了BP神经网络在语音特征信号中的应用,并给出了Matlab源码.

  6. Tensorflow实现神经网络及实现多层神经网络进行时装分类

    Tensorflow实现神经网络及实现多层神经网络进行时装分类 1. tf.keras构建模型训练评估测试API介绍 import tensorflow as tf from tensorflow i ...

  7. 使用神经网络做二分类,输出层需要几个神经元?应该选择哪一种激活函数?如果要处理minst数据、输出层需要几个神经元?使用那种激活函数?如果使用神经网络预测房价,输出层需要几个神经元、使用什么激活函数?

    使用神经网络做二分类,输出层需要几个神经元?应该选择哪一种激活函数?如果要处理minst数据.输出层需要几个神经元?使用那种激活函数?如果使用神经网络预测房价,输出层需要几个神经元.使用什么激活函数? ...

  8. 使用卷积神经网络进行文本分类textCNN

    使用卷积神经网络进行文本分类textCNN 一维卷积层 我们可以将文本当作一维图像,从而可以用一维卷积神经网络来捕捉临近词之间的关联.与二维卷积层一样,一维卷积层使用一维的互相关运算.在一维互相关运算 ...

  9. 3.9 神经网络解决多分类问题-机器学习笔记-斯坦福吴恩达教授

    神经网络解决多分类问题 假定我们需要将图像分为四类: 行人图像 车辆图像 摩托车图像 卡车图像 这是一个多分类问题,由于图像特征较多,因此我们可以考虑设计含有多个隐含层的神经网络来完成特征优化(扩展) ...

最新文章

  1. (multi)set的某些操作
  2. 基于ServletJsp的网上书店设计(二)
  3. CentOS 7安装GNOME图形界面并设置默认启动
  4. 如何用Unity和Cardboard做一款VR游戏
  5. CCIE-LAB-第五篇-SDN-SD-WAN-BGP-OMP(sdwan版的路由协议)
  6. 没有完美的软件:编程永远不容易
  7. mysql磁盘无法挂载,linux – 无法挂载磁盘(VFS:找不到ext4文件系统)
  8. extJs相关名字解释
  9. 收藏 | 李飞飞经典CS231N《卷积神经网络视觉识别》第十一讲!
  10. u盘安装linux系统自动关机,将u盘拔出后电脑自动关机怎么解决【解决方法】
  11. 1.单进程SAPI生命周期
  12. 扫描软件(to be followed)
  13. 邹博机器学习算法最新版 --- 献给想要入门、或者想要进阶的朋友
  14. arduino 有源 蜂鸣器_(二十)arduino入门:蜂鸣器的使用
  15. RTKlib单点定位-部分思考
  16. OC5022B内置MOS的开关降压型恒流驱动芯片
  17. docker安装了nacos,浏览器却无法访问到页面
  18. FireStart教程:基于SharePoint的出差报销流程四
  19. VC所有版本一键清除缓存垃圾脚本
  20. node安装node-pre-gyp报错的解决方案

热门文章

  1. 程序员小说 Out Of Memory (三)
  2. latex小技巧—极限符号下方分成两行
  3. string转map报错
  4. LMS、kalman、RLS的Matlab仿真
  5. 认识物联网系列——物联网架构
  6. C#dgv调用数据中存储的路径来显示图片
  7. Vivado:Generate Bitstream比特流写入失败的解决方法
  8. amazing,盗走女友微信后,竟在微信号里看见了……
  9. Guava学习笔记:Google Guava 类库简介
  10. 数学在计算机方面的应用论文参考文献,应用数学毕业论文参考文献精选