1. 预备知识(基础概念)

详见 https://blog.csdn.net/shanx_s/article/details/52947007

详见 https://blog.csdn.net/Barry_J/article/details/80996564

2. 读取音频文件并进行音频特征提取

2.1 用audioread(”);函数读取电脑中的音频文件,参数是音频文件的路径:

[sampledata,FS] = audioread('F:1.mp3');

2.2 判断音频数据是否是双声道,如果是双声道则保留一个声道的数据,用calsample.m文件的函数完成此功能,程序如下:

function sample = calsample(sampledata,FS)
temp_sample = resample(sampledata,1,FS/22050);
[m,n] = size(temp_sample);
if (n == 2)sample = temp_sample(:,1);
elsesample = temp_sample;
end
end

3. MFCC特征提取 (语音识别)

简单可以分为如下:

  • 对音频信号预加重、分帧和加窗
  • FFT(快速傅里叶变换)得到频谱
  • 频谱通过Mel滤波器组得到Mel频谱
  • 在Mel频谱上面进行倒谱分析得到MFCC特征

详细参考: https://blog.csdn.net/yunnangf/article/details/78965446

实现的代码:

注:在提取MFCC参数之前需要加载并使用VOICEBOX工具包

[x fs]=wavread('clip1.wav');
bank=melbankm(24,256,fs,0,0.4,'t');%Mel滤波器的阶数为24,fft变换的长度为256,采样频率为16000Hz
%归一化mel滤波器组系数
bank=full(bank);
bank=bank/max(bank(:));
for k=1:12         %归一化mel滤波器组系数
n=0:23;
dctcoef(k,:)=cos((2*n+1)*k*pi/(2*24));
end
w=1+6*sin(pi*[1:12]./12);%归一化倒谱提升窗口
w=w/max(w);%预加重滤波器
xx=double(x);
xx=filter([1-0.9375],1,xx);%语音信号分帧
xx=enframe(xx,256,80);%对x 256点分为一帧
%计算每帧的MFCC参数
for i=1:size(xx,1)
y=xx(i,:);
s=y'.*hamming(256);t=abs(fft(s));%fft快速傅立叶变换
t=t.^2;c1=dctcoef*log(bank*t(1:129));
c2=c1.*w';
m(i,:)=c2';
end
%求取一阶差分系数
dtm=zeros(size(m));
for i=3:size(m,1)-2
dtm(i,:)=-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:);
end
dtm=dtm/3;
%求取二阶差分系数
dtmm=zeros(size(dtm));
for i=3:size(dtm,1)-2
dtmm(i,:)=-2*dtm(i-2,:)-dtm(i-1,:)+dtm(i+1,:)+2*dtm(i+2,:);
end
dtmm=dtmm/3;
%合并mfcc参数和一阶、二阶差分mfcc参数
ccc=[m dtm dtmm];
%去除首尾两帧,因为这两帧的一阶差分参数为0
ccc=ccc(3:size(m,1)-2,:);
ccc
% subplot(2,1,1)
% ccc_1=ccc(:,1);
% plot(ccc_1);title('MFCC');ylabel('幅值');
% [h,w]=size(ccc);
% A=size(ccc);
% subplot(212)
% plot([1,w],A);
% xlabel('维数');
% ylabel('幅值');
% title('维数与幅值的关系')

不同MFCCs可能存在的差别:

  • Mel映射关系(如HTK方式与Slaney)
  • Mel滤波器的归一化
  • DCT系数计算方式
  • Mel带数量与宽度
  • Mel频率范围
  • 倒谱提升方式-rasta、htk、或者无
  • 短时傅里叶变换各个参数
  • 抖动或DC消除
  • 预加重

关于mfcc的对比,可以参看这里,还可以看下这篇论文 Comparative_evaluation_of_various_MFCC_implementat

用于深度神经网络的语音信号预处理相关推荐

  1. 【深度学习】万字综述:用于深度神经网络加速的Shift操作

    作者丨科技猛兽 编辑丨极市平台 导读 如何同时满足减少可学习参数的数量以及维持computation/memory access比值?你需要Shift操作.本文将详细介绍shift操作的具体方法.如何 ...

  2. 关于Tensorflow用于深度神经网络训练中的一些问题

    小弟刚接触tensorflow,之前在一篇文章中看到一个用于DNN神经网络预测,想尝试对该代码进行一点修改.原文:https://blog.csdn.net/xxzhangx/article/deta ...

  3. 基于神经网络的语音频带扩展

    本博客转载自顾宇的<基于神经网络的语音频带扩展方法研究>,大家可从知网获取. 摘要 语音频带扩展旨在从频带受限的窄带语音信号中恢复宽带语音信号.由于受到语音采集设备以及信道条件的限制,传输 ...

  4. 深度神经网络的特征表示,神经网络识别图像原理

    有哪些深度神经网络模型? 目前经常使用的深度神经网络模型主要有卷积神经网络(CNN).递归神经网络(RNN).深信度网络(DBN).深度自动编码器(AutoEncoder)和生成对抗网络(GAN)等. ...

  5. 深度神经网络混合精度训练

    深度神经网络混合精度训练 Mixed-Precision Training of Deep Neural Networks 论文链接:https://arxiv.org/abs/1710.03740 ...

  6. 深度神经网络是否过拟合?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:Lilian Weng 编译:ronghuaiyang 导读 ...

  7. [译]深度神经网络的多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)...

    译自:http://sebastianruder.com/multi-task/ 1. 前言 在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我 ...

  8. 深度神经网络加速库cuDNN简介

    深度神经网络加速库cuDNN简介 简介 NVIDIA® CUDA深度神经网络库 (cuDNN: CUDA Deep Neural Network ) 是用于深度神经网络的 GPU 加速基元库.它提供了 ...

  9. 半并行深度神经网络(SPDNN)混合架构,首次应用于单目相机的深度

    摘要:近年来,深度神经网络应用于广泛的问题.在这项工作中,卷积神经网络(CNN)应用于从单个摄像机图像(单眼深度)确定深度的问题.设计八个不同的网络来执行深度估计,每个网络适合于特征级别.具有不同池大 ...

最新文章

  1. 敏捷开发一千零一问系列之七:怎样对待有看法的徒弟?
  2. 面试--java实现一个多人图文聊天室(c/s或b/s),写出思路
  3. RHEL系统网络安装(kikstart)
  4. python可变数据类型与不可变数据类型
  5. 利用 VMware vRealize - 构建和优化云管理
  6. MySQL查询语句转postGRE语句_PostgreSQL DBA常用SQL查询语句
  7. 面向普通人的 PHP 加密
  8. 交叉编译Python-2.7.13到ARM(aarch32)平台
  9. php是什么博客园,PHP 架构之路 - Richards - 博客园
  10. 列表推导式 生成器表达式
  11. 个人信息安全规范----8、组织的个人信息安全管理要求
  12. face_landmarks
  13. win7共享中心服务器运行失败,Win7系统网络与共享中心无法打开怎样解决?
  14. 移动通信网络规划:多址技术
  15. 网络 || NAT策略
  16. 关于 java 显示GIF
  17. 使用带有 Moveit 的深度相机来避免碰撞
  18. 计算机课件制作软件,浅谈计算机课件制作
  19. 【雕虫小技第1篇】如何将Scratch项目(转换)打包为一个HTML文件
  20. UI设计汪汪Yuki丨云沃客工作经验分享

热门文章

  1. 凯云水利水电工程造价系统 (五) 补充定额
  2. 阿里云基于区块链服务构建企业业务系统实践总结
  3. 【IDEA】idea 调试技巧 异常断点 断点之前显示异常字段
  4. stata命令汇总_Stata常用命令应知应会(500条)
  5. 测试用例----测试大纲法
  6. Spring Security总结之如何让认证失败消息自定义在前端页面显示(一)
  7. 适配m1芯片的安卓手机模拟器来了
  8. 智能座舱软件平台EX5.0发布,量“声”打造音视觉融合交互体验
  9. 学习笔记 | 独热编码(One-Hot Encoding)
  10. (Excel / WPS表格)常用公式、技巧