基于听觉特性的Mel频率倒谱分析

心理学研究表明：人类对于声音音调的感觉其实都不是线性的
客观上：用频率表示
主观上：音调的单位用Mel标度

公式

根据人耳对低频信号比对高频信号更敏感这一原则，研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组，这就是Mel频率滤波器组。滤波器组一般为20-40个（26个最好）三角形滤波器

Mel-频率

目的：模拟人耳对不同频率语音的感知

人类对不同频率语音有不同的感知能力

1kHz以下，与频率成线性关系
1kHz以上，与频率成对数关系

Mel频率定义：1Mel—1kHz音调感知程度的1/1000

Mel频率倒谱系数（Mel Frequency Cepstrum Coefficient, MFCC）

MFCC计算过程

将信号进行分帧，预加重和加汉明窗处理，然后进行短时傅立叶变换得到其频谱
对于每一帧，计算周期功率谱
将Mel滤波器应用到功率谱中，计算每个滤波器的能量和
将每个滤波器的输出取对数（模仿人耳对数式感知声强、压缩动态范围），得到相应频带的对数功率谱
对每个对数能量进行离散余弦变换（DCT，滤波器通常都有交叠，因此滤波器能量彼此相关；DCT对能量进行去相关），得到26个MFCC系数
保留DCT的2-13个系数，其余系数舍去（因为DCT的高阶系数代表滤波器能量的快速变化，事实证明这些快速变化影响语音识别的表现，所以我们去除高阶系数）
这种直接得到的MFCC特征作为静态特征，将这种静态特征做一阶和二阶差分，得到相应的动态特征（二阶差分：一阶差分的差分）

MFCC将人耳的听觉感知特性和语音的产生机制相结合，因此目前大多数语音识别系统中广泛使用这种特征

过程：

语音输入
预处理
数字化
特征提取——整段语音最后变成一系列特征向量
- 增加一阶特征（“delta”）
- 增加二阶特征(“acceleration”)
- 合并特征

MFCC特征参数：

26个滤波器，12个MFCC系数，外加短时能量
即：静态特征13维+一阶特征13维+二阶特征13维共39维

clear all;
%读取语音信号
[x1,fs]=audioread('jia.wav');
x2=audioread('jia1.wav');
x3=audioread('yi.wav');
% 帧长
wlen=256;
% 帧移
inc=128;
%MEL滤波器个数
p=24;
% 幅值归一化
x1=x1/max(abs(x1));
x2=x2/max(abs(x2));
x3=x3/max(abs(x3));
%调用函数z_mfcc,计算mfcc参数
ccc1=z_mfcc(x1,fs,p,wlen,inc);
ccc2=z_mfcc(x2,fs,p,wlen,inc);
ccc3=z_mfcc(x3,fs,p,wlen,inc);
%比较mfcc参数
figure(1)
ccc_1=ccc1(:,1);
ccc_2=ccc2(:,1);
plot(ccc_2,'-g');hold on
plot(ccc_1,'-b');
xlabel('甲和甲1的MFCC比较','fontsize',12);
ylabel('幅值','fontsize',12);figure(2)
ccc_1=ccc1(:,1);
ccc_3=ccc3(:,1);
plot(ccc_3,'-g');hold on
plot(ccc_1,'-b');
xlabel('甲和乙的MFCC比较','fontsize',12);
ylabel('幅值','fontsize',12);

效果：

基于听觉特性的Mel频率倒谱分析相关推荐

语音信号的同态处理、倒谱分析和Mel频率倒谱系数
1 同态处理信号的同态处理也称同态滤波.大概步骤为: f(x,y)→ln→DFT→H(u,v)→(DFT)-1→exp→g(x,y) 虽然,一般用于图像处理.但是,博主将同态滤波用于语音信号的滤波. ...
Mel频率倒谱系数-MFCC
MFCC:Mel频率倒谱系数的缩写. 目的:模拟人耳对不同频率语音的感知 Mel频率和Hz频率的关系人类对不同频率语音有不同的感知能力: 1kHz以下,与频率成线性关系. 1kHz以上,与频率成对数 ...
matlab求解rl电路,基于MATLAB的RL并联电路频率响应特性分析
目录摘要............................................................................................... ...
声音处理之-梅尔频率倒谱系数(MFCC)
声音处理之-梅尔频率倒谱系数(MFCC) 梅尔(Mel)频率分析在语音识别(SpeechRecognition)和话者识别(SpeakerRecognition)方面,最常用到的语音特征就是梅尔倒谱 ...
语音信号的梅尔频率倒谱系数(MFCC)的原理讲解及python实现
梅尔倒谱系数(MFCC) 梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,简称MFCC).依据人的听觉实验结果来分析语音的频谱, MFCC分析依据的听觉 ...
连续语音信号的短时倒谱分析及其参数用途
文章目录前言基本概念倒谱和倒谱参数 1.倒谱 2.复倒谱 3.倒谱计算 (1).由声门激励信号提取基音周期 (2).由声道冲激响应估算共振峰 4.倒谱的频谱 5.倒谱距离 6.Mel频率倒谱系数 ...
语音信号处理之（四）梅尔频率倒谱系数（MFCC）
在任意一个Automatic speech recognition 系统中,第一步就是提取特征.换句话说,我们需要把音频信号中具有辨识性的成分提取出来,然后把其他的乱七八糟的信息扔掉,例如背景噪声啊, ...
模糊图像的倒谱matlab,基于倒谱分析方法的离焦模糊图像特征鉴别
基于倒谱分析方法的离焦模糊图像特征鉴别 [摘要]在图像拍摄记录的过程中,图像捕获系统因各种原因常常不能精确成像,故而极易产生模糊图像,离焦模糊是常见的模糊图像之一.本文重点介绍了一种倒谱分析方法,在倒 ...
梅尔倒谱分析MFCC
梅尔倒谱系数 MFCC 梅尔频率倒谱系数的分析是基于人的听觉特性机理,即根据人的听觉实验结果来分析语音的频谱.因为人耳所能听到的声音高低与声音的频率并不成线性正比关系,所以用mel频率尺度更符合人耳的 ...

基于听觉特性的Mel频率倒谱分析

基于听觉特性的Mel频率倒谱分析

Mel-频率

Mel频率倒谱系数（Mel Frequency Cepstrum Coefficient, MFCC）

MFCC计算过程

基于听觉特性的Mel频率倒谱分析相关推荐

最新文章

热门文章