waveform波形图（时域图）、spectrum（频谱图）、spectrogram（语谱图）、MFCC

人的气流(excitation)通过声道到嘴唇产生声音。唇齿舌的形状决定了发出怎样的声音，这个形状通过频谱图中的包络中显示出来。而MFCCs就是一种准确描述这个包络的一种特征。

一、waveform波形图（时域图）

示例1

示例2

波形的横轴是时间，纵轴是振幅。当横轴的分辨率不高时，语音的波形呈现一个个三角形。这些三角形的轮廓称为波形的包络(envelopoe)。包络的大小代表了声音的响度。

二、spectrum（频谱图）

我们对上图的语音切片成帧(frame)，对每帧进行短时傅里叶变换(short-time Fourier Transform)，得到每帧语音的频谱。

示例1

示例2

频谱表示频率与能量的关系。频谱图有三种，其中对数振幅谱中各谱线的振幅都作了对数计算，所以其纵坐标的单位是dB（分贝）。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低幅噪声中的周期信号。

三、spectrogram（语谱图）

接下来，我们每帧的频谱图做一定变换后拼接起来。我们先将其中一帧语音的频谱通过坐标表示出来，现在我们将下方左图的频谱旋转90度。得到中间的图。然后用颜色表示强度，把这些幅度映射到一个灰度级表示，0表示黑，255表示白色。幅度值越大，相应的区域越黑。这样就得到了最右边的图（用颜色的深浅代替波形的大小）。那为什么要这样呢？为的是增加时间这个维度，这样就可以显示一段语音而不是一帧语音的频谱，而且可以直观的看到静态和动态的信息。

这样我们会得到一个随着时间变化的频谱图，这个就是描述语音信号的spectrogram声谱图。

四、倒谱分析(Cepstrum Analysis)

下面是一个语音的频谱图。峰值就表示语音的主要频率成分，我们把这些峰值称为共振峰（formants），而共振峰就是携带了声音的辨识属性（就是个人身份证一样）。所以它特别重要。用它就可以识别不同的声音。

我们不仅要提取共振峰的位置，还要它们转变的过程。所以我们提取的是频谱的包络（Spectral Envelope）。这包络就是一条连接这些共振峰点的平滑曲线。

我们可以这么理解，原始的频谱由两部分组成：包络和频谱的细节。这里用到的是对数频谱，所以单位是dB。这里的包络即是李琳山教授提到的，决定不同phemones的formant structure。而频谱的细节则是excitation（气流）导致的毛。那现在我们需要把这两部分分离开，这样我们就可以得到包络了。

那怎么把他们分离开呢？也就是，怎么在给定log X[k]的基础上，求得log H[k] 和 log E[k]以满足log X[k] = log H[k] + log E[k]呢？为了达到这个目标，我们需要在频谱上做傅里叶变换就相当于逆傅里叶变换Inverse FFT (IFFT)。

我们先取对数把包络(formant strcuture) G(w)和细节(excitation) U(w)的乘法转为加法，再做DFT。我们发现包络U(w)集中在低频部分，G(w)集中在高频部分。于是我们得以将包络U(w)分离出来。

那现在总结下倒谱(cepstrum)分析，它实际上是这样一个过程：

1）将原语音信号经过傅里叶变换得到频谱：X[k]=H[k]E[k]；

只考虑幅度就是：|X[k] |=|H[k]||E[k] |；

2）我们在两边取对数：log||X[k] ||= log ||H[k] ||+ log ||E[k] ||。

3）再在两边取逆傅里叶变换得到：x[k]=h[k]+e[k]。

五、梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient, MFCC）

对于人类听觉感知的实验表明，人类听觉的感知只聚焦在某些特定的区域，而不是整个频谱包络。Mel频率分析就是基于人类听觉感知实验的。实验观测发现人耳就像一个滤波器组一样，它只关注某些特定的频率分量（人的听觉对频率是有选择性的）。也就说，它只让某些频率的信号通过，而压根就直接无视它不想感知的某些频率信号。但是这些滤波器在频率坐标轴上却不是统一分布的，在低频区域有很多的滤波器，他们分布比较密集，但在高频区域，滤波器的数目就变得比较少，分布很稀疏。人耳更愿意听低频的信号。
梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient, MFCC）考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。

我们将频谱通过一组Mel滤波器就得到Mel频谱。公式表述就是：log X[k] = log (Mel-Spectrum)。这时候我们在log X[k]上进行倒谱分析：

1）取对数：log X[k] = log H[k] + log E[k]。

2）进行逆变换：x[k] = h[k] + e[k]。

在Mel频谱上面获得的倒谱系数h[k]就称为Mel频率倒谱系数，简称MFCC。

参考链接：

语音信号处理之（四）梅尔频率倒谱系数（MFCC）_zouxy09的博客-CSDN博客

不同元音辅音在声音频谱的表现是什么样子？ - 王赟 Maigo的回答 - 知乎 https://www.zhihu.com/question/27126800/answer/35376174