语音信号的短时傅里叶分析

文章目录

  • 语音信号的短时傅里叶分析
    • 概述
    • 短时傅里叶变换
    • 短时傅里叶的取样率
      • 时域取样率
      • 频域取样率
      • 总取样率
    • 语音信号的短时综合
      • 滤波器组求和法
      • 快速傅里叶变换求和法
    • 语谱图
      • 宽带语谱图的典型谱型
      • 窄带语谱图的典型谱型
      • 窄带语谱图的典型谱型

概述

  • 标准傅里叶分析在信号处理中具有非常重要的作用,适用于周期瞬变或平稳随机信号的分析:
    x ( e j ω ) = ∑ n = − ∞ ∞ x ( n ) e − j ω n x\left(e^{j\omega}\right)=\sum\limits_{n=-\infty}^{\infty}x\left(n\right)e^{-j\omega n} x(ejω)=n=−∞∑∞​x(n)e−jωn

  • 语音信号是一个非平稳过程,所以标准傅里叶分析不能直接进行。

  • 因语音信号具有短时特性,所以可以采用短时傅里叶变换,即有限长度的傅里叶变换,相应的谱成为“短时谱”。

短时傅里叶变换

  1. 短时傅里叶变换定义
    X n ( e j ω ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j ω m X_n\left(e^{j\omega}\right)=\sum\limits_{m=-\infty}^{\infty}x\left(m\right)w\left(n-m\right)e^{-j\omega m} Xn​(ejω)=m=−∞∑∞​x(m)w(n−m)e−jωm

    • 短时傅里叶分析是窗选语音信号的标准傅里叶变换。
    • 它有两个自变量:既是关于时间 n n n的离散函数,又是关于角频率 w w w的连续函数。
  2. X n ( e j ω ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j ω m X n ( e j 2 π k N ) = ∑ m = − ∞ ∞ x ( m ) w ( n − m ) e − j 2 π k m N 0 ≤ k ≤ N − 1 X_n\left(e^{j\omega}\right)=\sum\limits_{m=-\infty}^{\infty}x\left(m\right)w\left(n-m\right)e^{-j\omega m} \\X_n\left(e^{j\frac{2\pi k}{N}}\right)=\sum\limits_{m=-\infty}^{\infty}x\left(m\right)w\left(n-m\right)e^{-j\frac{2\pi km}{N}}\qquad 0\leq k\leq N-1 Xn​(ejω)=m=−∞∑∞​x(m)w(n−m)e−jωmXn​(ejN2πk​)=m=−∞∑∞​x(m)w(n−m)e−jN2πkm​0≤k≤N−1

    注释

    • 当n固定不变时,它们是序列 w ( n − m ) x ( m ) ( − ∞ < m < ∞ ) w\left(n-m\right)x\left(m\right)\left(-\infty <m<\infty\right) w(n−m)x(m)(−∞<m<∞)的标准傅里叶变换或标准的离散傅里叶变换;
    • 当 ω \omega ω或k固定时, X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn​(ejω)或 X n ( e k ) X_n\left(e^k\right) Xn​(ek)看作时时间n的函数,他们是信号序列和窗口序列的卷积,此时窗口的作用相当于一个滤波器。

    标准傅里叶变换 :

    • 窗函数的作用:窗函数形状和大小对短时傅里叶变换特性有影响。

      • 窗口序列的作用:

        X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn​(ejω)是通过将 w ( n − m ) w\left(n-m\right) w(n−m)与 x ( m ) x\left(m\right) x(m)在 ( − ∞ < m < ∞ ) \left(-\infty <m<\infty\right) (−∞<m<∞)区间内的傅里叶变换进行卷积得到的。即 X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn​(ejω)相当于对信号谱与窗函数谱的卷积。

        语音加窗后相当于突出了n附近的波形而对其他波形加以削弱。

        窗函数应具有的特性:

        • 频率分辨率高,即主瓣狭窄、尖锐;
        • 频谱泄露少,即旁瓣衰减大。
      • 窗口宽度的影响:
        Δ f = 1 N T \Delta f = \frac{1}{NT} Δf=NT1​

        频率分辨率 Δ f \Delta f Δf随窗口宽度N的增加而提高,但时间分辨率降低。

      • 窗形状对短时傅里叶变换的影响:

        矩形窗----主瓣窄,旁瓣衰减慢;

        海明窗----主瓣宽,旁瓣衰减快。

      • 窗宽对短时傅里叶变换的影响:

        窗宽长----频率分辨率高,能看到频谱快变化;

        窗宽窄----频率分辨率低,看不到频谱的快变化。

短时傅里叶的取样率

时域取样率

X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn​(ejω)的取样率至少为2B才不致混叠,而B由 w ( n ) w\left(n\right) w(n)的傅里叶变换 W ( e j ω ) W\left(e^{j\omega}\right) W(ejω)的第一个零点位置决定,它与窗的形状和长度有关。

经推算:
2 B = { 2 f s N 直角窗 4 f s N 海明窗 2B= \left\{ \begin{array}{rcl} \frac{2f_s}{N} & & {直角窗}\\ \frac{4f_s}{N} & & {海明窗}\\ \end{array} \right. 2B={N2fs​​N4fs​​​​直角窗海明窗​

频域取样率

因为 X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn​(ejω)是关于 ω \omega ω的周期为 2 π 2\pi 2π的周期函数,只讨论 2 π 2\pi 2π范围,等间隔取样,各取样频率值为:
ω k = 2 π k L k = 0 , 1 , ⋯ , L − 1 L 为取样点数 \omega_k=\frac{2\pi k}{L}\qquad k=0,1,\cdots,L-1\qquad\qquad L为取样点数 ωk​=L2πk​k=0,1,⋯,L−1L为取样点数
在频域内对 X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn​(ejω)进行取样,由这些取样值恢复的时域信号应该是 x ( m ) w ( n − m ) x\left(m\right)w\left(n-m\right) x(m)w(n−m)周期延拓的结果,延拓周期为:
2 π k ω k = L \frac{2\pi k}{\omega_k}=L ωk​2πk​=L
所以为使恢复出的时域信号不产生混叠失真,应满足:
L ≥ N L\geq N L≥N

总取样率

S R = 2 B ⋅ L = { 2 f s L N 直角窗 4 f s L N 海明窗 SR=2B\cdot L= \left\{ \begin{array}{rcl} \frac{2f_sL}{N} & & {直角窗}\\ \frac{4f_sL}{N} & & {海明窗}\\ \end{array} \right. SR=2B⋅L={N2fs​L​N4fs​L​​​直角窗海明窗​

一般情况下,带宽B与 f s / N f_s/N fs​/N成正比
B = k ⋅ f s N S R = 2 k ⋅ f s N ⋅ L ≥ 2 k ⋅ f s N ⋅ N = 2 k f s B=k\cdot \frac{f_s}{N} \\SR=2k\cdot \frac{f_s}{N}\cdot L\geq 2k\cdot \frac{f_s}{N}\cdot N=2kf_s B=k⋅Nfs​​SR=2k⋅Nfs​​⋅L≥2k⋅Nfs​​⋅N=2kfs​
X n ( e j ω ) X_n\left(e^{j\omega}\right) Xn​(ejω)的最低取样率是信号波形取样率 f s f_s fs​的2k倍。

k为正比例系数,矩形窗k=1,海明窗k=2

语音信号的短时综合

#mermaid-svg-ZK6hb8WJRQSPHLDW {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-ZK6hb8WJRQSPHLDW .error-icon{fill:#552222;}#mermaid-svg-ZK6hb8WJRQSPHLDW .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-ZK6hb8WJRQSPHLDW .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-ZK6hb8WJRQSPHLDW .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-ZK6hb8WJRQSPHLDW .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-ZK6hb8WJRQSPHLDW .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-ZK6hb8WJRQSPHLDW .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-ZK6hb8WJRQSPHLDW .marker{fill:#333333;stroke:#333333;}#mermaid-svg-ZK6hb8WJRQSPHLDW .marker.cross{stroke:#333333;}#mermaid-svg-ZK6hb8WJRQSPHLDW svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-ZK6hb8WJRQSPHLDW .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-ZK6hb8WJRQSPHLDW .cluster-label text{fill:#333;}#mermaid-svg-ZK6hb8WJRQSPHLDW .cluster-label span{color:#333;}#mermaid-svg-ZK6hb8WJRQSPHLDW .label text,#mermaid-svg-ZK6hb8WJRQSPHLDW span{fill:#333;color:#333;}#mermaid-svg-ZK6hb8WJRQSPHLDW .node rect,#mermaid-svg-ZK6hb8WJRQSPHLDW .node circle,#mermaid-svg-ZK6hb8WJRQSPHLDW .node ellipse,#mermaid-svg-ZK6hb8WJRQSPHLDW .node polygon,#mermaid-svg-ZK6hb8WJRQSPHLDW .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-ZK6hb8WJRQSPHLDW .node .label{text-align:center;}#mermaid-svg-ZK6hb8WJRQSPHLDW .node.clickable{cursor:pointer;}#mermaid-svg-ZK6hb8WJRQSPHLDW .arrowheadPath{fill:#333333;}#mermaid-svg-ZK6hb8WJRQSPHLDW .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-ZK6hb8WJRQSPHLDW .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-ZK6hb8WJRQSPHLDW .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-ZK6hb8WJRQSPHLDW .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-ZK6hb8WJRQSPHLDW .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-ZK6hb8WJRQSPHLDW .cluster text{fill:#333;}#mermaid-svg-ZK6hb8WJRQSPHLDW .cluster span{color:#333;}#mermaid-svg-ZK6hb8WJRQSPHLDW div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-ZK6hb8WJRQSPHLDW :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}

短时傅里叶反变换
X
x

滤波器组求和法

​ \rule[4pt]{1cm}{0.06em} 基于短时频谱的滤波器组表示
y ( n ) = ∑ k = 0 L − 1 y k ( n ) = ∑ k = 0 L − 1 X n ( e j ω k ) e j ω k n y\left(n\right)=\sum\limits_{k=0}^{L-1}y_k\left(n\right)=\sum\limits_{k=0}^{L-1}X_n\left(e^{j\omega_k}\right)e^{j\omega_k n} y(n)=k=0∑L−1​yk​(n)=k=0∑L−1​Xn​(ejωk​)ejωk​n
即输出的信号为滤波器组中每个通带输出信号的总和。在恢复时这些通带信号被移回到原来的中心频率上。

快速傅里叶变换求和法

​ \rule[4pt]{1cm}{0.06em} 基于短时频谱的标准傅里叶表示

语谱图

语谱图:是一种依赖于傅里叶分析的显示图形。它是一种三维频谱,表示语音频谱随时间变化的图形。

语谱仪实际上是一个带通滤波器组的输出随时间发生连续变化,连续重复进行语音信号频率分析的仪器。带通有两种带宽选择:窄带45Hz,宽带300Hz

  • 窄带语谱图:频率分辨率高,有利于显示基因频率及谐波的时变过程,但时间分辨率低,不利于观察共振峰的变化;

  • 宽带语谱图:时间分辨率高,共振峰为黑色的条纹,频率分辨率差。

宽带语谱图的典型谱型

  1. 宽横杠:与时间轴平行的深黑色带纹,它们相对于短时谱中的几个凸出点,即共振峰。从横杠对应的频率和宽度可以确定相应的共振峰频率和带宽。在一个语音段的语谱图中,有没有横杠出现是判断它是否为浊音的重要标志。元音一般对应横杠。
  2. 竖直条:与时间轴垂直的一条窄黑条,每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。条纹越密表示基音频率越高。
  3. 乱纹:清擦音表现为乱纹。乱纹的深浅和上下限反映了噪音能量在频域中的分布。

窄带语谱图的典型谱型

  1. 窄横条:代表元音的基频及各次谐波,表现为与时间轴平行的细线条。它们在频率轴的位置对应于音高频率值,随时间轴的曲折、升降变化表示音高变化的模式,对应于不同的调形。
    越密表示基音频率越高。
  2. 乱纹:清擦音表现为乱纹。乱纹的深浅和上下限反映了噪音能量在频域中的分布。

窄带语谱图的典型谱型

  1. 窄横条:代表元音的基频及各次谐波,表现为与时间轴平行的细线条。它们在频率轴的位置对应于音高频率值,随时间轴的曲折、升降变化表示音高变化的模式,对应于不同的调形。
  2. 无声间隙段:对应于语音停顿间隙,表现为空白区,在窄带语谱图和宽带语谱图中都存在。

语音信号的短时傅里叶分析相关推荐

  1. 语音信号的短时语音能量

    由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著,因此对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变换情况.定义n时刻某语音信号的短时平均能量E为: 式中,N为窗长,可见短 ...

  2. 数字语音信号处理学习笔记——语音信号的短时时域分析(3)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/26138063 3.6 短时自相关分析 ...

  3. 数字语音信号处理学习笔记——语音信号的短时时域分析(2)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/26068797 3.3 短时平均能量 由 ...

  4. 数字语音信号处理学习笔记——语音信号的短时时域分析(1)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/25392889 3.1 概述 语音信号是 ...

  5. 【数字语音处理】Part3 语音信号的短时时域分析:短时平均、短时自相关、语音端点检测、基音周期估值

    Part3 语音信号的短时时域分析 一.帧和加窗的概念 二.短时平均能量 三.短时平均幅度函数 四.短时平均过零率 五.短时自相关分析 六.基于能量和过零率的语音端点检测 七.基音周期估值 八.总结 ...

  6. 数字语音信号处理学习笔记——语音信号的短时时域分析(4)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/26141939 3.7 基于能量和过零率 ...

  7. 连续语音信号的短时倒谱分析及其参数用途

    文章目录 前言 基本概念 倒谱和倒谱参数 1.倒谱 2.复倒谱 3.倒谱计算 (1).由声门激励信号提取基音周期 (2).由声道冲激响应估算共振峰 4.倒谱的频谱 5.倒谱距离 6.Mel频率倒谱系数 ...

  8. MATLAB计算语音信号的短时能量

    一.计算原理 二.范例 1.预备知识 (1)语音信号的读取 (2)语音信号的分帧 2.短时能量计算代码 clear all; clc; close all; filedir=[]; % 设置路径 fi ...

  9. python求语音信号短时能量、短时过零率、语谱图

    python语音信号处理(二) 一.短时能量 短时能量主要用于区分浊音段和清音段,因为浊音时E(i)值比清音时大得多:区分声母与韵母的分界和无话段与有话段分界. 计算第i帧语音信号yi(n)的短时能量 ...

最新文章

  1. 判断两个多边形相交的面积_聊聊3D模型组件—顶点,边,多边形
  2. Java编程时部分快捷键
  3. 编程没基础学python多长时间--零基础学Python,从入门到精通需要多长时间
  4. 一文读懂分布式架构知识体系(内含超全核心知识大图)
  5. 下载mysql镜像教程_docker下安装mysql镜像
  6. 一步步学习SPD2010--第七章节--使用BCS业务连接服务
  7. server2016做文件服务器,『配置』服务器搭建 Office Online Server2016 实现文档预览 番外 错误篇...
  8. 前端学习(1166):扩展运算符02
  9. Ajax通讯异常12002,前端MVC框架[02] 发送AJAX请求及建立连接池
  10. eclipse Jsp 自创建tags问题
  11. 判断活动窗口_蒙城活动推拉棚定做厂家
  12. bzoj 1433: [ZJOI2009]假期的宿舍
  13. 教你win7关闭开机动画,大幅度加快开机时间
  14. 消息队列原理和应用场景总结
  15. Lottie动画概述,文末有彩蛋
  16. js将html替换字符串,js 替换字符串指定内容 javascript 替换指定位置的字符
  17. Mac系统go版本升级
  18. 用canvas写个接水管小游戏
  19. 用Kodi访问Win10共享文件夹
  20. Java经典书籍推荐

热门文章

  1. 魔兽争霸war3:模型相关细节介绍
  2. 三谈exception——错误处理
  3. 运营思路之如何做好一个新项目
  4. 对themida(1.8.5.5)加密VC++程序的完美脱壳
  5. 微信小程序_点击二级导航条切换页面
  6. 二叉树的最近公共祖先——递归/深度优先搜索
  7. KTDictSeg 1.4 版本功能介绍 - 多元分词
  8. 电力英语计算机C级多少分,电力系统专业名次缩写及中英文翻译.pdf
  9. oracle集群安装ogg,在RAC下安装配置OGG
  10. FP6276B 5V/2A同步升压芯片