本博客是我看《基于高斯混合模型的频带扩展算法的研究》_于莹莹论文的心得,大家可以通过知网或邮件我获取。

摘要

现状:传统的电话语音带宽范围是300Hz~3400Hz,当带宽扩展到300~8000Hz是,语音在自然度、立体感方面会有明显的提升。

问题:高斯混合模型进行高频参数估计时过度平滑,频谱细节严重丢失。

原因:GMM估计的协方差参数的不准确造成的,尤其GMM估计的协方差矩阵是全矩阵而非对角矩阵。

创新一:提出基于用自组织特征映射和高频或者模型(SOFM-GMM)相结合的语音带宽扩展算法,

在练阶段,先采用自组织特征映射映射将训练数据进行无监督聚类,相似度高的特征参数将被聚到同一类;

训练完成后,对每一类训练数据分别进行高斯混合模型的训练,建立 GMM 模型,这样每个 GMM 模型能更精确的表征特征参数之间关系。

创新二:提出了基于码本映射和高斯混合模型相结合的频带扩展方法。码本映射的过程是基于 GMM 参数和特征参数的偏移矢量数据进行的。通过码本映射估计获得的高频特征参数,调整系数与高斯混合模型估计部分组合即得到待估的高频特征参数。

最后对两种改进方法进行了仿真,主观和客观评估。

绪论

选题意义

频带扩展的发展历史

常用的语音质量评估方法

客观评价方法

主观评价方法

第2章 语音信号产生模型以及特征参数

2.1 语音信号的源-滤波器模型

  首先建立一个源-滤波器模型来描述语音的产生过程。他把语音分为两个部分,一部分是由源生成的激励信号,另一部分是由激励信号通过滤波器用来产生语音。

  人类语音的生成过程涉及的主要器官包括肺、气管、喉、咽、口腔、鼻腔,肺部负责产生空气,自胸腔发出,把咽、口腔合起来称为声道,空气经过声道经过舌、唇、鄂而改变形状,不同形状的空气流决定着不同的语音,产生得特定的空气流类似脉冲波的就是激励信号,滤波器来模拟嘴唇、腔体、舌、下颚。下图是基于滤波器模型的语音生成过程:

  激励信号由肺部产生的气流通过声带,由声带声带振动产生的脉冲激励信号。当产生噪声时,激励信号是一些带有增益频谱更加平滑的随机噪声,当发出浊音时,会产生浊音激励,当发出清音时会产生噪声激励。现实中激励信号是清音和浊音的组合。

2.1.2 源-滤波器模型

用三个滤波器模型来表示语音的产生过程:声门脉冲模型G(z)、声道模型V(z)、辐射模型R(z)。通常把声道模型描述为把各部分当做截面积不同的管子串形成的通道系统。

声道模型可以表示为:$$V(z)=\frac{0.5(1+r_G)\prod_{k=1}^{N}(1+r_k)z^{-\frac{N}{2}}}{1-\sum_{k=1}^{N}a_kz^{-k}}$$

上式可以表示一个N阶的全极点函数,因此可以考虑用全极点数字滤波器模型模拟。

  口唇端辐射在高频段较为显著,在低频段时影响较小,所以辐射模型R(z)应是一阶类高通滤波器的形式。口唇的辐射效应可表示为:

$$R(z)=R_0(10z^{-1})$$

  这个模型先由声门脉冲滤波器先产生脉冲序列,然后输出给声道滤波器部分。声道滤波器模拟了从声道、声门到嘴唇这个过程的发生部位。放射模型代表唇部的放大功能。有时我们把这些模型结合到一个传输函数 H(z)中,即:

$$H(z)=G(z)V(z)R(z)=\frac{1}{1-\sum_{i=1}^{p}a_iz^{-i}}$$

  上式是一个完整的发音过程,也可以看成一个“合成滤波器”,p是$H(z)$的预测阶数,对一个语音信号进行线性分析时,将产生一个激励信号和一个分析滤波器 A(z),合成滤波器是分析滤波器的倒数,

$$H(z)=\frac{1}{A(z)}$$

2.1.3 基于源-滤波器的频带扩展过程

  由于每个人生成的激励信号的脉冲周期不同,脉冲的周期取决于声带的频率和紧张度。一般来说,基频即两个脉冲之间的时间,男人的基频比女人和儿童的要高,男人的基频范围在 50Hz-250Hz,女人的在 125Hz-500Hz,儿童的更高一点。每个人产生的语音频率不一样,解决方法就是为不同的基音周期建立不同的模型,因此引入频带扩展技术。频带扩展的问题可以分解两部分的扩展:谱包络与激励信号。由于频谱包络的特性,频谱包络扩展在估计时可以利用先验知识,即通过简单的码本聚类或者其他的基于GMM或者HMM的估计模型。下图所示是通过合成滤波器的频带扩展过程。

  首先从输入信号中提取能表征信号的参数矢量。接着基于GMM估计出表征高频语音信号的参数矢量,也即模型的AR系数。AR系数可以作为分析滤波器A(z)的系数,合成滤波器为分析滤波器的倒数。最后把激励信号输入合成滤波器,基于GMM合成高频语音,对高频语音进行增益调整,可得到扩展带语音。

  语音信号在短时内是平稳的,特征参数比较稳定,高频带信号的频谱包络的估计很大程度取决于提取的特征参数是否能合理的表征高频带语音的频谱包络。一般以20-30ms 作为帧长。本文我们采用 20ms 为帧长(8k采样一帧 个样点),然后针对每一帧提取特征参数,下面将对常用的特征参数进行详细介绍。

窄带特征参数

1)自相关系数

2)归一化帧能量

3)过零率

4)局部峰度

5)梯度折射率

6)谱质心

频谱包络的特征矢量

1)AR系数

2)线谱频率

3)由AR系数衍生的倒谱系数CC

4)梅尔倒谱系数MFCC

第3章 基于高斯混合模型的频带扩展方法

3.1 激励信号扩展

  激励信号用于输入合成滤波器,进而输出扩展带特征参数,激励信号对合成语音的谐波成分有重要的影响,第二章介绍的发声系统中,可以看到清音和浊音的激励信号有明显的区别,此外激励信号与基频、高低频能量等都有关系,因此激励信号对合成语音有重要的影响。

  激励信号扩展是基于窄带激励信号的,因此需要首先从窄带语音信号中提取窄带激励信号,我们可以通过预测误差滤波器提取窄带激励信号,该滤波器参数是对原始宽带语音信号进行先行预测分析获得的,如下图所示:

图* 窄带激励信号提取

  获得窄带激励信号之后需要对信号扩展为高带激励信号。从窄带激励信号扩展成高带激励信号的最常用的方法,包括非线性失真、谱折叠和铺平易、函数生成器等。

  下面将详细分写不同激励信号扩展方法的优点缺点,并给出本文使用的激励信号扩展的方法。

  非线性特性方法是人工频带扩展领域中最早用于扩展窄带激励的方法。非线性失真的处理方法会生成新的信号成品,包括基频、二倍频等。一般的过程是首先对窄带激励信号进行非线性失真的处理,生成新的频率成分,从而获得高频激励信号。非线性处理过程类似用一个非线性函数对信号进行的映射,即如下图所示:

  非线性特性处理的函数非常多,包括半波整形函数及全波整形函数、二次特性函数、自适应二次特性函数、三次特性函数、双曲正切特性函数等。半波整形函数通过阻断负半波而使正半波通过对窄带激励信号进行整形,获得高带激励信号,半波整形后的信号的均值不再是 0,而是正数,半波整形生成新的奇次谐波包括基频;全波整形类似半波整形,取窄带信号波形的绝对值为扩展带激励信号,经过整形的信号均值不再为 0,且产生新的偶次谐波成分;二次特性函数是对窄带激励信号使用平方操作生成新的二次谐波,作为高频带的激励信号;三次特性函数对窄带激励信号进行三次方操作获得扩展带激励信号,生成包括基频的三次谐波成分,如果必要需要输出;自适应二次谐波特性函数是用一个二次项处理窄带激励信号,比二次特性函数进步的是对输入信号的幅度进行追踪避免被削减,另外与双曲正切特性函数相比,无论能量高低信号都是用同一个非线性函数处理。

  非线性失真处理使用的转换函数直接影响生成的高频激励信号的性能。该方法缺点是经非线性失真过程以后,生成的高频部分的频谱成分是不确定的,所以,使用该方法获得的高频部分在很多时候类似白噪声,对于浊音而言,由这种方法产生的高频信号就会不准确。

  谱平移是利用现有窄带激励信号的谐波结构搬移到更高的频谱上,常用调制的方法实现。在时域用一个调制信号处理窄带激励信号,然后通过高通滤波器,相当于在频域进行卷积,即实现频谱的平移。浊音的激励信号的谐波结构比较明显,因此用谱平移方法效果较好,清音的激励信号类似于噪声,也可以用谱平移方法实现。谱平移方法的缺点是随着谱细节的平移,相位信息也进行平移。扩展带激励信号的相位信息与低频激励信号的相位信息差距较大就会不可避免引入较多人造谐波,使得扩展后的语音听起来含有噪声、不够自然协调。

  谱折叠是谱平移的特例,当调制频率是奈奎斯特频率$\Omega _M=\pi$( 在本文中$f_M8KHz$),在频域奈奎斯特频率附近将出现一个窄带激励信号的镜像,这时候由于输入信号是带限的,所以不需要再使用高通滤波器。频谱折叠的结果会在3700Hz-4300Hz 的中间频率产生一个间隔,这是由于信号的频限制,在3700Hz-4000Hz 处生成一个间隔,而在镜像频谱400Hz-4300Hz处生成另一个间隔。

  函数发生器包括白噪声发生器和正弦函数发生器。白噪声发生器主要用于扩展清音的激励信号,不需要估计基音信息。正弦函数发生器是时域的函数,发生器的幅度和频率参数通过估计宽带谱包络获得,正弦发生器主要用于生成频谱的谐波成分。正弦函数发生器可以不断调整幅度值和频率值使得生成信号更接近期望值。
  本文采用函数发生器的方法生成高频激励信号。首先对输入语音进行清浊音判定,如果输入语音是清音,则将由白噪声产生器的白噪声作为激励源,如果输入语音为浊音,则由正弦产生器产生激励源。采用函数发生器生成的高频激励信号,用于驱动合成滤波器,合成的宽带语音的谱包络十分逼近原始宽带语音的谱包络,且能量上也比较好控制。

3.2 高频带频谱包络估计

  基于源-滤波器模型进行频带扩展的另一个重要模块即高带谱包络的估计。由已知的低频特征通过不同的估计器获得高频带特征参数,用来合成高频语音。本章主要引入用高斯混合模型作为估计器的方法进行频带扩展,下面将详细介绍高斯混合模型,包括训练过程、参数概率意义,及参数初始值的确定方法,本文利用 K-means 聚类实现初始化;紧接着推导高斯混合模型用于高频参数估计的公式及原理,并总结传统的高斯混合模型训练过程和基于高斯混合模型进行频带扩展的步骤。

参考文献:

基于高斯混合模型的频带扩展算法的研究

基于高斯混合模型的频带扩展算法的研究相关推荐

  1. 基于神经网络的语音频带扩展

    本博客转载自顾宇的<基于神经网络的语音频带扩展方法研究>,大家可从知网获取. 摘要 语音频带扩展旨在从频带受限的窄带语音信号中恢复宽带语音信号.由于受到语音采集设备以及信道条件的限制,传输 ...

  2. halcon第十九讲:基于高斯混合模型的水果分类

    高斯混合模型是将多个服从高斯分布的模型进行线性组合,几乎能拟合成任何一条曲线.比如在生活中男生身高普遍在175左右,女生身高普遍在165左右,并且都服从高斯分布,就可通过中间交叉点进行分类. 上面只用 ...

  3. 论文研读笔记_基于优化的SVM心音信号分类算法的研究

    论文研究_基于优化的SVM心音信号分类算法的研究 先存起来,持续更新 摘要 心音信号采集易混入杂音,影响判断: 经验式模态分解算法分析特征分布:心音信号集中于低频.噪音集中于高频: 利用切比雪夫滤波器 ...

  4. 阅读豆丁网----基于模型的混合多目标算法的研究

    链接:  基于模型的混合多目标算法的研究 - 豆丁网 http://www.docin.com/p-1088777086.html (1) 研究背景意义 RM-MEDA(Regularity Mode ...

  5. matlab人工选择阈值进行分割,基于MATLAB的图像阈值分割算法的研究

    [摘要]:图像分割是一种重要的数字图像处理技术.本文首先介绍了图像分割技术,其次总结了目前图像分割技术中所用到的阈值.边缘检测.区域提取等方法以及分水岭算法.针对各种阈值分割算法,本文在最后做了详细的 ...

  6. 基于高斯混合模型(GMM)脑部肿瘤分割算法

    1. 前言 说到图像分割,首先想到的便是诸如OTSU算法.区域自动生长之类的传统算法.虽然,这些算法的实现原理各不相同,但是有以下的缺点 1. 分割算法没有很好的自动化能力,比如区域生长算法 2. 分 ...

  7. ML之GMM:Gaussian Mixture Model高斯混合模型相关论文、算法步骤相关配图

    Gaussian Mixture Model高斯混合模型相关概念及配图 目录 GMM相关论文 GMM算法步骤相关配图 GMM相关论文 更新-- GMM算法步骤相关配图

  8. 高斯混合模型参数估计的EM算法

    一.高斯模型简介 首先介绍一下单高斯模型(GSM)和高斯混合模型(GMM)的大概思想. 1.单高斯模型 如题,就是单个高斯分布模型or正态分布模型.想必大家都知道正态分布,这一分布反映了自然界普遍存在 ...

  9. 机器学习中的数学ch11:基于高斯混合模型的密度估计(Density Estimation with Gaussian Mixture Models)

    文章目录 高斯混合模型(Gaussian Mixture Model) 利用极大似然估计进行参数学习(Parameter Learning via Maximum Likelihood) 责任(Res ...

最新文章

  1. Sass Nesting for:悬停不起作用[重复]
  2. 【数字信号处理】傅里叶变换性质 ( 序列傅里叶变换共轭对称性质示例 | 证明 共轭对称序列 x_e(n) 的 傅里叶变换 是 原序列傅里叶变换 的实部 )
  3. Part 3: Services
  4. ORA-02266错误处理
  5. pychar创建一个flask项目
  6. zabbix 添加 host item
  7. 数据挖掘著名学者的网站
  8. Makefile教程(绝对经典,所有问题看这一篇足够了)
  9. 【新技术】 移动支付过程中的NFC技术
  10. cada0图纸框_求标准CAD图纸(A0、A1、A2、A3、A4)图框(外框、内框)、标题栏及明细栏大小样式字体是多大?...
  11. hdu 1862 EXCEL排序
  12. Html2Excel 更名为 MyExcel,2.1.0 版本发布!
  13. python数据分析007——数据可视化(下)
  14. PS 如何制作Vista的毛玻璃效果
  15. 【正点原子I.MX6U-MINI应用篇】6、嵌入式Linux在LCD屏幕上显示字符
  16. 【莹伙丛】我是如何设置 IDEA 以方便执行shell 脚本命令的?
  17. No mapping for GET xxx 错误
  18. 边缘计算设备与部署方案
  19. java猜数字游戏总结,java课程设计——猜数字游戏
  20. 284work 周末加班

热门文章

  1. ViewPage 实现卡片效果
  2. 国开c语言程序设计作业答案,C语言程序设计参考答案
  3. 全国计算机排名2012,[教育·计算机] 2012年计算机专业排名 全国计算机专业大学排名 - 高等教育...
  4. TotalCommander(TotalCMD)的正则表达式
  5. 佛山南海西樵镇江滨花园大三房看房日记
  6. 游戏建模怎么学比较好?
  7. MES刀具管理:优化生产效率的关键
  8. java毕业生设计校园约自习网站计算机源码+系统+mysql+调试部署+lw
  9. mybatis逆向工程之生成文件解释
  10. 6.初次见面的礼貌用语