基音估计

基音是语音信号的重要参数,在语音产生的数字模型中,也是激励源的一个重要参数。在汉语中,基音的变化模式为声调,可以帮助区别意义。准确检测语音信号的基音周期对高质量的语音分析与合成、语音压缩编码、语音识别与说话人确认等有重要意义。虽然基音检测很重要,但迄今为止尚未找到一种完善的方法可适用不同讲话者、要求和环境。比如对低基音周期语音贫与方法叫好,高基音周期的时域方法较好。

基音检测方法大致分为三类:

  • 波形估计。直接由语音波形进行估计,分析波形上的周期峰值。其特点为简单,硬件实现容易。此外可定出峰值点位置,这在一些处理中很有用。这类方法包括并行处理法(PPROC)、数据减少法(DARD)。
  • 相关处理法。时域中周期信号的最明显特征是波形的类似性,因而可通过比较原始信号及为以后信号的相似性确定基音周期。如移位距离为基音周期,则良心好有最大的类似性(相关性最强)。大多数现有的基音检测都基于这一思想,最具代表性的是自相关函数法,这种方法在语音处理中广泛应用,因为抗波形相位失真强,且硬件结构简单。包括波形自相关法(MAUTO)、AMDF、SIFI。
  • 变换法。将语音信号变换到频域、倒谱域、小波域或高阶累积量域等进行估计。如倒谱法采用倒谱分析提取基音。倒谱分析算法较复杂,但基音估计效果较好。上述方法中,某些已针对不同系统得到应用。而新兴的基于小波分析及高阶累积量的基因检测方法取得了较好的结果。

自相关法

浊音信号自相关函数在基音周期的整数倍上出现峰值,而清音的自相关函数没有明显峰值。因而基音检测是否有峰值就可以判断是清音还是浊音,检测峰值位置就可以提取基音周期。但将自相关函数用于基音检测存在一些问题,影响从短时自相关函数中提取基音的准确性。其中最主要的是声道响应。短时自相关函数中保留的语音信号幅度太多,有很多峰值,其中许多由声道响应的阻尼震荡引起。当基音的周期性与共振峰的周期性混叠在一起时,被检测的峰值偏离原来的真实位置。主要问题是第一共振峰可能对基音造成干扰。在某些浊音中,第一共振峰频率可能等于或低于基频,如果其幅度很大,则可能在自相关函数产生一个峰值,可同基频的峰值相比拟。

由于以上原因,对语音信号进行预处理,以取出声道响应的影响及其他带来扰乱的特征。方法之一是非线性处理。语音信号的地幅度部分包含大量共振峰信息,而高幅度部分包含大量基因信息。因而任何削减或抑制语音地幅度部分的非线性处理都会使自相关函数性能得到改善。线性处理优势是可在时域用低成本硬件实现。常用的非线性处理包含削波法、立方幅度运算、进行谱平坦化以消除第一共振峰可能对基音检测造成的干扰,使得所有削波基本上有相同幅度,就像周期冲击串那样,这种技术又称谱平滑技术。

并行处理法

这是一种时域方法,在很多应用中都是成功的。这种检测器找出语音波形的6个测度,并用于6个独立的基音检测器。6个检测器驱动服从多数的逻辑电路,以进行基音的判决。其流程如下图所示。语音信号经过预处理后,形成一系列脉冲,以保留信号的周期性,而略去与基音检测无关的信息。然后由一些秉性监测器估计基音周期。最后对这些基音检测器的输出进行逻辑组合,得出估计值。

倒谱法

浊音的复倒谱存在峰值,出现的时间等于基音周期,而清音语音段的复倒谱不出现这种峰值,利用上述性质可进行清浊音判断,并估计浊音的基音周期。这种方法的要点是计算复倒谱后解卷,提取声门激励信息,在预期的基音周期附近寻找峰值。如果峰值超过设定门限则为浊音,峰的位置就是基音周期估值。否则为清音。

简化逆滤波法

简化逆滤波法跟踪是相关处理法进行基音提取的一种现代化版本,是检测基音的比较有效的方法。其先对语音波形降低取样率,进行LPC分析,抽取声道模型参数,再利用这些参数用LPC逆滤波器对原信号逆滤波,从预测误差中得到激励源序列,最后用自相关法求出基音周期。用逆滤波是因为其将频谱包络平坦化,得到LPC误差信号只包含激励信息,从而去除了声道影响,因而是一种简化的频谱平滑器。求出预测误差信号自相关函数后,就可提取出声门激励参数。通过与门限比较确定浊音,通过其他一些辅助信息还可以减少误差。

高阶累积量法

三阶高级累积量用于基音检测的原理与自相关法类似。首先将语音信号通过三电平中心削波器,计算三阶累积量。而后基于三阶累积量的基音检测所用的自相关函数。求得NACC的峰值位置,将这些峰值与门限进行比较,若低于门限则为清音,反之为浊音,且相邻峰值的时间差为基音周期。

共振峰估计

共振峰信息包含在语音信号谱包络中,谱包络峰值基本上对应于共振峰频率。因而共振峰估计均直接或间接地对品谱包络进行考察。其关键是估计语音包络,并认为谱包络最大值就是共振峰。

提取共振峰特性最简便的手段是语谱仪。随着技术的发展,用数字滤波器组可得到与模拟语谱图相近的功能。提取共振峰还有倒谱、LPC等更准确有效的方法。共振峰表现为语音信号谱包络峰值或声道模谱的峰值,因而从不同角度出发可得到不同的方法。

带通滤波器组法

该方法和语谱仪类似,但使用了计算机。滤波器中心蒲吕有两种分布方法,一种是等间距分布在频段上,另一种是非均匀分布,如Mel频率那种分布,在低端间距小,高端间距大,带宽也随之增加。这是滤波器的阶数需设计为与带宽成正比,是它们输出的群延时相同,不产生波形失真。

缺点是滤波器数目的限制使得估计的共振峰频率不可避免的存在误差,且对共振峰带宽不易确定。由于无法取出声门激励影响,可能造成虚假峰值。

DFT法

对一阵短时语音信号s(n)进行DFT可得其离散谱,即频域中有:

即信号频谱为声门激励与声道共同作用的结果,也就是品谱包络与频谱细微结构以乘积方式混合在一起。可对其进行FFT处理。

倒谱法

由上式可得信号倒谱:

其中S为信号短时谱,U相应于频谱细微结构,H相应于谱包络,浊音是,S是间隔频率为基频的离散线状谱。上式中右侧两项在倒谱域有较大差别。其中第一项为声门激励序列的倒谱,为以基音周期为周期的冲激序列,第二项是声道冲激响应序列的倒谱,集中于n=0附近的低倒谱域。因而可在倒谱域用一个滤波器消除声门激励的影响。再对倒谱进行DFT,得到声道模型的对数谱 ln|H(k)|,而求得的谱包络的平滑程度因使用倒滤波器的不同成分而变化。其原理流程如下图所示:

LPC法

用LPC法进行共振峰估计有两种方案。最直接的是对全极模型分母多项式A(z)进行因式分解,即用任意一种标准求复根的方法求出A(z)的跟,并由其确定共振峰,称之为求根法。另一种是进行LPC谱估计,LPC谱的特点是在信号谱峰值处匹配的很好,因而可以准确的求出共振峰参数。即求得语音谱包络后,搜索包络的局部极大值,用峰值检测器确定共振峰。

Ref

现代语音信号处理[胡航 电子工业出版社] 第八章 语音特征参数估计

现代语音信号处理之语音特征参数估计相关推荐

  1. 语音信号处理之语音特征提取(1)机器学习的语音处理

    本文首先是将Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFC ...

  2. 语音信号处理:语音增强DNN频谱映射

    本文为自学总结整理知识点使用 参考课程: 基于深度神经网络频谱映射的语音增强方法 引言 原理 数据集 语音数据集 TIMIT 噪声数据集 Noise-92 数据准备 无噪语音数据准备 生成含噪数据 噪 ...

  3. 『语音信号处理』语音库 librosa 学习

    librosa 前言 音频读取 重采样 读取时长 写音频 过零率 波形图 短时傅里叶变换 短时傅里叶逆变换 幅度转dB 功率转dB 频谱图 Mel滤波器组 梅尔频谱 提取MFCC系数 前言 安装 li ...

  4. python语音信号处理_现代语音信号处理笔记 (一)

    本系列笔记对胡航老师的现代语音信号处理这本书的语音处理部分进行总结,包含语音信号处理基础.语音信号分析.语音编码三部分.一开始以为三部分总结到一篇文章里就可以了,但写着写着发现事情并没有那么简单... ...

  5. 语音信号处理_书单 | 语音研究进阶指南

    作为人类最自然的交流方式,"听"和"说"包括了人类大脑皮层从听觉感知到语言处理和理解,再到声音生成这个"神奇"的认知过程.语音领域的探索和研 ...

  6. 语音信号处理复习2、语音声学基础

    语音声学基础 什么是声音 声音是一种空气振动产生的波. 频率(Frequency) 单位时间内,声波的周期数,Hz表示 振幅(Amplitude ) 波振动的大小,一般用dB表示 语音产生 声带(Vo ...

  7. 现代语音信号处理笔记 (一)

    欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本系列笔记对胡航老师的现代语音信号处理这本书的语音处理部分进行总结,包含语音信号处理基础.语音信号分 ...

  8. matlab关于噪声课设,基于matlab的有噪声的语音信号处理的课程设计.doc

    基于matlab的有噪声的语音信号处理的课程设计.doc DSP实验课程设计实验报告DSP实验课程设计实验报告姓名学号班级1课程设计题目基于MATLAB的有噪声的语音信号处理的课程设计.2课程设计的目 ...

  9. 数字语音信号处理学习笔记——语音信号的短时时域分析(4)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/26141939 3.7 基于能量和过零率 ...

  10. 数字语音信号处理学习笔记——绪论(2)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/25060123 1.2.2 语音编码 语 ...

最新文章

  1. iphone 字符串
  2. python编写程序的一般步骤-Python:开发_基本流程
  3. 嵩天-Python语言程序设计程序题--第九周:Python计算生态纵览
  4. 外星人入侵游戏--python实战 (附完整代码)
  5. python多核多线程编程实例_Python多线程
  6. 资源管理器停止工作,自动重启
  7. vector 二维数组_go语言基础教程——数组与切片
  8. Swift 简单的通讯录
  9. html5hover鼠标悬停,不使用hover外部CSS样式实现hover鼠标悬停改变样式
  10. [Python] L1-038. 新世界 团体程序设计天梯赛GPLT
  11. java comparator_Java 集合排序策略接口 Comparator
  12. vector的基础使用
  13. Zabbix安装界面显示PHP time zone 为“红色”的解决办法
  14. zigbee芯片cc2430资料
  15. Hive 修复分区 msck repair table
  16. 服务器硬件维护指南和解决方案
  17. [Codeforces Round #627]1324D - Pair of Topics[二分]
  18. vue视频播放组件vue-mini-player
  19. 计算机教育专业的专业任选课,什么叫自由选修课 又什么叫全校任选课
  20. Python实战案例:旅游方面博文的数据分析

热门文章

  1. RAC动态资源(DRM)管理介绍
  2. Luogu5490 【模板】扫描线(矩形的面积并)
  3. (详解)无指针AC自动机
  4. webpack5学习与实战-(五)-直接加载资源
  5. java web重定向_Javaweb学习之资源重定向与请求转发
  6. 椭圆形中间一个大写的v_Shift键在 Word 中的 9 个经典操作,第一个你可能就不知道!【Word教程】...
  7. 快闪ppt音乐_冬日午后南昌路,音乐快闪引人驻足
  8. 抽象类应用模板方法模式和接口应用之策略设计模式
  9. rs232无线串口服务器,低成本WIFI串口服务器
  10. StanfordDB class自学笔记 (1) 数据库系统简介