版权声明:本文为博主原创文章,未经博主允许不得转载。    https://blog.csdn.net/u013538664/article/details/26141939
3.7 基于能量和过零率的语音端点检测

在复杂的应用环境下,从信号流中分辨出语音信号和非语音信号,是语音处理的一个基本问题。语音端点检测就是指从包含语音的一段信号中确定出语音的起始点和结束点。正确的端点检测对于语音识别和语音编码系统都有重要的意义,它可以使采集的数据真正是语音信号的数据,从而减少数据量和运算量并减少处理时间。

判别语音段的起始点和终止点的问题主要归结为区别语音和噪声的问题。如果能够保证系统的输入信噪比很高(即使最低电平的语音的能量也比噪声能量要高),那么只要计算输入信号的短时能量就基本能够把语音段和噪声背景区别开来。但是,在实际应用中很难保证这么高的信噪比,仅仅根据能量来判断是比较粗糙的。因此,还需进一步利用短时平均过零率进行判断,因为清音和噪声的短时平均过零率比背景噪声的平均过零率要高出好几倍。这次主要介绍基于能量和过零率的语音端点检测方法——两级判别法。

两级判别法采用双门限比较法,如图:

第一级判决:

1.先根据语音短时能量的轮廓选取一个较高的门限T1,进行一次粗判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。

2.根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左、从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量所判定的语音段。

第二级判决:

以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两个点E和F,这便是语音段的起止点。门限T3是由背景噪声的平均过零率所确定的。

这里要注意,门限T2,T3都是由背景噪声特性确定的,因此,在进行起止点判决前,通常都要采集若干帧背景噪声并计算其短时能量和平均过零率,作为选择T2和T3的依据。当然,T1,T2,T3,三个门限值的确定还应当通过多次实验。

3.8 基音周期估值

基音周期是表征语音信号本质特征的参数,属于语音分析范畴,只有准确分析并且提取出语音信号的特征参数,才能够利用这些参数进行语音编码、语音合成和语音识别等处理。语音编码的压缩率高低、语音合成的音质好坏及语音识别率的高低,也依赖于语音信号分析的准确性和精确性。因此基音周期估值在语音信号处理应用中具有十分重要的作用。语音信号基音周期估值的方法很多,最基本的方法有:基于短时自相关法的基音周期估值和基于短时平均幅度差函数的基音周期估值。

基于短时自相关法的基音周期估值:

如果x(n)是一个周期为P的信号,则其自相关函数也是周期为P的信号,且在信号周期的整数倍处,自相关函数取最大值。语音的浊音信号具有准周期性,其自相关函数在基音周期的整数倍处取最大值。计算两相邻最大峰间的距离,就可以估计出基音周期。观察浊音信号的自相关函数图,其中真正反映基音周期的只是其中少数几个峰,而其余大多数峰都是由于声道的共振特性引起的。因此,为了突出反映基音周期的信息,同时压缩其他无关信息,减少运算量,有必要对语音信号进行适当预处理后再进行自相关计算以获得基音周期。

基于短时平均幅度差函数AMDF法的基音周期估值:

如果信号x(n)是标准的周期信号,则相距为周期的整数倍的样点上的幅度值是相等的,二者差值为零。对于浊音语音,在基音周期的整数倍上,这个差值不是零,但总是很小,因此,我们可以通过计算短时平均幅度差函数中两相邻谷值间的距离来进行基音周期估值。

基音周期估值的后处理:

语音信号中的浊音信号的周期性从波形上观察可以看得很明显,但是其形状比较复杂,这使得基音检测算法很难做到处处准确可靠。在提取基音的过程中,无论采用哪种方法提取的基音频率轨迹与真实的基音频率轨迹都不可能完全吻合。实际情况是大部分段落吻合,而在一些局部段落和区域中有一个或几个基音频率估计值偏离,甚至远离正常轨迹,通常是偏离到正常值的2倍或1/2处,即实际基音频率的倍频或分频处,称这种偏离点为基音轨迹的“野点”。

为了去除这些“野点”,对求得的基音轨迹进行平滑后处理是非常必要的。语音信号的基频通常是连续缓慢变化的,因此,用某种平滑技术来纠正这些“野点”是可以的。常用的平滑技术主要有:中值滤波平滑处理、线性平滑、动态规划平滑处理。

--------------------- 
作者:JameJuZhang 
来源:CSDN 
原文:https://blog.csdn.net/jojozhangju/article/details/26141939 
版权声明:本文为博主原创文章,转载请附上博文链接!

数字语音信号处理学习笔记——语音信号的短时时域分析(4)相关推荐

  1. 数字语音信号处理学习笔记——语音信号的数字模型(1)

    2.1 概述 为了用数字信号处理方法对语音信号进行处理,首先需要建立语音信号产生的数字模型,因此,我们必须在对人的发声器官和发声机理进行研究的基础上,才能建立精确的模型.但是,由于人类语音产生过程的复 ...

  2. 数字语音信号处理学习笔记——语音信号的短时时域分析(1)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/25392889 3.1 概述 语音信号是 ...

  3. 数字语音信号处理学习笔记——语音信号的短时时域分析(3)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/26138063 3.6 短时自相关分析 ...

  4. 数字语音信号处理学习笔记——语音信号的短时时域分析(2)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/26068797 3.3 短时平均能量 由 ...

  5. 数字语音信号处理学习笔记——语音信号的同态处理(1)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/33855467 5.1 概述 同态处理方 ...

  6. 数字语音信号处理学习笔记——语音信号的数字模型(3)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/25219503 2.4 语音的感知 2. ...

  7. 数字语音信号处理学习笔记——语音信号的数字模型(2)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/25126095 2.3 语音的听觉机理 ...

  8. 数字语音信号处理学习笔记——语音信号的同态处理(4)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/35989289 5.6 语音的倒谱应用 ...

  9. 数字语音信号处理学习笔记——语音信号的同态处理(3)

    版权声明:本文为博主原创文章,未经博主允许不得转载.    https://blog.csdn.net/u013538664/article/details/35989259 5.5 复倒谱的几种计算 ...

最新文章

  1. Microsoft Anti-Cross Site Scripting Library V1.5 发布了
  2. C语言assert的用法
  3. 关于node-sass安装失败的解决办法
  4. SpringBoot的基础
  5. mysql函数 用来查询匹配不到的数据_erlang连接mysql数据库后为什么fetch说匹配不到这个函数...
  6. etl工程师 面试题_数据仓库工程师面试题笔试.doc
  7. Yii2 理解Validator
  8. Unity 4 3 制作一个2D横版射击游戏 2
  9. [SCOI2016]背单词
  10. mybatis逆向工程详解
  11. 资源管理器 右键 反应慢 现象解决方案
  12. C++ 制作简易音乐播放器
  13. 把 GPL 视作“病毒”?请停止污名化 GPL
  14. 区块链中的merkle树有何作用?
  15. 轻松管理多个织梦网站 织梦CMS多后台快捷登陆软件
  16. http组成部分_博客的组成部分| 第2部分
  17. 如何利用在线画图网站绘制流程图
  18. JAVA--JQuery
  19. C++递增和递减运算符
  20. XP Professional SP3 英文版序列号

热门文章

  1. jquery遍历多个li_jQuery中10个非常有用的遍历函数
  2. python输出日期语句_python输出语句怎么用
  3. html在线转移,HTML5迁移
  4. 2019年工程造价表_2019年工程造价咨询统计公报
  5. LeetCode 110. 平衡二叉树(Balanced Binary Tree) 15
  6. Java Integer于Int 进行==双等于的内存比较时的一些问题说明
  7. 业务逻辑中的测试总结(二)----业务与数据库交互需求的测试分解
  8. 转载:flash 跨域 crossdomain.xml
  9. android 数据存储----android短信发送器之文件的读写(手机+SD卡)
  10. ORA-12154/ORA-12560 可以尝试的解决办法