语音端点检测的方法

语音端点检测的方法 演讲者:刘德体 语音端点检测的目的和意义 基于短时能量和短时平均过零率的端点检测 基于倒谱特征的端点检测 基于熵的端点检测 基于复杂性的端点检测(KC复杂性和C0复杂性) 不同语音端点检测方法的实验结果对比 语音端点检测的目的和意义 目的 语音信号端点检测技术其目的就是从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号,它是语音处理技术中的一个重要方面。 意义 有效的端点检测技术不仅能在语音识别系统中减少数据的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低噪声和静音段的比特率,提高编码效率。 基于短时能量和短时平均过零率的端点检测 短时能量 语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音段的能量是噪声段能量叠加语音声波能量的和。在信噪比很高时,那么只要计算输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开。这是仅基于短时能量的端点检测方法。 信号{x(n)}的短时能量定义为: 语音信号的短时平均幅度定义为: 其中w(n)为窗函数。 短时平均过零率 短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号称为过零。过零率就是样本改变符号次数。 信号{x(n)}的短时平均过零率定义为: 式中,sgn为符号函数,即: 过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性;第二,用于判别清音和浊音、有话和无话。从上面提到的定义出发计算过零率容易受低频干扰,特别是50Hz交流干扰的影响。解决这个问题的办法,一个是做高通滤波器或带通滤波,减小随机噪声的影响;另一个有效方法是对上述定义做一点修改,设一个门限T,将过零率的含义修改为跨过正负门限。 于是,有定义: 检测方法 利用过零率检测清音,用短时能量检测浊音,两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。低门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。 此时整个端点检测可分为四段:静音段、过渡段、语音段、结束。实验时使用一个变量表示当前状态。静音段,如果能量或过零率超过低门限,就开始标记起始点,进入过渡段。过渡段当两个参数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果过渡段中两个参数中的任一个超过高门限,即被认为进入语音段。处于语音段时,如果两参数降低到门限以下,而且总的计时长度小于最短时间门限,则认为是一段噪音,继续扫描以后的语音数据,否则标一记结束端点。 基于倒谱特征的端点检测 概念 信号倒谱的一种定义是信号的能量谱密度函数S(ω)的对数的傅里叶反变换,或者可以将信号s(n)的倒谱c(n)看成是logS(ω)的傅里叶级数展开,即: 式中Cn=C-n为实数,通常称为倒谱系数,且 对于一对谱密度函数S(w)与S’(w) ,利用Parseval定理,其对数谱的均方距离可用倒谱距离表示: 式中,Cn与C’n分别代表谱密度函数S(w)与S’(w)的倒谱系数。 方法: 倒谱距离的测量法步骤类似于基于能量的端点检测,只是将倒谱距离代替短时能量来作为特征参数。首先,假定前几帧信号是背景噪声,计算这些帧的倒谱系数,利用前几帧倒谱系数的平均值可估计背景噪声的倒谱系数,噪声倒谱系数的近似值可按下述规则进行更新,即当前帧被认为是非语音帧: 式中 为噪声倒谱系数的近似值, 为当前测试帧的倒谱系数,p为调节参数。 倒谱距离可用下式近似计算: 式中 对应于 的噪声倒谱系数,计算所有测试帧与

语音端点检测c语言,语音端点检测的方法.ppt相关推荐

  1. 恶意代码检测c语言,恶意代码检测分析软件

    恶意代码辅助分析工具最新版,这款就是刚被优化的代码检测软件,最大的用处的就是帮助你们检测自己电脑中的恶意代码,从而让你们一直拥有安全稳定的环境. 软件简介: 可以分析出系统里恶意代码的软件,免受电脑受 ...

  2. 图像篡改检测C语言,图像篡改检测和定位(二)

    在之前的文章中( 图像篡改检测和定位(一) ),我们谈到图像篡改检测的几种方法,在这里我们主要讨论整个体系的框架里面不同的算法各自的优势,以及存在的问题. 我们可以根据经验大致把图像篡改检测一般性方法 ...

  3. grubbs检测c语言,Grubbs算法检测离群值

    ▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作"可疑值".如果用统计方法-例如格拉布斯(Grubbs)法判断,能将"可疑值"从此组 ...

  4. c语言实现语音检测vad_AI大语音(二)——语音预处理

    点击上方"AI大道理",选择"置顶"公众号 重磅干货,细致入微AI大道理 ------ 1 预滤波 CODEC说得通俗一点,对于音频就是A/D和D/A转换.前端 ...

  5. python自相关函数提取基音周期_Python语音基础操作--4.2基音周期检测

    <语音信号处理试验教程>(梁瑞宇等)的代码主要是Matlab实现的,现在Python比较热门,所以把这个项目大部分内容写成了Python实现,大部分是手动写的.使用CSDN博客查看帮助文件 ...

  6. 【研究计划书】疾病检测中的语音生物标识研究

    疾病检测中的语音生物标识研究 疾病检测中的语音生物标识研究 一. 研究概述 二. 研究内容 三. 研究方法 3.1 深度学习模型 3.2 多模态语音识别 3.3语音生物标记检测 四. 总结 五. 参考 ...

  7. 世界最大的多语言语音数据集现已开源!超40万小时,共23种语言

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最近,F ...

  8. 霍夫变换检测圆c 语言,c++ 霍夫变换检测直线

    通常这是一幅边缘图像,比如来自 Canny算子.cv:: Houghlines函数的输出是 cV::Vec2f向量,每个元素都是一对代表检测到的直线的浮点数(p,0).在下例中 我们首先应用 Cann ...

  9. 用于检测浏览器语言偏好的JavaScript

    本文翻译自:JavaScript for detecting browser language preference [duplicate] This question already has an ...

最新文章

  1. Mysql进阶(4)——基于MHA的MySQL高可用架构
  2. My interested stuff(2008-07-10)
  3. Python 基础算法(1) - 算法简介
  4. 30秒实现Vue吸顶效果
  5. leetcode454. 四数相加 II(思路+详解)
  6. mybatis postgresql insert后返回自增id
  7. 微信小程序云数据库带换行的文本保存和获取
  8. 举例 微积分 拉格朗日方程_Euler-Lagrange Equation (欧拉-拉格朗日方程)推导
  9. 一、虚拟机,CentOS安装教程,Linux文件系统结构,Linux文件命名规则
  10. Linux内核抢占实现机制分析
  11. 记录SCI-hub使用方法
  12. 速卖通关键词挖掘工具_谷歌优化关键词挖掘工具大全
  13. 非必要千万不要改C盘用户名!!!
  14. 环信IM集成问题整理——常见集成问题
  15. mysql2000清除挂起工具_安装SQL SERVER2000提示注册表文件被挂起的解决方案
  16. redhat linux 9.0 u盘安装,Red hat linux 9.0挂载U盘
  17. 2月19日foremost隐写wp
  18. 高分辨率遥感卫星影像在交通方面的应用及高分二号影像获取
  19. wacom android 文件传输,专业原画师告诉你,wacom one到底值不值得买?
  20. 计算机跨考应用经济学,计算机专业跨考人大经济学复习经验谈br /

热门文章

  1. echarts漏斗图鼠标移入时内部文字阴影/描边
  2. Allegro Cadence 视频教程+信号完整性
  3. 计算机dns怎么设置方法,dns设置_dns怎么设置【步骤|图文教程】-太平洋IT百科
  4. PO模型(设计模式)
  5. Kubernetes部署(一):K8s 二进制方式安装
  6. TCP与UDP协议,socket套接字编程,通信相关操作
  7. 整理了一些常用的免费 API 接口,不限次数,收藏备用!(持续更新...)
  8. 统计学第十二周,第十三周
  9. 噩梦射手(SurvivalShooter)教程(九)
  10. A geometric interpretation of the covariance matrix(reproduced)