作者:桂。

时间:2017-05-31  17:43:22

链接:http://www.cnblogs.com/xingshansi/p/6925355.html


前言

总结一下基本的有话帧检测(Voice activity detection, VAD)技术,基于神经网络的待后面梳理完神经网络的理论后再作整理。

一、双门限

这是一种Boosting的思路,即:两个弱分类器可以组合更强的分类器,依次类推,三、四门限其实都可。每一种门限对应一种判决准则。

基本的双门限:短时能量+短时过零率,其原理是元音能量较大,用短时平均能量检测,辅音频率较高,用短时平均过零率检测。

考虑到噪声的影响,通常作平滑处理。如:中值滤波,medfilt.

二、相关

该算法通过计算信号的相关系数,主要利用信号、噪声相关系数的差异性。依次扩展的方法包括:1)最大端点检测;2)利用相关函数的归一化R,主/副峰比值;3)音频的相关函数具有一定的周期性,可以转换成余弦求解→自相关函数余弦角值的端点检测。

三、方差

语音与噪声在频谱域中差异大,有话帧:随频带变化较大,噪声变化较小,此类方法推广的应用:1)均匀子带划分;2)Bark子带划分;3)小波包Bark子带。

四、谱熵

熵是衡量不确定性的量度,噪声在频谱分布较均匀,熵较大;语音分布不均匀,熵较小,归一化的能量得到概率密度,依此计算出熵,利用该原理可以实现VAD检测。

五、能零比和能熵比

能零比:短时能量与短时过零率的比值;

能熵比:短时能量与谱熵的比值。

六、其他方法

EMD的端点检测,本质是降噪+VAD检测,丢弃EMD分解的高频分量,对剩余的IMF分量进行VAD检测。

小波变换与基于EMD的方法大同小异。

常用有话帧检测技术(VAD)相关推荐

  1. 端点检测(VAD)技术

    端点检测是语音识别和语音处理的一个基本环节,也是语音识别研究的一个热点领域.技术的主要目的是从输入的语音中对语音和非语音进行区分,主要功能可以有: 自动打断. 去掉语音中的静音成分. 获取输入语音中有 ...

  2. 图像检测技术的研究现状

    图像检测技术的研究现状 技术检测 图像处理知识库 · 2016-01-08 19:59 图像检测技术的研究现状 所谓图像检测,就是通过图像对感兴趣的特征区域(检测目标)进行提取的过程,其中图像是承载检 ...

  3. Yahoo大规模时列数据异常检测技术及其高性能可伸缩架构

    本文已经在InfoQ首发 本文是Yahoo在ACM国际会议上发布的一篇关于时序数据自动异常检测上的学术论文,对在智能监控尤其是趋势预测.异常数据监测和报警等方面的技术同学具有一定研究和参考价值,以下是 ...

  4. 【待更新】感知视频编码中的感知检测技术(显著性物体检测向)

    之前对ROI编码感兴趣,做了显著性检测方面的文献综述.截至到2019年1月13号有13400字. 现在搬上来,一来交流,二来重温 感知视频编码PVC HVS 针对HVS所构建的数学模型分类 基于HVS ...

  5. AOI光学自动检测技术 | 基本原理与设备构成

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 一,引言: AOI(automatically optical i ...

  6. 图像分类和目标检测技术有什么区别?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 图像分类和目标检测技术是计算机视觉领域的重要研究方法.这些技术帮助 ...

  7. 北航孙钰:昆虫目标检测技术

    2020-05-07 12:36:00 不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并 ...

  8. 图像条纹检测 python_【连载4.5】特征检测技术研究面向强反射表面的多传感器三维检测技术研究...

    本章大纲 4 光条纹中心提取技术研究 4.1 结构光条纹特征 4.2 常用的像素级别特征提取方法 4.2.1 灰度重心法4.2.2 极值法4.2.3 方向模板法4.2.4 阈值法4.2.5 几何中心法 ...

  9. 图像条纹检测 python_【连载2.1】结构光三维检测引言面向强反射表面的多传感器三维检测技术研究...

    本章大纲 2.1 引言 2.2 多传感器三维检测系统介绍 2.2.1 多传感器三维检测总体模型2.2.2 多传感器三维检测系统工作原理 2.3 坐标系统一化全局标定方法 2.3.1 全局标定方法介绍2 ...

最新文章

  1. bzoj 3262 陌上花开
  2. VC 6.0中添加库文件和头文件
  3. 10月了,聊聊我今年参加秋招的真实感受
  4. vs中imshow函数报错_Win7下VS2010中配置Opencv2.4.4的方法(32位和64位都有效)(亲测成功)...
  5. 计算机b级英语翻译,英语B级考试翻译必备常用短句
  6. IllegalArgumentException:argument type mismatch
  7. linux下卸载 dev sd*下硬盘,Linux 磁盘管理(示例代码)
  8. windows10下Kafka环境搭建
  9. Eclipse在选项卡上展示某个具体的视图
  10. java写龟兔赛跑_有关JAVA编写龟兔赛跑的游戏的问题。求助……
  11. vs2017编译网狐荣耀服务端的心得
  12. 使用SQL Server ROWCOUNT
  13. ftl转pdf及问题集锦
  14. 【面试题37】两个链表的第一个公共结点
  15. 材料界的魔术师:值得关注的10家超材料创业公司
  16. es like模糊匹配_Elastic search模糊匹配,精确匹配显示在前
  17. vue-实现换一换功能
  18. RGB色彩,HSV色彩模式、灰度图,亮度,对比度,饱和度、图像平滑、降噪、锐化、增强
  19. Anaconda 环境克隆、迁移
  20. Python地理数据处理 三:矢量数据的读写(一)

热门文章

  1. Xcode中Info.plist文件各个键的作用说明【搜藏】
  2. tolua++ 手册翻译地址
  3. PyQt v4 - Python Bindings for Qt v4 | Документация
  4. 使用git管理github项目
  5. CentOS 5.2+Raid 0+LVM+ISCSI配置详解
  6. Exchange2003配置垃圾邮件实时黑名单RBL
  7. 安装oracle解压版,oracle11g压缩解压版图文安装详细教程
  8. 4位先行进位加法器_行波进位/超前进位加法器详解
  9. c语言中*用于指针,关于C语言中指针的理解
  10. 迷宫搜索问题最短路_迷宫的最短路问题(水+BFS宽搜)