语音信号

  • 一、语音信号帧处理
  • 二、语音信号的稀疏性

一、语音信号帧处理

  语音信号处理通常要进行傅里叶变换,弄清楚各个频率成分的分布,傅里叶变换要求输入信号是平稳的,而语音在宏观上来看是不平稳的——口型一变,信号的特征就变了。但是从微观上来看,在比较短的时间内,嘴巴动得是没有那么快的,语音信号就可以看成平稳的,就可以截取出来做傅里叶变换了。这就是为什么语音信号要分帧处理,截取出来的一小段信号就叫一「帧」。

  如下图:这段语音的前三分之一和后三分之二明显不一样,所以整体来看语音信号不平稳。红框框出来的部分是一帧,在这一帧内部的信号可以看成平稳的。

  帧长度从两个方面确定,一方面要保证帧内信号是平稳的,一帧的长度要小于一个音素长度。而音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。正常语速下,音素为50-200毫秒,因此帧长要小于50毫秒。另一方面,帧必须要包含多个震动周期,傅里叶变换需要多个周期才能够分析频率。男声频率在100 H z Hz Hz左右,女声频率在200 H z Hz Hz左右,也就是5-10毫秒,故帧长至少20毫秒。

  综上分析,帧长可以取20-50毫秒。取出来的一帧信号,在做傅里叶变换之前,要先进行「加窗」的操作,即与一个「窗函数」相乘,如下图所示:

  加窗的目的是让一帧信号的幅度在两端渐变到 0。渐变对傅里叶变换有好处,可以让频谱上的各个峰更细,可以减轻频谱泄露。

  加窗的代价是一帧信号两端的部分被削弱了,没有像中央的部分那样得到重视。弥补的办法是,帧不要背靠背地截取,而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移,常见的取法是取为帧长的一半,或者固定取为 10 毫秒。

二、语音信号的稀疏性

语音信号同时也是稀疏的,所谓稀疏,就是指信号具有零的个数非常多的特性。相类似的例子还有稀疏矩阵。

持续更新~

end

【声源定位】语音信号相关推荐

  1. 语音识别(20201030)——麦克风阵列(采集语音信号)

    目录 麦克风阵列的原理 麦克风阵列的功能 麦克风阵列解决噪声干扰 存在的干扰 算法 1.多通道降混响算法(室内) 2.多通道点干扰抑制算法(室外) 3.多通道目标说话人提取算法(声纹,不适用) 麦克风 ...

  2. 波束形成、回声消除、声源定位及端到端等语音信号处理算法

    现今信息技术飞速发展,语音技术源源不断地融入到各个领域,语音信号处理是人机接口的关键技术,已广泛应用于直播.在线通话.智能音箱等产品中. (落地应用) 随着语音产品广泛落地应用,语音行业飞速发展,各大 ...

  3. “信号声源定位实验”

    信号声源定位分为三个部分,分别是声波测距.三位数码管显示以及延时电路的设计.通过NI my DAQ以及Labview软件实现测量距离并显示以及使LED灯延时的效果.最终在labview中通过编程将三个 ...

  4. AliOS Things声源定位应用演示

    1. 概述 利用麦克风阵列进行声源定位在智能降噪.语音增强.语音识别等领域有广泛应用和研究前景.本文介绍基于AliOS Things + STM32F413H Discovery开发板实现声源定位算法 ...

  5. AliOS Things声源定位应用演示 1

    摘要: 1. 概述 利用麦克风阵列进行声源定位在智能降噪.语音增强.语音识别等领域有广泛应用和研究前景.本文介绍基于AliOS Things + STM32F413H Discovery开发板实现声源 ...

  6. 麦克风阵列声源定位 GCC-PHAT

    麦克风阵列声源定位 GCC-PHAT 麦克风阵列声源定位(一) 利用麦克风阵列可以实现声源到达方向估计(direction-of-arrival (DOA) estimation),DOA估计的其中一 ...

  7. 音视频开发(40)---麦克风阵列声源定位 GCC-PHAT

    麦克风阵列声源定位 GCC-PHAT 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/u010592995/article/details/79735 ...

  8. 声源定位matlab模拟,毕业论文-基于MATLAB的声源定位系统.doc

    PAGE PAGE 1 毕 业 设 计(论 文) 基于MATLAB的声源定位系统 专业年级 07级应用物理学 学 号 姓 名 指导教师 评 阅 人 二○一一年六月 中国 南京 河 海 大 学 本科毕业 ...

  9. MWORKS.Syslab 使用攻略 | 信号处理工具箱实践-基于时差定位法的声源定位

    在日常生活中,我们的耳朵会听到各种声音并进行识别定位,即所谓的"听声辨位".有人发出声响后,人耳可以很快分辨出声音所在的方位:人耳也可轻易判断出从身边驶过的汽车的来车方向,甚至能大 ...

最新文章

  1. Windows Phone开发(48):不可或缺的本地数据库
  2. php语言与jsp,关于开发语言之PHP JSP与ASP NET对比浅析
  3. php添加管理员页面完整代码,php – Opencart管理员端的空白页面
  4. [转]ExecuteNonQuery()、ExecuteReader()、ExecuteScalar()的简单说明
  5. 分析拼多多的崛起【产品思维】
  6. 雪城大学信息安全讲义 4.1~4.2
  7. 新年新气象,从SQL Server 2019新特性开始!
  8. 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6
  9. gps测量与数据处理第三版pdf_测量培训需要掌握哪些知识点呢?_东英时代何老师...
  10. 操作 神通数据库_神通大型通用数据库
  11. Windows Server 2008 R2 学习笔记——VMware Workstation中服务器(Windows Server 2008 R2)与客户机(Windows 7)的安装
  12. 如何使用GoldWave中文版进行声道分离?
  13. 非法本法考备考经验总结
  14. 雅诗兰黛公司宣布晋升Stéphane de La Faverie为集团总裁
  15. Cobalt Strike (cs)联动 Goby 进行内网扫描
  16. C语言程序设计学习笔记:P1-程序设计与C语言
  17. 百度网盘怎么取消自动续费
  18. Application的启动流程
  19. 12[红+绿+蓝+Alpha]
  20. activiti会签功能

热门文章

  1. f文件服务器,f文件服务器
  2. Web3的流支付代表Zebec,熊市布局的价值逻辑
  3. 复盘总结笔记-吴志华老师讲座
  4. IoT通讯技术选型及模型设计的思考
  5. java中的super和this_在Java中super和this的区别
  6. 在蓝图中设置人物动作 教程
  7. 中国大学MOOC浙江大学“程序设计入门——C语言”的PTA练习题目集答案
  8. 听歌用什么降噪耳机好?骑行抗风噪最好的蓝牙耳机
  9. 360全景拼接 opencv_GitHub - hellojiawa/AndroidPanoDemo: 使用Opencv全景照片拼接
  10. 家校在线app 页面