一、语音的深度学习使用哪种谱?

答:以“幅度谱”和“梅尔谱”为主,通常可以用librosa库或者torchaudio库进行提取。

梅尔谱:在幅度谱的基础上,乘以一个“梅尔变换”,得到80维度的梅尔谱。 这种谱的80个频率组更接近人耳的听觉感知范围。但是相应地,蕴含的语音信息比幅度谱要少一些。因此,在一些面向人类的语音任务中较为常用。

注意,深度学习中的梅尔谱大多数情况下指对数梅尔谱!! !

  • “幅度谱”的频率组中的频率以线性等间隔增加;10Hz、20Hz、30Hz、…
  • “梅尔谱”的频率组中的频率以对数间隔增加;10Hz、15Hz、17Hz、18Hz、…

  1. 从2015年深度学习广泛取得较好的效果以来,大多数语音任务普遍采用STFT(amp) 谱或者melspec作为训练输入。
  2. melspec在大多数论文中默认是取对数的,即使论文本身使用的单词是melspec,但 是实际上训练的时候,代码中会加上log ( ) 函数。
  3. STFT谱的特征维度可以随意,一般习惯使用1024、512、256维,但是较多的训练过程的melspec还是采用80维。

一般情况下设定参数如下:

  • 幅度谱:n_fft = 1024(n_dim = 513);
  • 梅尔

语音信号处理-概念(二):幅度谱(短时傅里叶变换谱/STFT spectrum)、梅尔谱(Mel spectrum)【语音的深度学习主要用幅度谱、梅尔谱】【用librosa或torchaudio提取】相关推荐

  1. 语音信号处理-概念(四):傅里叶变换(FT)、快速傅里叶变换(FFT)、短时傅里叶变换(STFT)、小波变换

    从傅里叶变换到小波变换,并不是一个完全抽象的东西,可以讲得很形象.小波变换有着明确的物理意义,如果我们从它的提出时所面对的问题看起,可以整理出非常清晰的思路. 下面我就按照傅里叶–>短时傅里叶变 ...

  2. 语音信号处理基础(二)

    语音信号处理基础(二) 1.2.2 语音编码 语音编码的目的 保证在一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源. 语音编码技术的鼻祖:研究开始于1939年军事保密通信的需要,贝尔电话实 ...

  3. 利用短时傅里叶变换(STFT)对信号进行时频谱分析和去噪声

    利用短时傅里叶变换(STFT)对信号进行时频谱分析和去噪声 1.背景  傅里叶变换(TF)对频谱的描绘是"全局性"的,不能反映时间维度局部区域上的特征,人们虽然从傅立叶变换能清楚地 ...

  4. 语音信号处理-概念(一):时域信号(横轴:时间;纵轴:幅值)、频谱图(横轴:频率;纵轴:幅值)--傅里叶变换-->时频谱图(语谱图/声谱图)【横轴:时间;纵轴:频率;颜色深浅:幅值】

    我们经常接触到与频谱相关的概念.本节对这些概念之间的区别进行简单的介绍. 一般来讲,将一段时域信号通过离散傅里叶变换后,将频率作为横轴.幅度作为纵轴,得到的图像称作 频谱.若将相位作为纵轴,则称为 相 ...

  5. 语音信号处理入门系列(1)—— 语音信号处理概念

    文章目录 1.语音交互 2. 复杂的声学环境 2.1 声学回声消除 2.2 解混响 2.3 语音分离 2.4 波束形成 2.5 噪声抑制 2.6幅度控制 2.7 前端信号处理的技术路线 3. 参考 4 ...

  6. 数字信号处理——时频分析(短时傅里叶变换)

    短时傅里叶变换的概念 背景: 傅里叶变换的局限性:在做傅里叶变换的时候,使用的是(-∞,∞)的时间信息来计算单个频率的频谱,所以傅里叶变换是一种全局性的描述,不能反映信号局部区域的信息,故如果信号在某 ...

  7. matlab 时频分析(短时傅里叶变换、STFT)

    短时傅里叶变换,short-time fourier transformation,有时也叫加窗傅里叶变换,时间窗口使得信号只在某一小区间内有效,这就避免了传统的傅里叶变换在时频局部表达能力上的不足, ...

  8. 短时傅里叶变换(STFT)实例

    记录学习音频短时傅里叶变换的过程,注意,这里并不会讲述傅里叶变换的原理 想了解原理可以自行搜索或查看文中的参考文章 运行使用Pycharm,环境为python3.10 1.导入软件包,设置快速傅里叶变 ...

  9. 语音信号处理-基础(二): 发声生理、听觉生理与听觉心理

    一.语音的来源 1.声带 喉部的声带是对发音影响很大的器官. 声带的声学功能是为语音提供主要的激励源: 由声带震动产生声音,是形成声音的基本声源. 2.基频 声带开启和闭合使气流形成一系列脉冲,每开启 ...

  10. 深度学习、Linux基础、语音技术等电子书籍分享,仅供学习

    深度学习.Linux基础.语音技术等电子书籍分享,仅供学习 即将毕业老师兄学习资源分享 Linux书籍 鸟哥的Linux私房菜-基础篇第四版 链接:https://pan.baidu.com/s/14 ...

最新文章

  1. expect--自动批量分发公钥脚本
  2. Python 安装第三方模块
  3. itertools mode 之 combinations用法
  4. 多元线性回归分析问题
  5. 《精通正则表达式》笔记
  6. P1352-没有上司的舞会【树形dp】
  7. java9-1.类,抽象类,接口的综合小练习
  8. python自动化办公模块有哪些-python常见的命令行交互自动化模块有哪些
  9. 计算机c程序题孔融让梨,幼儿园大班语言游戏教案《孔融让梨》含PPT课件
  10. HTML实现学习网站首页
  11. 【Linux 内核 内存管理】内存映射相关数据结构 ① ( vm_area_struct 结构体 | task_struct、mm_struct、vm_area_struct 3 个结构体之间的关系)
  12. Drools 规则引擎一文读懂
  13. qemu安装WindowsXP和Windows2000
  14. springboot开发微信公众号(一)创建、查询、删除菜单(附源码)
  15. matlab中功率因数模块,最经典的功率因数控制器设计方案
  16. android pm 列出权限,Android pm命令
  17. 重学React基础知识整理——组件间的另类通信“插槽”(五)
  18. 【网上教学】实现线上签到和收批作业的方法
  19. GitHub使用之路
  20. Typora提示测试版过期,继续免费试用方法

热门文章

  1. 【机器学习手册】【1】熟练使用向量矩阵和数组 —— 二维矩阵叉乘公式
  2. JAVA 2048源码_java实现2048游戏源代码
  3. Java 正则表达式 匹配英文字母
  4. PackageManager(管理应用程序包)解析
  5. getParameterValues
  6. 几种前端h264播放器记录
  7. 计算机房档案管理,河南省数字档案馆机房管理制度
  8. Win 10 添加多国语言
  9. 3650m5设置u盘启动_联想启天M425台式机设置u盘启动两种模式(支持uefi/bios双启动)...
  10. SSH框架搭建和整合(struts2、spring4、hibernate5)