1. 信号:

    1. 是一定量随时间的变化。 对于音频,变化的量是气压。
    2. 可以随时间采集气压样本。 采样数据的速率可以变化,但是最常见的是44.1kHz,即每秒44,100个采样。 捕获的是信号的波形。
  2. 傅立叶变换:
    1. 音频信号由几个单频声波组成。 在一段时间内对信号进行采样时,仅捕获得到的幅度(amplitude)。
    2. 傅里叶可以将信号分解为单个频率和频率幅度。 换句话说,它将信号从时域转换到频域。 结果称为频谱。
    3. 每个信号都可以分解为一组正弦波和余弦波,它们加起来等于原始信号。 这是一个著名的定理,称为傅立叶定理。
    4. 快速傅立叶变换是一种功能强大的工具,可让分析信号的频率成分,但是如果信号的频率成分随时间变化,大多数音频信号(例如音乐和语音)就是这种情况。 这些信号称为非周期性信号。 需要一种表示这些信号随时间变化的频谱的方法
    5. 短时傅立叶变换
      1. FFT是在信号的重叠窗口部分上计算的,得到所谓的频谱图。
      2. 可以将频谱图视为一堆相互堆叠的FFT。 当信号在不同频率下随时间变化时,这是一种直观地表示信号响度或幅度的方法。 计算频谱图时,还有一些其他细节。 y轴转换为对数刻度,颜色尺寸转换为分贝(您可以将其视为振幅的对数刻度)。 这是因为人类只能感知到非常小的集中频率和幅度范围。
  3. mel scale:
    1. 研究表明,人类不会感知线性范围的频率,在检测低频差异方面要胜于高频。 例如,可以轻松分辨出500 Hz和1000 Hz之间的差异,但是即使之间的距离相同,人也很难分辨出10,000 Hz和10,500 Hz之间的差异。
    2. 使相等的音高距离听起来与听众相等。 这称为梅尔音阶。 对频率执行数学运算,以将其转换为mel标度。
    3. mel谱图是频率转换为mel标度的谱图。
    4. 由于音频存在噪音,且有效数据没有很好地凸显出来,因此音频数据如果直接拿来做自动语音识别效果会非常差。使用mel特征提取可以将音频数据里有效信息进行提取、无用信息进行过滤。其原理是模拟人耳构造,对音频进行滤波,处理过后的数据再用来做自动语音识别效果会有显著提升。

    5. Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。

    6. 用录音设备录制一段模拟语音信号后,经由自定的取样频率(如8000 Hz、16000 Hz等)采样后转换(A/D)为数字语音信号。由于在时域(time domain)上语音信号的波形变化相当快速、不易观察,因此一般都会在频域(frequency domain)上来观察,其频谱是随着时间而缓慢变化的,因此通常可以假设在一较短时间中,其语音信号的特性是稳定的,通常我们定义这个较短时间为一帧(frame),根据人的语音的音调周期值的变化,一般取10~20ms

    7. 音频信号(audio signal)是在时间,幅度和频率上的三维信号。声波有三个重要的参数:频率ω0,幅度An和相位ψ n。

    8. 从频域角度来看,音频信号就是不同频率、相位和波幅的信号叠加。

    9. 人类对声音的敏感区间在4000Hz左右,如果采样频率达到2*4000=8000Hz左右,原始信号的中的信息对于普通人而言是完美保留。

  4. 总结:随时间采集了气压样本,以数字方式表示音频信号:
    1. 使用快速傅里叶变换将音频信号从时域映射到频域,并在音频信号的重叠窗口部分执行此操作。
    2. 将y轴(频率)转换为对数刻度,将颜色尺寸(幅度)转换为分贝,以形成频谱图。
    3. 将y轴(频率)映射到mel刻度上以形成mel频谱图。

mel频谱--学习笔记相关推荐

  1. 傅里叶变换学习笔记(二)——栅栏效应、频谱泄漏与加窗

    上文传送门: 傅里叶变换学习笔记(一) 本文将对傅里叶变换应用中常见的两个问题进行讨论. (一) 栅栏效应 先看一个典型的应用案例: 构造信号: x(t)=−sin(2πf1t)+sin(2πf2t) ...

  2. 语音识别(ASR)-- Kaldi 学习笔记

    语音识别(ASR)-- Kaldi学习笔记 语音识别简介 GMM-HMM基本原理 DNN-HMM(基于神经网络) Kaldi Kaldi架构简介 Kaldi在Windows下的安装 工具准备 编译Op ...

  3. 机器学习处理信号分离_[学习笔记]使用机器学习和深度学习处理信号基础知识...

    参考学习:Signal Generation and Preprocessing 本人只是为了了解信号处理的基础知识而做的学习笔记,涉及深度可能不够,有理解错误的地方请大胆指出,感激不尽 一.信号生成 ...

  4. opencv学习笔记22:傅里叶变换,高通滤波,低通滤波

    傅里叶变换原理 任何连续的周期信号,都可以由一组适当的正弦曲线组合而成. 下列左上图由其他三图构成. 左图经过傅里叶变换,由时域图转换到频域图.相互可逆 相位:不是同时开始的一组余弦函数,在叠加时要体 ...

  5. 频域补零上采样_AURIX 学习笔记(12)频域法互相关实现超声测距

    概述 上一篇 AURIX 学习笔记(11)外部中断以及基于时域互相关的超声测距 介绍了 TC264D 实现超声波测距应用的结构.原理等,也提到时域法的不足:计算复杂度高.滤波手段少.没有充分利用单片机 ...

  6. python opencv 直方图均衡_详解python OpenCV学习笔记之直方图均衡化

    本文介绍了python OpenCV学习笔记之直方图均衡化,分享给大家,具体如下: 官方文档 – https://docs.opencv.org/3.4.0/d5/daf/tutorial_py_hi ...

  7. 【近万字】分数傅里叶变换课程学习笔记

    学习自"课堂在线"平台,北京理工大学陶然教授的课程视频,讲解的非常详细全面,数学公式推导都有,以下为学习笔记,仅记录要点部分. 注:学习此课程,按重要程度排序,需要有信号与系统.数 ...

  8. 深度学习笔记 | 第16讲:语音识别——一份简短的技术综述

    原标题:深度学习笔记 | 第16讲:语音识别--一份简短的技术综述 大家好!又到了每周一狗熊会的深度学习时间了.在上一讲中,小编给大家介绍了经典的 seq2seq,以及著名的注意力模型,并且小编在这些 ...

  9. LabView学习笔记(十):条件结构

    Labview学习笔记: LabView学习笔记(一):基础介绍 LabView学习笔记(二):滤波器实验 LabView学习笔记(三):基本控件 LabView学习笔记(四):动态数据类型 LabV ...

最新文章

  1. AtcoderCodeForces杂题11.6
  2. 2019考研调剂信息 计算机专业,2019考研分数线还未公布,已公布的调剂信息是真的吗?...
  3. 用python绘制一条直线_python绘制直线的方法
  4. Astro Panel Pro for Mac - ps天文景观插件 支持ps2021
  5. gitlab更新配置无效_Gitlab 快速的搭建
  6. 如何快速学会java编程?
  7. 网络协议 22 - RPC 协议(下)- 二进制类 RPC 协议
  8. java 字符串 查找 多个_初学者求教,如何在字符串中查找多个子字符串的位置...
  9. HTML5矢量实现文件上传进度条
  10. STM32F103ZET6+ADF4351+HMI串口屏
  11. DirectX11程序从VS2010转到VS2015的配置与使用
  12. linux teamviewer,Linux 系统下安装 teamviewer
  13. 入侵WIN2003 PHP服务器的另类技术
  14. 暗黑 pvpgn mysql 架设_暗黑破坏神2战网架设图文教程
  15. 基于QT+Halcon实现拟合圆形
  16. Dialogs 介绍
  17. 均值不等式的常见使用技巧【初级、中级和高阶辅导】
  18. 给 32 位系统装 8g 内存条能用吗?为什么?
  19. C++的strcmp
  20. 基于DNN的鼻咽癌鼻咽淋巴瘤数据处理

热门文章

  1. dddd带带弟弟OCR识别验证码
  2. 测试用例设计 通用原则
  3. Arduino驱动DS18B20数字温度传感器
  4. 广域网协议(HDLC协议和PPP协议)
  5. 插头类型:MX 1.25 PH间距2.0、XH间距2.5/2.54、VH间距3.96区别?
  6. Hulu全球研发副总裁诸葛越谈人工智能
  7. cmd操作txt文件
  8. OSPF的三张表(链路状态公告)
  9. 人工智能在自动驾驶深度学习中的应用
  10. 2017 ccpc网络预选赛 CaoHaha's staff