一步一步讲解和实现ASR中常用的语音特征——FBank和MFCC的提取,包括算法原理、代码和可视化等。

完整Jupyter Notebook链接:https://github.com/Magic-Bubble/SpeechProcessForMachineLearning/blob/master/speech_process.ipynb

文章目录

  • 语音信号的产生
  • 准备工作
    • 1. 导包
    • 2. 绘图工具
    • 3. 数据准备
  • 预加重(Pre-Emphasis)
  • 分帧(Framing)
  • 加窗(Window)
  • 快速傅里叶变换(FFT)
  • FBank特征(Filter Banks)
  • MFCC特征(Mel-frequency Cepstral Coefficients)
  • FBank与MFCC比较
  • 其他特征
  • 标准化
  • 总结
  • 传送门

语音信号的产生

语音通常是指人说话的声音。从生物学的角度来看,是气流通过声带、咽喉、口腔、鼻腔等发出声音;从信号的角度来看,不同位置的震动频率不一样,最后的信号是由基频和一些谐波构成。

之后被设备接收后(比如麦克风),会通过A/D转换,将模拟信号转换为数字信号,一般会有采样、量化和编码三个步骤,采样率要遵循奈奎斯特采样定律:

    fs&amp;gt;=2ffs &amp;gt;= 2f</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.88888em; vertical-align: -0.19444em;"></span><span class="mord mathit" style="margin-right: 0.10764em;">f</span><span class="mord mathit">s</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">&gt;</span></span><span class="base"><span class="strut" style="height: 0.36687em; vertical-align: 0em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.88888em; vertical-align: -0.19444em;"></span><span class="mord">2</span><span class="mord mathit" style="margin-right: 0.10764em;">f</span></span></span></span></span>,比如电话语音的频率一般在300Hz~3400Hz,所以采用8kHz的采样率足矣。</p>


http://www.taodudu.cc/news/show-4289448.html

相关文章:

  • 由于找不到msvcp140.dll,无法继续执行代码。重新安装可能会解决此问题
  • 关于自己搭建的邮件被微软反垃圾邮件标记为垃圾邮件
  • Java、JSP反垃圾邮件管理系统
  • 反垃圾邮件系统|基于Springboot+vue 实现反垃圾邮件系统
  • 抓包工具之wireshark安装和使用
  • How to debug HTTP requests when developing and testing Web applications and clients
  • 有价值的软件工具
  • 微软声学回声消除demo AECMicArray的使用
  • QQ、YY与webRTC回声消除效果对比分析与展望
  • 怎么恢复计算机系统软件,重装系统后软件如何恢复原状
  • 电脑重装系统数据恢复方法教程
  • Docker 多阶级构建:Docker 下如何实现镜像多阶级构建?
  • 影响力阶级
  • python构建一个计算列表中位数的函数_python学习之数据科学库
  • 11 ,FacetGrid 使用,分组画图 :各种图形,详细设置
  • 数据聚合和分组运算
  • 随机森林算法: 实战基于随机森林的医疗费用分析与建模预
  • pandas案例之消费金额和消费之间的关联与性别和吸烟与否的关系
  • 【Python数据分析与可视化】Pandas统计分析-实训
  • R语言学习笔记之六
  • Pandas与SQL比较
  • python-DataFrame练习
  • 【python】python3.7数据分析入门学习笔记 研读
  • 数据处理之数据类型转换
  • 利用Python进行数据分析的学习笔记——chap9
  • python数据可视化程序_python数据可视化简易版
  • 操作系统进程调度算法——吸烟者问题
  • 乐事薯片:价格涨了,质量降了,年轻人的快乐没有了
  • taohui.org.cn建站历程
  • 冯小刚回应质疑:中国没大师 谁都别装!

MFCC和fbank的区别相关推荐

  1. 计算机算log的原理,语音声学特征提取:MFCC和LogFBank算法的原理

    语音声学特征提取:MFCC和LogFBank算法的原理 语音识别 最后更新 2021-03-04 11:57 阅读 998 最后更新 2021-03-04 11:57 阅读 998 语音识别 几乎任何 ...

  2. 语音处理入门——语音的声学处理

    语音的声学处理通常称为特征提取或者信号分析,特征是表示语音信号的一个时间片的矢量.常见的特征类型有LPC(线性预测编码)特征和PLP(感知线性预测编码),该特征称为声谱特征,使用形成波形的不同频度的分 ...

  3. [转]Kaldi语音识别

    Kaldi语音识别1.声学建模单元的选择1.1对声学建模单元加入位置信息2.输入特征3.区分性技术4.多音字如何处理?5.Noise Robust ASR6.Deep Learning[DNN/CNN ...

  4. 说话人性别识别——语音检测初探

    目录 一.任务背景和分析 二.特征抽取 librosa wave torchaudio 三.数据集 commonvoice [ 中文] 四.模型训练 1.频域信号+LSTM+2DCNN 2.频域信号+ ...

  5. gentos 执行sh文件_学习kaldi跑thchs30记录(run.sh代码过程)

    cmd.sh:运行配置目录,并行执行命令,通常分 run.pl, queue.pl 两种 path.sh:环境变量相关脚本(kaldi公用的全局PATH变量的设置) run.sh :整体流程控制脚本, ...

  6. 一些语音特征--学习笔记

    常用的语音特征: 语谱图(spectrogram):输入语音,预加重,分帧,加窗,FFT,幅值平方,对数功率 Fbank:输入语音,预加重,分帧,加窗,FFT,幅值平方,mel滤波器,对数功率 MFC ...

  7. PyTorch-Kaldi 深度学习语音识别开源软件

    PyTorch-Kaldi 深度学习语音识别开源软件 论文:Ravanelli M (Mirco Ravanelli), Parcollet T, Bengio Y. The Pytorch-kald ...

  8. Mel Frequency Cepstral Coefficients (MFCCs)

    wiki里说 在声音处理中,梅尔频率倒谱( MFC ) 是声音的短期功率谱的表示,基于非线性梅尔频率标度上的对数功率谱的线性余弦变换. 倒谱和MFC 之间的区别在于,在 MFC 中,频带在梅尔尺度上等 ...

  9. 信号为E时,如何让语音识别脱“网”而出?

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯教育云发表于云+社区专栏 一般没有网络时,语音识别是这样的 ▽ 而同等环境下,嵌入式语音识别,是这样的 ▽ 不仅可以帮您边说边识. ...

最新文章

  1. Codeforces Round #104 (Div. 2) E DP(01背包模型) +组和+除法取模求逆元
  2. SAP:HANA为高性能数据分析保驾护航
  3. 数据库元数据数据字典查询_2_列出所有的数据库
  4. 6 个前端开发必备工具,提高你的生产力
  5. mysql中的增删改查
  6. golang 查询mysql_Golang查询MySQL数据库
  7. WMS备货单保存后自动新增选项不勾选
  8. 在windows平台上测试自己的人脸检测算法在FDDB数据集
  9. 谷歌浏览器设置信任_Win10谷歌浏览器添加信任网址/站点的方法
  10. 数据库开发工程师岗位职责and技能要求
  11. 服务器安全-阿里自研补丁列表整理
  12. 利用Map,完成下面的功能: 从命令行读入一个字符串,表示一个年份,输出该年的世界杯冠军是哪支球队。如果该年没有举办世界杯,则输出:没有举办世界杯。
  13. 怎么让Html的高度自适应屏幕高度
  14. 【华人学者风采】James T. Kwok(郭天佑) 香港科技大学
  15. 15计算机应用专业综合理论试卷答案,2013年南通市对口单招计算机应用专业综合理论第二次模拟试卷(含答案).doc...
  16. 三个等号和两个等号的区别(“===”和“==”)
  17. 有哪些有趣、有教育性的模拟黑客游戏?
  18. IBM董事长亲自站台,开源为什么对IBM这么重要?
  19. 根据身份证号计算年龄
  20. Docker hub镜像加速

热门文章

  1. Python While循环与break语句_加工零件
  2. (一)基于用户的协同过滤推荐算法原理和实现
  3. 存储中所说的蓝光和磁带库
  4. 去掉设备和驱动器的百度网盘
  5. 使用负载均衡技术建设高负载的网络站点(经典文章)
  6. 2. web前端开发分享-css,js进阶篇
  7. 最新100个微信小程序
  8. KEIL 不使用microlib 报错__stdin __stdout重复定义
  9. 达梦8数据库更新语句包含单引号双引号引起转义字符执行失败解决方法全网唯一
  10. 使用javaGUI做一个MC版俄罗斯方块(二)