深度学习之语音识别-音频基础知识、声谱图(Spectrogram)
音频基础知识
声音的三要素
1.音调
人耳对声音高低的感觉称为音调(也叫音频)。音调主要与声波的频率有关。声波的频率高,则音调也高。当我们分别敲击一个小鼓和一个大鼓时,会感觉它们所发出的声音不同。小鼓被敲击后振动频率快,发出的声音比较清脆,即音调较高;而大鼓被敲击后振动频率较慢,发出的声音比较低沉,即音调较低。一般音频 儿童>女生>男生。人耳听觉音频范围是20Hz-20000Hz
2. 音量
也就是响度。人耳对声音强弱的主观感觉称为响度。响度和声波振动的幅度有关。一般说来,声波振动幅度越大则响度也越大。当我们用较大的力量敲鼓时,鼓膜振动的幅度大,发出的声音响;轻轻敲鼓时,鼓膜振动的幅度小,发出的声音弱。
另外,人们对响度的感觉还和声波的频率有关,同样强度的声波,如果其频率不同,人耳感觉到的响度也不同。
3.音色
也就是音品。音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性,或者说是人耳对各种频率、各种强度的声波的综合反应。音色与声波的振动波形有关,或者说与声音的频谱结构有关。
音叉(一种乐器)可产生一个单一频率的声波,其波形为正弦波。但实际上人们在自然界中听到的绝大部分声音都具有非常复杂的波形,这些波形由基波和多种谐波构成。谐波的多少和强弱构成了不同的音色。各种发声物体在发出同一音调声音时,其基波成分相同。但由于谐波的多少不同,并且各谐波的幅度各异,因而产生了不同的音色。
声谱图
什么是声波图
声音是一种震动(vibration),它会形成波(wave),然后通过空气、水或者固体进行传播。
可以通过两种形式改变这个震动。
- 通过改变它们的频率(frequency),即这个震动震得有多快,称之为音高(pitch)
- 通过改变它们的振幅(amplitude),即这个震动的具有的能量大小,被称为音量(volume)
而声谱图,就是通过二维图像将声音数据展示给我们,如下图所示:
这就是一个声谱图。它包含以下几个部分:
- 横坐标(时间序列):横坐标表示时间序列
- 纵坐标(频率):纵坐标表示声音频率,纵坐标越大,说明频率越高,越接近0,说明频率越低。
- 颜色(振幅):颜色代表振幅,颜色越亮,表示振幅越高。越暗,表示振幅越小
声波图举例
Google提供了一个网页,可以很方便的生成声波图,有兴趣可以去试试:https://musiclab.chromeexperiments.com/Spectrogram/
1 鸣声声波图
可以看到,鸟的叫声频率很高,但由于录制原因,振幅(响度)却很低。
2 竖琴
竖琴的音调频率相比鸟叫,就低的多。最下面颜色比较红,说明这个音调的声音是最响亮的。
3 人声
这是我随便说的一句话,人声的音调还是比较低的。而且每个字之间其实是有些许的停顿的。
4 口哨
这是我用嘴吹了一小段的口哨,口哨的音调相对较高。
就举这些例子吧,有兴趣可以点进去玩玩,还是挺好玩的
参考资料
音频基础知识:https://www.jianshu.com/p/f56114df9c0b
What is a Spectrogram?:https://www.youtube.com/watch?v=sIckmJkH2Oc
Google Spectrogram:https://musiclab.chromeexperiments.com/Spectrogram/
深度学习之语音识别-音频基础知识、声谱图(Spectrogram)相关推荐
- 深度学习——keras教程系列基础知识
大家好,本期我们将开始一个新的专题的写作,因为有一些小伙伴想了解一下深度学习框架Keras的知识,恰好本人也会一点这个知识,因此就开始尝试着写一写吧.本着和大家一起学习的态度,有什么写的不是很好的地方 ...
- Android音视频学习系列(五) — 掌握音频基础知识并使用AudioTrack、OpenSL ES渲染PCM数据
系列文章 Android音视频学习系列(一) - JNI从入门到精通 Android音视频学习系列(二) - 交叉编译动态库.静态库的入门 Android音视频学习系列(三) - Shell脚本入门 ...
- torchaudio音频基础知识学习
torchaudio音频基础知识学习 文章目录 torchaudio音频基础知识学习 前置知识 音频的表示形式 总结 贴出本文学习的主要来源: pytorch官网torchaudio的学习文档 需要使 ...
- 直播平台怎么搭建,你要先来学习音频基础知识
直播平台怎么搭建,你要先来学习音频基础知识 概述 本片文章主要介绍音频基础,在做音频开发之前首先必须要对音频的相关概念了解.以下是具体内容概述: 常见的音频格式 WAV MP3 WMA RA APE ...
- 专访微软研究院俞栋:基于深度学习的语音识别及CNTK的演进
作为人工智能领域的一个重要方向,语音识别近年来在深度学习(Deep Learning)的推动下取得了重大的突破,为人机语音交互应用的开发奠定了技术基础.语音识别技术演进及实现方法.效果,既是语音识别从 ...
- 如何用深度学习进行语音识别
作者:九五要当学霸 链接:https://zhuanlan.zhihu.com/p/24703268 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处 原文:Adam G ...
- 深度学习word2vec笔记之基础篇
深度学习word2vec笔记之基础篇 声明: 1)该博文是多位博主以及多位文档资料的主人所无私奉献的论文资料整理的.具体引用的资料请看参考文献.具体的版本声明也参考原文献 2)本文仅供学术交流,非商用 ...
- 深度学习在语音识别中的声学模型以及语言模型的应用
过去 3 年,深度学习在各个领域取得较大突破,比如计算机视觉领域的物体识别.场景分类,语音分析等,并且其技术推广和应用的速度超过人们预期,比如 Google 的广告系统已经开始使用深度学习盈利,Twi ...
- 深度学习进行语音识别的方法 如何建立自己的语音识别系统
语音识别正在「入侵」我们的生活.我们的手机.游戏主机和智能手表都内置了语音识别.他甚至在自动化我们的房子.只需50美元,你就可以买到一个Amazon Echo Dot,这是一个可以让你订外卖.收听天气 ...
最新文章
- controller与servlet区别
- 计算机系统覆盖,计算机系统软件顶会OSDI 2021最佳论文出炉,邢波团队研究入选...
- 台式计算机装电源线,完美:[机箱电源线的连接方法]如何选择台式机电源?组装台式计算机机箱的电源线连接方法图...
- django ORM创建数据库方法
- 利用selenium webdriver点击alert提示框
- 51单片机——UART
- camera (19)---Android 相机开发的基本流程
- 矩阵论作业4,5,6讲
- 屏幕演示讲解必备工具:虚拟教棒、屏幕画笔、ZoomIt放大屏幕、鼠标探照灯(图)
- 妙控键盘大写按哪个键_苹果键盘怎么输入大写字母
- AutoIT测试实例
- 有哪些支持 HomeKit 的智能家居生态值得推荐?
- Java实验四:类和对象;类的继承和派生;多态性; 接口;构造器应用
- NVDIMM在闪存存储中的应用探讨
- 韩老师坦克大战2.0版本
- 易观分析:银行实现无感风控落地需提高主动感知风险能力
- onvif 视频28181 1400 区别
- 腾讯QQ Linux版正式回归 支持x64、ARM64
- 软件开发成本太高,怎么办?
- HTML+CSS静态页面网页设计作业 学生DW网页设计作业成品 web课程设计网页规划与设计