目录

1 Python-Librosa库简介

2 音频文件的加载

2.1 返回值与参数

2.2 音频加载示例

2.3 简析返回值y

3 波形图和语谱图的绘制

3.1 绘制波形图

3.1.1 waveshow()方法

3.1.2 波形图绘制示例

3.2 绘制语谱图

3.2.1 specshow()方法

3.2.2 线性频率的语谱图

3.2.3 对数频率的语谱图

3.2.4 梅尔频率的语谱图

4 语谱图颜色的设置(超级好看)

1 Python-Librosa库简介

Librosa是一个强大的用于处理声音信号的第三方库,其官网提供了比较详细的官方文档供使用者学习,主页链接贴在这里:librosa — librosa 0.8.1 documentation,下图是官方文档的主页:

官网提供了多种Librosa库的安装方法,包括pypi、conda和源码安装,最方便的当然是pip安装,而且这种安装方法确保Librosa库满足所有依赖。我们可以使用清华镜像来提升安装速度:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple librosa

目前官方文档对应的版本是0.8.1,Github(GitHub - librosa/librosa: Python library for audio and music analysis)中也是该版本,应该是当前最高版本,不久的将来会出现0.9.0版本。

2 音频文件的加载

2.1 返回值与参数

将音频文件加载到程序中直接调用 librosa.load()方法即可实现,方法中的参数如下:

librosa.load(path, sr=22050, mono=True, offset=0.0, duration=None,
dtype=<class 'numpy.float32'>, res_type='kaiser_best')

先交代一下该方法的返回值。返回值有两个:ysry是音频的时间序列,是一个float32的numpy数组。sr是采样率(sampling rate)。

path 是文件路径。可以传入各种格式的文件,对于语音分析来说,最好直接传入.wav格式的音频文件,wav就是波(wave)的意思。

sr 的默认值是22050Hz(人耳识别声音频率的上限就是20000Hz)。如果想保留音频原本的采样率,将sr设为None。也可以根据需求重置采样率。元音声调的分析11025Hz或16000Hz的采样率就够了,辅音的分析一般设为22050Hz。笔者用22050Hz的采样率录了一个词“文程”,

mono 意为单声道,如果参数值为True,会将不是单声道的音频转换为单声道。一般来说,语音分析用单声道录音就可以了。

offset 和 duration 分别表示音频读取的起始时间点持续时长,默认值分别是0.0和None,即默认读取整段音频文件。也可以根据需要设置需要读取的音频段。

dtype 和 res_type 分别表示返回值y中元素的数据类型(默认单精度浮点数float32)和重采样(resample)模式,官方文档解释默认的重采样模式kaiser_best是一种高品质的模式,kaiser就是凯撒的意思,听起来就很厉害,应该是不用改的吧。在官方文档提供的示例中,这两个参数都没有改动,估计一般不用改。

2.2 音频加载示例

我用普通话读了一个词“文程”并录音,采样率为22050Hz,音频时长为4.048979591836734秒,音频文件的格式.wav,采用单声道。下面用Librosa加载这个音频。

# 导包
import librosa# 读取音频
y, sr = librosa.load('文程.wav', offset=1.8, duration=1.7)
print(y)
print(sr)

运行结果:

array([-7.3242188e-04, -7.0190430e-04, -7.3242188e-04, ...,-2.4414062e-04, -4.5776367e-04,  3.0517578e-05], dtype=float32)
22050

音频的采样率和声道数跟load()方法参数srmono是一样的,这里都保持默认。音频虽然有4秒多,但是前后都有空白,真正有效的大约在1.8秒和3.3秒之间,因此起始点offset设为1.8,持续时间duration设为1.7。

当然也可以把采样率改一下,比如将 sr 调为16000Hz,再来看运行结果:

# 导包
import librosa# 读取音频
y, sr = librosa.load('文程.wav', sr=16000, offset=1.8, duration=1.7)
print(y)
print(sr)

运行结果:

[-6.1596854e-04 -7.5050717e-04 -7.3633762e-04 ...  6.1120314e-059.0007132e-05  9.4523537e-05]
16000

2.3 简析返回值y

最后简单地解析一下返回值y,在官方文档的描述中y是音频时间序列(audio time series),实际上就是音频的数字表达,即我们常说的模数(A/D)转换过程。

Librosa设定的numpy数组中元素的默认类型是float32,说明采集的样本大小是32bit的,这个采样精度是很高的。32bit的样本一般采用单精度浮点型(float32)存储,而8bit和16bit一般用整型int.

我们可以看一下y的数组长度,即时间序列中有多少个样本点(代码接着2.2按16000Hz采样的数据):

print(len(y)) # 27200

16000Hz下1.7秒的音频有27200个采样点。所谓采样率就是每一秒样本的数量,1.7秒的样本数应该为16000*1.7=27200.

这里顺便提一下Librosa的get_duration()方法,该方法获取的是音频的长度(单位:秒)。不过传入的参数不是音频文件,而是时间序列y

print(librosa.get_duration(y,sr=sr))  # 1.7

3 波形图和语谱图的绘制

Librosa.display中提供了多种音频信号可视化的方法,翻阅源码不难发现display的底层是matplotlib,display本身也常常与matplotlib配合使用,官方文档的示例中也体现了一点。

3.1 绘制波形图

3.1.1 waveshow()方法

目前的0.8.1中有两个方法可用于波形图的绘制,分别是waveplot()waveshow()。查阅官方文档的更新日志,waveshow()是0.8.1版本中新增,waveplot()将会在未来的0.9.0版本中被删除。下面是waveshow()方法的参数:

librosa.display.waveshow(y, sr=22050, max_points=11025, x_axis='time',
offset=0.0, marker='', where='post', label=None, ax=None, **kwargs)

前两个参数ysrload()方法的返回值是一样的,因此直接与其保持一致就可以了。

max_points 指的是用于绘图的最大样本数,默认值是采样率的一半。官方文档解释了一通,大概说小于默认值图能画出来,大于默认值就要先降采样再画图。其实这个参数基本是不用动的,原因是奈圭斯特定律(Nyquist's law)。我是这么理解的,声波在时间序列上是一个个周期组成的,每个周期至少两个采样点才能得到完整的信息,那么采样率就是频率的两倍;那么反过来,波形图是对声波的可视化,把一个周期看成一个样本,波形图的样本数就是采样率的一半。

x_axis 顾名思义就是横轴的x轴的标记内容,默认是'time',x轴单位是秒。除了None以外,有两类六种参数可选。一个是time类,包括'time','s','ms',x轴单位是秒或毫秒;另一个是lag类,包括'lag','lag_s','lag_ms',单位也是秒,lag表示滞后时间,从0开始,过了中点为负数。一般采用默认的'time'就可以了。

offset 用于设定音频需要可视化部分的起始时间,一般也不用改。因为在上一步用load()读取音频时就已经把需要处理的音频段设置好了。

后面几个参数都与图像的绘制有关,都是传自matplotlib里面的参数。最后还有一个*kwargs(可变关键字参数),传自matplotlib.pyplot.fill_between 和 matplotlib.pyplot.step,比如我们可以传一个color设置图像的颜色(图像默认是蓝色的)。

3.1.2 波形图绘制示例

代码接着上文2.2按16000Hz的采样率的 load() 方法获取到的 和 sr

在Jupyter Notebook中,只要一行代码就能显示想要的波形图,非常方便:

librosa.display.waveplot(y, sr)

在pycharm等编译器中,需要借助matplotlib.pyplot,否则无法显示图像,示例如下:

plt.figure()
librosa.display.waveplot(y, sr)
plt.show()

我们也可以自由地定制自己喜欢的可视化样式,比如给图改个颜色,再加个标题:

plt.figure()
librosa.display.waveshow(y, sr, color='orange')
plt.title('文程', fontproperties="SimSun")
plt.show()

改变x轴的范围可以达到局部放大的效果,比如0-0.83秒差不多是“文”这个字音的范围,可以截出来:

plt.figure()
librosa.display.waveshow(y, sr, color='orange')
plt.title('文', fontproperties="SimSun")
plt.xlim(0, 0.83)
plt.show()

 waveshow()方法除了能够显示上面演示的这种包络图(envelope view),还能显示谐波和脉冲成分(harmonic and percussive components),官方文档中有相应示例,谐波和脉冲的分析留待后续探索。

3.2 绘制语谱图

语谱图(spectrum)是一种汇集了频率时间振幅三种信息的图像,横轴代表时间,纵轴代表频率,频率线的颜色深浅代表能量(反映振幅)。

3.2.1 specshow()方法

librosa.display.specshow(data, x_coords=None, y_coords=None, x_axis=None, y_axis=None,
sr=22050, hop_length=512, fmin=None, fmax=None, tuning=0.0, bins_per_octave=12,
key='C:maj', Sa=None, mela=None, thaat=None, auto_aspect=True, htk=False, ax=None,
**kwargs)

specshow()方法的参数是比较多的,但是一般的需求中要改动的参数并不多。绘制语谱图前要进行频谱分析,即进行时频转换。参数的取值与转换后所得数据的频率尺度(scale)有关。

频谱分析都是基于短时傅里叶变换(STFT)得到的功率谱(power spectrum),频率可以采用多种尺度,不管采用哪种尺度的频谱,都要调用librosa.amplitude_to_db()方法将STFT之后得到的幅度值进行对数变换得到分贝值(dB),在将这个方法的返回值数据传入specshow()方法中,于是就得到了用颜色深浅表示能量大小的显示。

这里演示三种尺度:原尺度(线性linear)对数尺度(logarithmic scale)梅尔尺度(mel scale)。另外,笔者在使用中发现采样率在22050Hz以下时得语谱图的图像分辨率并不高,44100Hz的图像效果比较理想,因此重新录了“文程2.wav”,采样率提高到44100Hz。

另外,如果想把多个语谱图画在一起,需要指定specshow()方法中的 ax 参数,这里不做演示。

3.2.2 线性频率的语谱图

将STFT得到的功率谱可视化的实现比较简单,大部分参数直接采用默认值就可以了。其他参数说明见注释。

import librosa.display
import matplotlib.pyplot as plt
import numpy as np# 读取音频,采样率为44100Hz,持续时间为2秒
y, sr = librosa.load('文程2.wav', offset=0.83, duration=2, sr=None)# 将 stft 之后的 幅度值的绝对值 转换为 分贝值,将返回值传入specshow()方法中
data = librosa.amplitude_to_db(np.abs(librosa.stft(y)), ref=np.max)# 绘制图像
fig, ax = plt.subplots(1,1)
# x轴是时间(单位:秒),y轴是由fft窗口和采样率决定的频率值(单位:Hz)
img = librosa.display.specshow(data, sr=sr, x_axis='time', y_axis='linear')
plt.ylim(0, 8500) # 8000Hz以上没有能量显示,因此y轴上限设为8500
plt.title('文程2.wav 线性频率语谱图', fontproperties="SimSun")
fig.colorbar(img, ax=ax, format="%+2.f dB")
plt.show()

3.2.3 对数频率的语谱图

这种语谱图基于对数尺度的功率谱。根据官方文档,首先要把短时傅里叶变换的方法stft()的参数值hop_length(帧移)调大。翻阅stft()方法的源码,知道hop_length指相邻STFT列的音频样本数,在不改变其他参数的情况下是512(stft()方法里的参数关系有点复杂,后续再探索),这里扩大到两倍到1024

但是得到对数频率下语谱图的关键不在上面的步骤,而是改变y_axis参数,将其设为'log',如果设为'linear',得到的图像跟上一节展示的差不多。画出来的图画质简直一言难尽(太糊了,官方文档的图也糊),暂时不知道有什么用,留待今后探索吧。

import librosa.display
import matplotlib.pyplot as plt
import numpy as np# 读取音频,采样率为44100Hz,持续时间为2秒
y, sr = librosa.load('文程2.wav', offset=0.83, duration=2, sr=None)# 扩大 帧移 到1024,并传入stft()和specshow()方法中
hop_length = 1024# 将 stft 之后的 幅度值的绝对值 转换为 分贝值,将返回值传入specshow()方法中
data = librosa.amplitude_to_db(np.abs(librosa.stft(y, hop_length=hop_length)), ref=np.max)# 绘制图像
fig, ax = plt.subplots(1,1)
# x轴是时间(单位:秒),y轴是对数尺度的频率值(单位:Hz)
img = librosa.display.specshow(data, y_axis='log', sr=sr, hop_length=hop_length, x_axis='time')
plt.title('文程2.wav 对数频率语谱图', fontproperties="SimSun")
fig.colorbar(img, ax=ax, format="%+2.f dB")
plt.show()

3.2.4 梅尔频率的语谱图

梅尔频谱在普通的频谱图加上梅尔滤波函数,相比于普通的频率,梅尔频率更能模拟人耳对声音的感知。在网上查找有关Librosa的资料时,发现不少关于提取MFCC(梅尔倒谱系数)特征提取的文章。因此这里再绘制一个基于梅尔频率的语谱图,看看是什么样子的。

在此之前,要先将功率谱转换为梅尔频谱并将其进行对数变换,具体方法见代码及注释,这些方法的操作细节留待后续探索。

import librosa.display
import matplotlib.pyplot as plt
import numpy as np# 读取音频,采样率为44100Hz,持续时间为2秒
y, sr = librosa.load('文程2.wav', offset=0.83, duration=2, sr=None)# 提取梅尔频谱
melspec = librosa.feature.melspectrogram(y, sr)# 将梅尔频率数据做对数变换
logmelspec = librosa.power_to_db(melspec)# 绘制图像
fig, ax = plt.subplots(1,1)
# x轴是时间(单位:秒),y轴是梅尔尺度的频率值(单位:Hz)
img = librosa.display.specshow(logmelspec, y_axis='mel', sr=sr, x_axis='time')
plt.title('文程2.wav 梅尔频率语谱图', fontproperties="SimSun")
fig.colorbar(img, ax=ax, format="%+2.f dB")
plt.ylim(0, 9000) # 8192Hz以上没有能量显示,因此y轴上限减为9000
plt.show()

4 语谱图颜色的设置(超级好看)

语谱图的图像颜色是可以改的,除了默认的颜色外,还可改成各种各样的颜色,我们接着3.1.2的线性频谱语谱图的代码绘制几幅不同颜色的图看看效果,要设置的参数是cmap,来自matplotlib。画出来的图真心好看。

import librosa.display
import matplotlib.pyplot as plt
import numpy as np
y, sr = librosa.load('文程2.wav', offset=0.83, duration=2, sr=None)
data = librosa.amplitude_to_db(np.abs(librosa.stft(y)), ref=np.max)
fig = plt.figure(figsize=(12, 9))ax = fig.add_subplot(221)
spec1 = librosa.display.specshow(data, sr=sr, x_axis='time', y_axis='linear',ax=ax, cmap='Greys')
ax.set_title('文程2.wav 灰白色', fontproperties="SimSun")
ax.set_ylim(0, 8500)ax = fig.add_subplot(222)
spec1 = librosa.display.specshow(data, sr=sr, x_axis='time', y_axis='linear',ax=ax, cmap='Blues')
ax.set_title('文程2.wav 蓝色', fontproperties="SimSun")
ax.set_ylim(0, 8500)ax = fig.add_subplot(223)
spec1 = librosa.display.specshow(data, sr=sr, x_axis='time', y_axis='linear',ax=ax, cmap='Greens')
ax.set_title('文程2.wav 绿色', fontproperties="SimSun")
ax.set_ylim(0, 8500)ax = fig.add_subplot(224)
spec1 = librosa.display.specshow(data, sr=sr, x_axis='time', y_axis='linear',ax=ax, cmap='Oranges')
ax.set_title('文程2.wav 橙色', fontproperties="SimSun")
ax.set_ylim(0, 8500)plt.show()

【Python语音分析】从绘制好看的波形图和语谱图开始相关推荐

  1. CodeEditPro2.1基础使用——打开文件,查看波形图及语谱图

    1.将其转换成单文件查看方式 单文件查看方式如下图所示 2.2.1打开PCM文件 step1 或者直接将PCM文件拖入这个软件窗口即可,将会出现以下窗口 step2:配置采样率,量化精度,声道 出现以 ...

  2. python画图标题为蓝色_python绘制语谱图怎么设置成黄蓝色

    展开全部 语音的时域分析和频32313133353236313431303231363533e59b9ee7ad9431333431333937域分析是语音分析的两种重要方法,但是都存在着局限性.时域 ...

  3. python求语音信号短时能量、短时过零率、语谱图

    python语音信号处理(二) 一.短时能量 短时能量主要用于区分浊音段和清音段,因为浊音时E(i)值比清音时大得多:区分声母与韵母的分界和无话段与有话段分界. 计算第i帧语音信号yi(n)的短时能量 ...

  4. 【语音信号处理】1语音信号可视化——时域、频域、语谱图、MFCC详细思路与计算、差分

    基本语音信号处理操作入门 1. 数据获取 2. 语音信号可视化 2.1 时域特征 2.2 频域特征 2.3 语谱图 3. 倒谱分析 4. 梅尔系数 4.1 梅尔频率倒谱系数 4.2 Mel滤波器原理 ...

  5. python实现时频谱,语谱图,mel语谱倒谱等

    python实现时频谱,语谱图,mel语谱倒谱等 可以和理论相结合学习:https://blog.csdn.net/qq_36002089/article/details/108378796 语音信号 ...

  6. Python利用单行热力图绘制好看的风向风速

    Python利用单行热力图绘制好看的风向风速 导入所需支持库 先画单行热力图表示风速 设置画布 设置风速数据 设置色板 利用seaborn绘制热力图 画风向箭头 换箭头函数 导入风向数据 导入计算坐标 ...

  7. python绘制语谱图(手动实现)

    1 原理分析 在获取语谱图数据之前,我们需要先了解短时傅里叶变换.语音信号是典型的非平稳信号,但是由于其非平稳性由发声器官的物理运动过程而产生,这种过程是相对变换缓慢的,在10~30ms以内可以认为是 ...

  8. MATLAB实现实时录音,语音采集与读写用matlab实现录音以及语谱图的绘制.pdf

    <语音信号处理>仿真作业 院 系 电气与电子工程学院 专业班级 姓 名 学 号 指导教师 2020 年 3 月 作业题目:语音采集与读写 一.目的 (1)了解matlab 采集语音信号的原 ...

  9. python绘制语谱图(详细注释)

    用python 绘制语谱图 1.步骤: 1)导入相关模块 2)读入音频并获取音频参数  3)将音频转化为可处理形式(注意读入的是字符串格式,需要转换成int或short型) 代码如下: import ...

  10. 使用Matlab绘制语音信号的语谱图

    本文绘制语音信号的语谱图主要使用了spectrogram函数,spectrogram是一个MATLAB函数,使用短时傅里叶变换得到信号的频谱图.当使用时无输出参数,会自动绘制频谱图:有输出参数,则会返 ...

最新文章

  1. [笔记]在ubuntu下使用conky
  2. Spring MVC实现上传文件报错解决方案
  3. 什么是JSON?我为什么要使用它?
  4. 日常生活小技巧 -- UltraEdit复制16进制数据
  5. 【收藏】HBase集成Phoenix实现类SQL操作hbase
  6. 生成器表达式 内置函数
  7. 腾讯视频手机app下载安装_腾讯视频怎么签到
  8. Cortex-M0(5)---Cortex-M0【中断向量表】【中断控制和系统控制
  9. Linux虚拟化:KVM影子页表
  10. word敲空格文字不后退_聊聊Word中的几种缩进(中)
  11. 微机原理及应用实验——汇编环境MASM的使用
  12. c语言程序该不该背,C语言程序设计学习技巧
  13. linux给用户设置环境变量,linux添加环境变量4种方法
  14. java zip解压抛出异常,java – ZipFile抛出错误,但ZipInputStream能够解压缩归档
  15. k8s gc原理详解
  16. BOM中的location对象
  17. mac 微信多开 应用程序多开
  18. 武汉理工大学计算机考研复试资料,武汉理工大学计算机考研复试
  19. U盘检测-linux+QT
  20. GrabCut图像分割

热门文章

  1. 【第十五篇】商城系统-商品详情页功能实现
  2. 阿里巴巴入选的JCP最高执行委员会,何方神圣?
  3. 随机森林(Random Forest)
  4. Ruby-学习之路1.1
  5. JAVA对接公众号(三、创建自定义菜单)
  6. 囊括3大MCU+DSP开发工程
  7. C#:文本文件读写操作 FileHelper
  8. iPhone苹果手机尺寸大小
  9. word英文大写问题解决方案
  10. 企业等保分几级?企业三级等保堡垒机必备方案