librosa 音频处理库

1. 名词解释

名称	含义
sr(sample_rate)	采样率,表示一秒采样多少个样本点
hop_length	步幅;帧移对应卷积中的stride;连续帧分割长度
overlapping	连续两帧的重叠部分
n_fft	窗口大小；n_fft = hop_length+overlapping
spectrum	光谱，频谱
spectrogram:	光谱图；声谱图
Chromagram	色谱图
amplitude	振幅
logarithmic amplitude-frequency	对数振幅频谱图
mono	单声道
pitch	音高
timbral	音色

2. 音频处理的流程

通过使用窗口函数将长短不一的音频分割成大小相同的音频片段。(默认采样率22050Hz)。

音频分帧一般有两种不同的方式:采样点和时间

方式一：(帧描述方式)使用2048((20481000ms)/22050=93ms)个采样点，前后两个窗的重叠5123采样点。
方式二：(时间描述方式)使用 93ms 的帧长、23ms 的帧移(hop_length)，以及周期性的 Hann 窗口对语音进行分帧。

常用的操作

#这是一个窗口大小为window_size，连续窗口的重叠部分为window_size/2
def windows(audio, window_size):start = 0while start < len(audio):#len(audio)是一个音频文件的总样本点数。yield start, start + window_size #取出长度为window_size的样本点下标索引start += (window_size / 2) #计算下一个分割片段的起始位置

计算每一帧mel声谱图。

signal = audio[0,2048] #(audio[0,2048] 表示图中的分割的1片段
#下面一行计算分割片段audio[0,2048]的64阶mel谱
#sr表示采样率,表示一秒采样多少个样本点。
#n_fft表示短时傅里叶变化用到的连续的样本点个数
#hop_length:连续两个傅里叶变化的重叠样本点个数
melspec = librosa.feature.melspectrogram(signal, sr=22050,n_fft=2048, hop_length=512, n_mels = 64)
logspec = librosa.amplitude_to_db(melspec)#计算log mel

#本代码计算将一个原始音频文件分割成等大小的片段，
#然后计算每一个片段的og mel_sepctrogram.
for (start,end) in windows(audio,window_size):#(1)此处是为了是将大小不一样的音频文件用大小window_size，#stride=window_size/2的窗口，分割为等大小的时间片段。#(2)计算每一个分割片段的log mel_sepctrogram.if(end<= len(audio)): #最后不够一个窗口的样本点舍去signal = audio[start:end] #分割的音频帧(图中的1，2，3，4，5，6)melspec = librosa.feature.melspectrogram(signal, n_mels = 64) #计算每个分割片段的mel谱logspec = librosa.amplitude_to_db(melspec)#计算log mel 谱

参考：文献

github
doc
librosa paper
博客

librosa 音频处理库 - 简书

librosa 音频处理库相关推荐

音频信号处理库librosa
参考: 1. librosa官网 2. librosa语音信号处理 3. 语音信号处理库 --Librosa 4. librosa音频处理教程 5. Python音频信号处理库函数librosa介绍 ...
开源音频处理库AudioLDM
环境 windows 10 64bit AudioLDM 0.1.1 anaconda with python 3.8 nvidia gtx 1070Ti 简介 AudioLDM 是一个开源的音频处理 ...
librosa 音频处理
目录序言一.libsora安装 pypi conda source 二.librosa常用功能核心音频处理函数音频处理频谱表示幅度转换时频转换特征提取绘图显示三.常用功能代码实现 ...
python处理音频的库_Python中音频处理库pydub的使用教程
前言 pydub是Python中用户处理音频文件的一个库.本文主要介绍了关于Python音频处理库pydub使用的相关内容,分享出来供大家参考学习,下面来看看详细的介绍: 安装: 1.安装pip工具: ...
C++常用的音频工具库
由于C++这种语言改装于C语言,它在C语言的基础上加了继承.封装.多态,使编程风格更接近面向对象(OO:object-oriented),在游戏开发.服务器编程.音视频处理.网络通信等领域应用 ...
数据分析实战：python热门音乐分析附代码+数据 +论文（PCA 主成分分析，sklearn 机器学习，pytorch 神经网络，k-means 聚类，Librosa 音频处理，midi 音序)
项目概述: 本选取了抖音当下最热门的 400 首音乐,通过一系列方法提取每首歌的波形特征,再经过降维以及机器学习等手段,进行无监督学习对音乐数据进行聚类的同时训练并使用监督学习分类器进行音乐流派分类, ...
SoundTouch音频处理库的简单使用(音调、音速、声道等等)
音频的处理,通常会涉及到音调.音速或者声道的切换,例如睡觉时,开车时,跑步时,party,吃饭时等等根据不同场景我们也许会要求音乐能有不同的意境变化,强大的soundtouch音频开源库基于C++的底 ...
python音频处理库_Python中音频处理库pydub的使用教程
前言 pydub是Python中用户处理音频文件的一个库.本文主要介绍了关于Python音频处理库pydub使用的相关内容,分享出来供大家参考学习,下面来看看详细的介绍: 安装: 1.安装pip工具: ...
SoundTouch音频处理库源码分析及算法提取（1)
SoundTouch音频处理库的使用异常简单,经过简单的编译之后,设置编译环境,以vc为例 ,直接在include包含SoundTouch目录下的include路径,接着在lib添加SoundTouc ...
python音频处理库librosa基本操作
基本操作使用librosa读取音频.可视化音频.绘制音频的声谱图代码如下 import librosa import matplotlib.pyplot as plt import librosa ...

librosa 音频处理库

1. 名词解释

2. 音频处理的流程

librosa 音频处理库相关推荐

最新文章

热门文章