librosa 音频处理库
1. 名词解释
名称 | 含义 |
---|---|
sr(sample_rate) | 采样率,表示一秒采样多少个样本点 |
hop_length | 步幅;帧移对应卷积中的stride;连续帧分割长度 |
overlapping | 连续两帧的重叠部分 |
n_fft | 窗口大小;n_fft = hop_length+overlapping |
spectrum | 光谱,频谱 |
spectrogram: | 光谱图;声谱图 |
Chromagram | 色谱图 |
amplitude | 振幅 |
logarithmic amplitude-frequency | 对数振幅频谱图 |
mono | 单声道 |
pitch | 音高 |
timbral | 音色 |
2. 音频处理的流程
通过使用窗口函数将长短不一的音频分割成大小相同的音频片段。(默认采样率22050Hz)。
音频分帧一般有两种不同的方式:采样点和时间
方式一:(帧描述方式)使用2048((20481000ms)/22050=93ms)个采样点,前后两个窗的重叠5123采样点。
方式二:(时间描述方式)使用 93ms 的帧长、23ms 的帧移(hop_length),以及周期性的 Hann 窗口对语音进行分帧。
常用的操作
#这是一个窗口大小为window_size,连续窗口的重叠部分为window_size/2
def windows(audio, window_size):start = 0while start < len(audio):#len(audio)是一个音频文件的总样本点数。yield start, start + window_size #取出长度为window_size的样本点下标索引start += (window_size / 2) #计算下一个分割片段的起始位置
计算每一帧mel声谱图。
signal = audio[0,2048] #(audio[0,2048] 表示图中的分割的1片段
#下面一行计算分割片段audio[0,2048]的64阶mel谱
#sr表示采样率,表示一秒采样多少个样本点。
#n_fft表示短时傅里叶变化用到的连续的样本点个数
#hop_length:连续两个傅里叶变化的重叠样本点个数
melspec = librosa.feature.melspectrogram(signal, sr=22050,n_fft=2048, hop_length=512, n_mels = 64)
logspec = librosa.amplitude_to_db(melspec)#计算log mel
#本代码计算将一个原始音频文件分割成等大小的片段,
#然后计算每一个片段的og mel_sepctrogram.
for (start,end) in windows(audio,window_size):#(1)此处是为了是将大小不一样的音频文件用大小window_size,#stride=window_size/2的窗口,分割为等大小的时间片段。#(2)计算每一个分割片段的log mel_sepctrogram.if(end<= len(audio)): #最后不够一个窗口的样本点舍去signal = audio[start:end] #分割的音频帧(图中的1,2,3,4,5,6)melspec = librosa.feature.melspectrogram(signal, n_mels = 64) #计算每个分割片段的mel谱logspec = librosa.amplitude_to_db(melspec)#计算log mel 谱
参考:文献
github
doc
librosa paper
博客
librosa 音频处理库 - 简书
librosa 音频处理库相关推荐
- 音频信号处理库librosa
参考: 1. librosa官网 2. librosa语音信号处理 3. 语音信号处理库 --Librosa 4. librosa音频处理教程 5. Python音频信号处理库函数librosa介绍 ...
- 开源音频处理库AudioLDM
环境 windows 10 64bit AudioLDM 0.1.1 anaconda with python 3.8 nvidia gtx 1070Ti 简介 AudioLDM 是一个开源的音频处理 ...
- librosa 音频处理
目录 序言 一.libsora安装 pypi conda source 二.librosa常用功能 核心音频处理函数 音频处理 频谱表示 幅度转换 时频转换 特征提取 绘图显示 三.常用功能代码实现 ...
- python处理音频的库_Python中音频处理库pydub的使用教程
前言 pydub是Python中用户处理音频文件的一个库.本文主要介绍了关于Python音频处理库pydub使用的相关内容,分享出来供大家参考学习,下面来看看详细的介绍: 安装: 1.安装pip工具: ...
- C++常用的音频工具库
由于C++这种语言改装于C语言,它在C语言的基础上加了继承.封装.多态,使编程风格更接近面向对象(OO:object-oriented),在游戏开发.服务器编程.音视频处理.网络通信等领域应用 ...
- 数据分析实战:python热门音乐分析 附代码+数据 +论文(PCA 主成分分析,sklearn 机器学习,pytorch 神经网络,k-means 聚类,Librosa 音频处理,midi 音序)
项目概述: 本选取了抖音当下最热门的 400 首音乐,通过一系列方法提取每首歌的波形特征,再经过降维以及机器学习等手段,进行无监督学习对音乐数据进行聚类的同时训练并使用监督学习分类器进行音乐流派分类, ...
- SoundTouch音频处理库的简单使用(音调、音速、声道等等)
音频的处理,通常会涉及到音调.音速或者声道的切换,例如睡觉时,开车时,跑步时,party,吃饭时等等根据不同场景我们也许会要求音乐能有不同的意境变化,强大的soundtouch音频开源库基于C++的底 ...
- python音频处理库_Python中音频处理库pydub的使用教程
前言 pydub是Python中用户处理音频文件的一个库.本文主要介绍了关于Python音频处理库pydub使用的相关内容,分享出来供大家参考学习,下面来看看详细的介绍: 安装: 1.安装pip工具: ...
- SoundTouch音频处理库源码分析及算法提取(1)
SoundTouch音频处理库的使用异常简单,经过简单的编译之后,设置编译环境,以vc为例 ,直接在include包含SoundTouch目录下的include路径,接着在lib添加SoundTouc ...
- python音频处理库librosa基本操作
基本操作 使用librosa读取音频.可视化音频.绘制音频的声谱图 代码如下 import librosa import matplotlib.pyplot as plt import librosa ...
最新文章
- SQL Server : 如何让每次备份的目标文件文件名不一样
- python学习路线-Python学习路线图(2020年最新版)
- 动态加载javascript和css
- Redis的Java客户端Jedis的八种调用方式(事务、管道、分布式…)介绍--转载
- Ubuntu 设置程序开机启动(以指定用户身份)
- 开发转运维有什么好点的理由_芜湖好点的团购社区费用
- 简单可行性报告模板_项目可行性报告模板分享!第三章主要内容
- TCP/IP学习笔记(2)-数据链路层
- 万智牌天使恩典oracle,#诡局#诡局机制
- Leetcode 5182.删除一次得到子数组最大和
- 【每日算法Day 61】LeetCode 672. 灯泡开关 Ⅱ
- python实现验证码图像数据去噪处理的心路历程
- 用python做一个抖音上很火的罗盘时钟
- GetWindowRect,GetClientRect,ScreenToClient MoveWindow SetWindowPos 用法说明
- Push rejected: Push to origin/test was rejected
- 2022最新可用网页百度分享按钮安装教程【网站添加百度分享按钮代码】
- Camera Hal OEM模块 ---- cmr_grab.c
- Axure RP Extension for Chrome 安装插件
- 领导逼迫员工离职的10大套路
- endnote中科大版是什么意思_ios14.2rc是什么意思 ios14.2rc版是原来的“GM”版吗
热门文章
- java isnull方法_isnull函数详解
- 洛谷 P1330 封锁阳光大学(BFS染色)
- 谷歌翻译失效,解决网页谷歌翻译的问题-只能解决页面翻译
- CentOS 8 下载及安装
- DBF文件格式及读写实践
- oracle wire protocol,WMB 8.0.0.2 在linux下面怎么配置连接ORACLE数据库
- 【开源教程8】疯壳·开源编队无人机-GPIO(LED 航情灯、信号灯控制)
- java实现影视创作论坛
- 如何用公众号关联认证小程序
- excel生成随机数 / random number in excel