概述

语音识别是当前人工智能的比较热门的方向,技术也比较成熟,各大公司也相继推出了各自的语音助手机器人,如百度的小度机器人、阿里的天猫精灵等。语音识别算法当前主要是由rnn、lstm、dnn-hmm等机器学习和深度学习技术做支撑。但训练这些模型的第一步就是将音频文件数据化,提取当中的语音特征。

mp3文件转化为wav文件

录制音频文件的软件大多数都是以mp3格式输出的,但mp3格式文件对语音的压缩比例较重,因此首先利用ffmpeg将转化为wav原始文件有利于语音特征的提取。其转化代码如下:

from pydub import audiosegment

import pydub

def mp32wav(mp3_path,wav_path):

"""

这是mp3文件转化成wav文件的函数

:param mp3_path: mp3文件的地址

:param wav_path: wav文件的地址

"""

pydub.audiosegment.converter = "d:\\ffmpeg\\bin\\ffmpeg.exe"

mp3_file = audiosegment.from_mp3(file=mp3_path)

mp3_file.export(wav_path,format="wav")

读取wav语音文件,对语音进行采样

利用wave库对语音文件进行采样。

代码如下:

import wave

import json

def read_wav(wav_path):

"""

这是读取wav文件的函数,音频数据是单通道的。返回json

:param wav_path: wav文件的地址

"""

wav_file = wave.open(wav_path,'r')

numchannel = wav_file.getnchannels() # 声道数

samplewidth = wav_file.getsampwidth() # 量化位数

framerate = wav_file.getframerate() # 采样频率

numframes = wav_file.getnframes() # 采样点数

print("channel", numchannel)

print("sample_width", samplewidth)

print("framerate", framerate)

print("numframes", numframes)

wav_data = wav_file.readframes(numframes)

wav_data = np.fromstring(wav_data,dtype=np.int16)

wav_data = wav_data*1.0/(max(abs(wav_data))) #对数据进行归一化

# 生成音频数据,ndarray不能进行json化,必须转化为list,生成json

dict = {"channel":numchannel,

"samplewidth":samplewidth,

"framerate":framerate,

"numframes":numframes,

"wavedata":list(wav_data)}

return json.dumps(dict)

绘制声波折线图与频谱图

代码如下:

from matplotlib import pyplot as plt

def drawspectrum(wav_data,framerate):

"""

这是画音频的频谱函数

:param wav_data: 音频数据

:param framerate: 采样频率

"""

time = np.linspace(0,len(wav_data)/framerate*1.0,num=len(wav_data))

plt.figure(1)

plt.plot(time,wav_data)

plt.grid(true)

plt.show()

plt.figure(2)

pxx, freqs, bins, im = plt.specgram(wav_data,nfft=1024,fs = 16000,noverlap=900)

plt.show()

print(pxx)

print(freqs)

print(bins)

print(im)

首先利用百度ai开发平台的语音合api生成的mp3文件进行上述过程的结果。

声波折线图

频谱图

全部代码

#!/usr/bin/python3

# -*- coding: utf-8 -*-

# @time : 2018/7/5 13:11

# @author : daipuwei

# @filename: voiceextract.py

# @software: pycharm

# @e-mail :771830171@qq.com

# @blog :https://blog.csdn.net/qq_30091945

import numpy as np

from pydub import audiosegment

import pydub

import os

import wave

import json

from matplotlib import pyplot as plt

def mp32wav(mp3_path,wav_path):

"""

这是mp3文件转化成wav文件的函数

:param mp3_path: mp3文件的地址

:param wav_path: wav文件的地址

"""

pydub.audiosegment.converter = "d:\\ffmpeg\\bin\\ffmpeg.exe" #说明ffmpeg的地址

mp3_file = audiosegment.from_mp3(file=mp3_path)

mp3_file.export(wav_path,format="wav")

def read_wav(wav_path):

"""

这是读取wav文件的函数,音频数据是单通道的。返回json

:param wav_path: wav文件的地址

"""

wav_file = wave.open(wav_path,'r')

numchannel = wav_file.getnchannels() # 声道数

samplewidth = wav_file.getsampwidth() # 量化位数

framerate = wav_file.getframerate() # 采样频率

numframes = wav_file.getnframes() # 采样点数

print("channel", numchannel)

print("sample_width", samplewidth)

print("framerate", framerate)

print("numframes", numframes)

wav_data = wav_file.readframes(numframes)

wav_data = np.fromstring(wav_data,dtype=np.int16)

wav_data = wav_data*1.0/(max(abs(wav_data))) #对数据进行归一化

# 生成音频数据,ndarray不能进行json化,必须转化为list,生成json

dict = {"channel":numchannel,

"samplewidth":samplewidth,

"framerate":framerate,

"numframes":numframes,

"wavedata":list(wav_data)}

return json.dumps(dict)

def drawspectrum(wav_data,framerate):

"""

这是画音频的频谱函数

:param wav_data: 音频数据

:param framerate: 采样频率

"""

time = np.linspace(0,len(wav_data)/framerate*1.0,num=len(wav_data))

plt.figure(1)

plt.plot(time,wav_data)

plt.grid(true)

plt.show()

plt.figure(2)

pxx, freqs, bins, im = plt.specgram(wav_data,nfft=1024,fs = 16000,noverlap=900)

plt.show()

print(pxx)

print(freqs)

print(bins)

print(im)

def run_main():

"""

这是主函数

"""

# mp3文件和wav文件的地址

path1 = './mp3_file'

path2 = "./wav_file"

paths = os.listdir(path1)

mp3_paths = []

# 获取mp3文件的相对地址

for mp3_path in paths:

mp3_paths.append(path1+"/"+mp3_path)

print(mp3_paths)

# 得到mp3文件对应的wav文件的相对地址

wav_paths = []

for mp3_path in mp3_paths:

wav_path = path2+"/"+mp3_path[1:].split('.')[0].split('/')[-1]+'.wav'

wav_paths.append(wav_path)

print(wav_paths)

# 将mp3文件转化成wav文件

for(mp3_path,wav_path) in zip(mp3_paths,wav_paths):

mp32wav(mp3_path,wav_path)

for wav_path in wav_paths:

read_wav(wav_path)

# 开始对音频文件进行数据化

for wav_path in wav_paths:

wav_json = read_wav(wav_path)

print(wav_json)

wav = json.loads(wav_json)

wav_data = np.array(wav['wavedata'])

framerate = int(wav['framerate'])

drawspectrum(wav_data,framerate)

if __name__ == '__main__':

run_main()

以上这篇使用python实现语音文件的特征提取方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持萬仟网。

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!

python 语音特征提取_使用python实现语音文件的特征提取方法相关推荐

  1. python语音特征提取_使用Python从视频中提取语音

    python语音特征提取 In this post, I will show you how to extract speeches from a video recording file. Afte ...

  2. python音频特征提取_使用Python对音频进行特征提取

    写在前面 因为喜欢玩儿音乐游戏,所以打算研究一下如何用深度学习的模型生成音游的谱面.这篇文章主要目的是介绍或者总结一些音频的知识和代码. 恩.如果没玩儿过的话,音乐游戏大概是下面这个样子. 下面进入正 ...

  3. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

  4. python 概率分布模型_使用python的概率模型进行公司估值

    python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...

  5. python实现语音播放_用Python实现语音播报

    以下内容为带着儿子一起学Python的实现记录,为自己保存下来,也希望对其他学习者有用! 1. 确保已经安装python,本例使用python,操作系统为:Windows 10 专业版: 2. 设置环 ...

  6. python 创意项目_针对python开发人员的10个很棒的python项目创意

    python 创意项目 The joy of coding Python should be in seeing short, concise, readable classes that expre ...

  7. espeak 中文语音包_从零开始搭建一个语音对话机器人

    点击上方[全栈开发者社区]→右上角[...]→[设为星标⭐] ♪ 点击上方绿标 收听从零开始搭建一个语音对话机器人 从零开始搭建一个语音对话机器人 目录 01-初心缘由 01-准备工作 02-语音机器 ...

  8. 怎样用python自动化办公_会python基础,如何学习自动化办公?

    Python 自动化,爽爽的解决 本课程完全让你摒弃重复率高,机械操作的劳动,解放双手,自动化办公,比如Excel表的各种计算,合并,比对,尤其是跨表,大量数据的,连Excel打开都费劲的,Pytho ...

  9. python集群_使用Python集群文档

    python集群 Natural Language Processing has made huge advancements in the last years. Currently, variou ...

最新文章

  1. Linux下的简单socket编程示例
  2. ML之DT:基于DT决策树算法(对比是否经特征筛选FS处理)对Titanic(泰坦尼克号)数据集进行二分类预测
  3. 20181204-1 每周例行报告
  4. 修改oracle用户权限,详解如何实现Oracle修改用户权限和角色
  5. IS2009制作Oracle 静默安装包(二) 感谢空白先生特许授权
  6. 2021届定远三中高考成绩查询,定远各中学高考喜报!
  7. linux的find命令满屏权限不够提示
  8. 阿里云IoT将举办第三届极客创新挑战赛,吸引全球极客参赛
  9. 应用 | Redis实现 主从,单例,集群,哨兵,配置应用
  10. linux之使用grep搜索文本
  11. Python——用assert语句来确保参数符合当前程序的要求
  12. css3制作八棱锥_CSS3制作各种形状图像
  13. 中南大学 10科学计算和 MATLAB 语言 矩阵变换
  14. Python之面向对象2
  15. jquey控制元素滚动条,外层div滚动,内层顶部div固定不动
  16. Hibernate学习笔记:数据库连接的配置
  17. 鲜花销售管理系统jsp全部代码_[内附完整源码和文档] 基于JSP网上花店销售系统的设计与实现...
  18. 爱普生L4168打印出来是白纸,复印OK,打印机测试也OK 解决方案
  19. PR模板 有趣的波普艺术网络自媒体宣传PR视频模板
  20. 2018之后的Unity3d制作AR教程

热门文章

  1. 西门子南京计算机,西门子(南京)实习面试经历
  2. Sublime text编辑器的使用及快捷键的汇总
  3. python画一只雪融融
  4. 【线性代数】矩阵及其特性
  5. 程序员工作猝死给公司造成损失可以找其父母追讨吗?
  6. 兴业银行银企直连系统开发接口
  7. 软考初级程序员上午单选题(10)
  8. 前端开发,富文本编辑器推荐quilljs,tiptap
  9. 不会原创视频,如何运营抖音账号?
  10. 视在功率、功率因数、额定功率的初步了解