对于任何的音频文件,实际上都是用这种存储方式,比如,下面是对应英文单词“skip”的一段信号(只不过由于点太多,笔者把点用直线连接了起来):

衡量数字信号的能量(强度),只要简单的求振幅平方和即可:

E = sum(x[n]*x[n])

频率

我们知道,声音可以看作是不同频率的正弦信号叠加。那么给定一个声音信号(如上图),怎么能够知道这个信号在不同频率区段上的强度呢?答案是使用离散傅里叶变换。对信号x[n], n=0, ..., N-1,通常记它的离散傅里叶变换为X[n],它是一个复值函数。

比如,对上述英文单词“skip”对应的信号做离散傅里叶变换,得到它在频域中的图像是:

可以看到能量主要集中在中低音部分(约16000Hz以下)。

在频域上,也可以计算信号的强度,因为根据Plancherel定理,有:

E = sum(x[n]*x[n]) = 1/N*sum(|X[n]|*|X[n]|)

分帧

对于一般的语音信号,长度都至少在1秒以上,有时候我们需要把其中比如25毫秒的一小部分单独拿出来研究。将一个信号依次取小段的操作,就称作分帧。技术上,音频分帧是通过给信号加一系列的窗函数实现的。

我们把一种特殊的函数w[n],称作窗函数,如果对所有的n,有0<=w[n]<=1,且只有有限个n使得w[n]>0。比如去噪要用到的汉宁窗,三角窗。

汉宁窗

三角窗

我们将平移的窗函数与原始信号相乘,便得到信号的“一帧”:

w[n+d]*x[n]

比如用长22.6毫秒的汉宁窗加到“skip”信号大约中间部位上,得到一帧的信号:

可见除一有限区间之外,加窗后的信号其他部分都是0。

对一帧信号可以施加离散傅里叶变换(也叫短时离散傅里叶变换),来获取信号在这一帧内(通常是很短时间内),有关频率-能量的分布信息。

如果我们把信号按照上述方法分成一帧一帧,又将每一帧用离散傅里叶变换转换到频域中去,最后将各帧在频域的图像拼接起来,用横坐标代表时间,纵坐标代表频率,颜色代表能量强度(比如红色代表高能,蓝色代表低能),那么我们就构造出所谓频谱图。比如上述“skip”发音对应的信号的频谱图是:

(使用5.8毫秒的汉宁窗)

从若干帧信号中,我们又可以恢复出原始信号。只要我们适当选取窗口大小,以及窗口之间的平移距离L,得到 ..., w[n+2L], w[n+L], w[n], w[n-L], w[n-2L], ...,使得对k求和有:

sum(w[n+kL]) = 1

从而简单的叠加各帧信号便可以恢复出原始信号:

sum(x[n]*w[n+kL]) = x[n]

最后,注意窗函数也可以在频域作用到信号上,从而可以起到取出信号的某一频段的作用。

下面简单介绍一下3种音效。

1. 扩音

要扩大信号的强度,只要简单的增大信号的“振幅”。比如给定一个信号x[n],用a>1去乘,便得到声音更大的增强信号:

a*x[n]

同理,用系数0

2. 去噪(降噪)

对于白噪音,我们可以简单的用“移动平均滤波器”来去除,虽然这也会一定程度降低声音的强度,但效果的确不错。但是,对于成分较为复杂,特别是频段能量分布不均匀的噪声,则需要使用下面的噪声门技术,它可以看作是一种“多带通滤波器”。

这个特效的基本思路是:对一段噪声样本建模,然后降低待降噪信号中噪声的分贝。

更加细节的说,是在信号的若干频段f[1], ..., f[M]上,分别设置噪声门g[1], ..., g[M],每个门都有一个对应的阈值,分别是t[1], ..., t[M]。这些阈值时根据噪声样本确定的。比如当通过门g[m]的信号强度超过阈值t[m]时,门就会关闭,反之,则会重新打开。最后通过的信号便会只保留下来比噪声强度更大的声音,通常也就是我们想要的声音。

为了避免噪声门的开合造成信号的剧烈变动,笔者使用了sigmoid函数做平滑处理,即噪声门在开-关2个状态之间是连续变化的,信号通过的比率也是在1.0-0.0之间均匀变化的。

实现中,我们用汉宁窗对信号进行分帧。然后对每一帧,又用三角窗将信号分成若干频段。对噪声样本做这样的处理后,可以求出信号每一频段对应的阈值。然后,又对原始信号做这样的处理(分帧+分频),根据每一帧每一频段的信号强度和对应阈值的差(diff = energy-threshold),来计算对应噪声门的开合程度,即通过信号的强度。最后,简单的将各频段,各帧的通过信号叠加起来,便得到了降噪信号。

比如原先的“skip”语音信号频谱图如下:

可以看到有较多杂音(在高频,低频段,蓝色部分)。采集0.25秒之前的声音作为噪声样本,对信号作降噪处理,得到降噪后信号的频谱图如下:

可以明显的看到大部分噪音都被清除了,而语音部分仍完好无损,强度也没有减弱,这是“移动平均滤波器”所做不到的。

3. 静音剪切

在对音频进行上述降噪处理后,我们还可以进一步把多余的静音去除掉。

剪切的原理十分简单。首先用汉宁窗对信号做分帧。如果该帧信号强度过小,则舍去该帧。最后将保留的帧叠加起来,便得到了剪切掉静音部分的信号。

比如,对降噪处理后的“skip”语音信号做静音剪切,得到的新信号的频谱图为:

参考

维基百科词条-噪声门

开源音频处理软件 Audacity (频谱图都是直接用它画的,扩音,降噪,静音剪切这些效果它都有源代码)

维基百科词条-噪声门

开源音频处理软件 Audacity (频谱图都是直接用它画的,扩音,降噪,静音剪切这些效果它都有源代码)

我的GitHub

●●●

回复以下关键词查看相应内容

美赛/数学建模 | 校历| 成绩单/推荐信函

医保/南校门诊 | 毕业/典礼/留言

大学服务中心 |辅导员 | 校车 | 办事(流程)

回复教师姓名可获取相应信息

●●

作者:郑乐文

python音频降噪处理_Python | 简单的扩音,音频去噪,静音剪切相关推荐

  1. python音频 降噪_Python | 简单的扩音,音频去噪,静音剪切

    原标题:Python | 简单的扩音,音频去噪,静音剪切 之前一段时间一直在搞数字语音识别,在训练算法上耗费了很多时间,但结果不尽人意.后来才发现自己一直忽视了音频预处理的一步,于是转而囫囵吞枣般学习 ...

  2. python实现录音并去燥_Python | 简单的扩音,音频去噪,静音剪切

    原标题:Python | 简单的扩音,音频去噪,静音剪切 之前一段时间一直在搞数字语音识别,在训练算法上耗费了很多时间,但结果不尽人意.后来才发现自己一直忽视了音频预处理的一步,于是转而囫囵吞枣般学习 ...

  3. python录音文件降噪_Python | 简单的扩音,音频去噪,静音剪切

    原标题:Python | 简单的扩音,音频去噪,静音剪切 之前一段时间一直在搞数字语音识别,在训练算法上耗费了很多时间,但结果不尽人意.后来才发现自己一直忽视了音频预处理的一步,于是转而囫囵吞枣般学习 ...

  4. python的实时音频传送_python – 使用Alexa传输音频的最简单示例

    以下代码对我有用: def lambda_handler(event, context): return { "response": { "directives" ...

  5. python音频 降噪_python - 使用pyaudio对音频播放进行降噪 - 堆栈内存溢出

    我正在用Python为Raspberry Pi写一个声码器,这使声音无法识别. 我录制音频并使用回调功能实时播放-它可以工作. 现在,我需要对输入进行去噪,以Numpy数组表示(像大多数教程和SO上的 ...

  6. python实时音频处理_Python中的实时音频处理

    我正在写一个程序来检查电脑记录的音频信号中是否有小故障.在检测到音频后,我想检查数据的前5秒是否有问题(以44.1kHz的采样率对应220500个样本),继续到下一个5秒的数据并检查其中是否有问题,然 ...

  7. python 数组升序_python简单数据清洗和分析

    利用python学习了简单一维数组和二维数组,明白了集合.数组.字典大概的关联,并学会从中点用不同的数组类型进行更好的分析. 读取excel文件,开始进行最简单的数据清洗. 将购药时间重新命名为销售时 ...

  8. python星期计算_Python简单计算给定某一年的某一天是星期几示例

    本文实例讲述了Python简单计算给定某一年的某一天是星期几.分享给大家供大家参考,具体如下: # -*- coding:utf-8 -*- #计算某特定天使星期几 #蔡勒公式:w=y+[y/4]+[ ...

  9. python加密程序_Python 简单的可逆加密程序

    简单加密 1.[代码][Python]代码 #coding=utf-8 ''''' Description: 可逆的加密与解密 Environment: python2.5.x Author:ideh ...

最新文章

  1. ATS插件中配置文件自动更新思路
  2. (摘抄)HTTP 协议详解
  3. php curl安装检查,如何判断php的curl是否已安装
  4. 是栈还是队列c语言实验报告怎么写,队列和栈(C语言)
  5. java中 flush()方法
  6. CSS相关知识点:6种清除浮动和BFC
  7. 蚂蚁课堂-第四期-基于springcloud构建微服务电商项目_阿里巴巴29个屌炸天的开源项目,你用过几个?附编程资料!!!...
  8. 云计算学习教程,Python自动化运维开发实战
  9. 专访图灵奖得主David Patterson:8年前就得知被提名,AI跃迁看好边缘计算
  10. ftp服务器多用文件夹权限,自己动手搭建隔离用户的FTP服务器之权限分配(二)...
  11. 威廉第三的MAC系列教程(一) ——使用ACPI Patcher制作DSDT补丁
  12. Win7安装IIS出错,总是提示“出现错误。并非所有的功能被成功更改。”
  13. 研究 -- 很多时候,就是证伪
  14. 花几分钟轻松搞定快速排序算法
  15. 从欧盟与韩国实践看智慧城市的开放式治理创新模式
  16. element-ui:el-dialog遮罩层变黑
  17. 分子间相互作用——偶极作用dipolar-dopolar interaction
  18. 推荐语、学生和网友留言——《逆袭大学》连载
  19. 长途枢纽大楼综合布线系统
  20. java求美国数学家的年龄,第二届世界顶尖科学家论坛最年轻的参会者只有15岁

热门文章

  1. Oracle数据库临时表-----会话级的临时表和事务级的临时表
  2. Kettle 3.2 连接 SQL Server 2008
  3. git版本回退到某一次提交
  4. java基础语法(继承)
  5. Ristretto 简介: 一个高性能GO缓存
  6. 使用Python预测黄金AU9999收盘价
  7. 启动Zookeeper报错:Error contacting service. It is probably not running.
  8. 中国未来只有三种人:资源者、配置者、投资人
  9. 怎么把图片转换成jpg格式?
  10. 如何做一个基于微信酒店预订小程序系统毕业设计毕设作品