深度学习语音降噪方法对比_一种语音降噪方法与流程

本发明涉及音频处理领域，特别涉及一种语音降噪方法。

背景技术：

：现实生活中，语音信号一般都带有噪声，在进一步处理信号前，往往要对信号进行降噪，随着信噪比的减小，降噪方法处理的效果也随之变差，也经常使得语音丢字或者波形失真。如何在低信噪比情况下，达到不错的降噪效果，是一个值得探究的问题。现在的语音降噪一般分为，传统信号处理方式：如最小均方算法、谱减法、维纳滤波法；以及神经网络方式，使用深度学习网络直接在时域处理，使用带噪声语音以及干净语音样本训练降噪模型，使用模型对输入语音进行降噪处理。上述两种语音降噪分别的缺陷如下：传统信号处理方法可扩展性差，不同的噪声环境需要不同的；神经网络虽然能够处理所有噪声情况，但是该方法非常依赖于训练样本。技术实现要素：本发明的目的在于：提供了一种语音降噪方法，解决了传统信号处理方法可扩展性差，不同的噪声环境需要不同的；神经网络虽然能够处理所有噪声情况，但是该方法非常依赖于训练样本的问题。本发明采用的技术方案如下：一种语音降噪方法，包括基于神经网络模型的深度降噪模型，还包括以下步骤：A、对带噪语音信号进行预处理得到预处理过的语音信号；B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测，根据信号的短时能量和过零率，确定该段语音信号的有效起点和终点；C、根据步骤B检测到语音信号的有效起点和终点，剪裁整个语音信号；D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号；E、将步骤D中预定格式的带噪语音信号切片成固定长度；F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入，通过深度降噪模型，得到干净的语音信号；进一步的，所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤：A1、对输入的带噪语音信号进行加窗处理，将连续的语音信号拆分成语音帧；A2、对每一帧语音信号进行快速傅里叶变换FFT，将时域信号转换到频域；A3、使用传统的频域信号处理方法对每一帧频域信号进去噪处理；A4、将步骤A3中进去噪处理结果进行反傅里叶变换，将频域信号转换为时域信号得到预处理后的语音帧；A5、对步骤A4中得到预处理后的语音帧进行合成，得到的信号为预处理过的语音信号。进一步的，所述步骤D中的预定格式包括预定频率、预定量化级和预定调制方法。基于神经网络的深度降噪模型设计如图所示。共包含编码网络和解码网络。在编码网络，采用全卷积网络实现信号卷积处理，采用Pooling层实现信号缩放。在解码网络，采用反Pooling层和卷积层，实现信号的解码，其中反Pooling层用到解码网络中对应层的Pooling信息，最终输出增强或去噪语音。进一步的，所述基于神经网络模型的深度降噪模型的训练包括以下步骤：G1、采集带噪语音样本，将带噪语音样本依次执行步骤A、B、C后得到干净语音样本，根据带噪样本的VAD结果剪裁对应的干净语音样本；G2、将步骤G1中的干净语音样本和带噪语音样本都执行步骤D、E得到干净语音样本切片和带噪语音样本切片；G3、将上述处理好的带噪语音样本切片作为神经网络的输入，将对应干净语音样本切片作为神经网络输出，采用随机梯度下降法训练神经网络，得到基于神经网络模型的深度降噪模型。进一步的，本方法用于个人或有限数量的用户时，步骤G1中的带噪语音样本采用对应用户的带噪语音样本。进一步的，本方法用于个人或有限数量的用户时，步骤G1对应用户的干净语音样本，通过合成得到带噪语音样本。综上所述，由于采用了上述技术方案，本发明的有益效果是：1.本发明一种语音降噪方法，本方法对带噪信号先进行降噪预处理，能够滤除一部分均匀的环境噪声，如白噪声，使得后续的神经网络模型能够主要处理其他噪声，如汽车鸣笛，其他人声音等。2.本发明一种语音降噪方法，本方法对带噪语音样本执行VAD操作，去掉了非必要的信号，能够缩短音频降噪处理的时间。附图说明本发明将通过例子并参照附图的方式说明，其中：图1是本发明的流程图；图2是本发明所采用的深度卷积降噪网络的示意图；具体实施方式本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。下面结合图1、图2对本发明作详细说明。实施例1一种语音降噪方法，包括基于神经网络模型的深度降噪模型，还包括以下步骤：A、对带噪语音信号进行预处理得到预处理过的语音信号；B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测，根据信号的短时能量和过零率，确定该段语音信号的有效起点和终点；C、根据步骤B检测到语音信号的有效起点和终点，剪裁整个语音信号；D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号；E、将步骤D中预定格式的带噪语音信号切片成固定长度；F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入，通过深度降噪模型，得到干净的语音信号；实施例2本实施例与实施例1的区别在于所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤：A1、对输入的带噪语音信号进行加窗处理，将连续的语音信号拆分成语音帧；A2、对每一帧语音信号进行快速傅里叶变换FFT，将时域信号转换到频域；A3、使用传统的频域信号处理方法对每一帧频域信号进去噪处理；A4、将步骤A3中进去噪处理结果进行反傅里叶变换，将频域信号转换为时域信号得到预处理后的语音帧；A5、对步骤A4中得到预处理后的语音帧进行合成，得到的信号为预处理过的语音信号。进一步的，所述步骤D中的预定格式包括预定频率、预定量化级和预定调制方法。进一步的，所述基于神经网络模型的深度降噪模型的训练包括以下步骤：G1、采集带噪语音样本，将带噪语音样本依次执行步骤A、B、C后得到干净语音样本，根据带噪样本的VAD结果剪裁对应的干净语音样本；G2、将步骤G1中的干净语音样本和带噪语音样本都执行步骤D、E得到干净语音样本切片和带噪语音样本切片；G3、将上述处理好的带噪语音样本切片作为神经网络的输入，将对应干净语音样本切片作为神经网络输出，训练神经网络得到基于神经网络模型的深度降噪模型。实施例3本实施例与实施2的区别在于本方法用于个人或有限数量的用户时，步骤G1中的带噪语音样本采用对应用户的带噪语音样本。进一步的，本方法用于个人或有限数量的用户时，步骤G1对应用户的干净语音样本，通过合成得到带噪语音样本。实施例4一种语音降噪方法，包括基于神经网络模型的深度降噪模型，还包括以下步骤：A、对带噪语音信号进行预处理得到预处理过的语音信号；B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测，根据信号的短时能量和过零率，确定该段语音信号的有效起点和终点；C、根据步骤B检测到语音信号的有效起点和终点，剪裁整个语音信号；D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号；该格式采用16000Hz，16位量化，单通道的脉冲编码调制；E、将步骤D中预定格式的带噪语音信号切片成固定长度，如1s；F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入，通过深度降噪模型，得到干净的语音信号；进一步的，所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤：A1、对输入的带噪语音信号进行加窗处理，将连续的语音信号拆分成语音帧；A2、对每一帧语音信号进行快速傅里叶变换FFT，将时域信号转换到频域；A3、使用最小均方算法LMS对每一帧频域信号进去噪处理；A4、将步骤A3中进去噪处理结果进行反傅里叶变换，将频域信号转换为时域信号得到预处理后的语音帧；A5、对步骤A4中得到预处理后的语音帧进行合成，得到的信号为预处理过的语音信号。实施例5本实施例是比较噪声信号和Wiener方法的增强信号的客观评估结果，结果如表1所示，各行分别代表不同的测度。MetricNoisyWiener本文方法PESQ1.972.222.20CSIG3.353.233.64CBAK2.442.683.15COVL2.632.672.96SSNR1.685.078.29表1以上所述，仅为本发明的优选实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。当前第1页1&nbsp2&nbsp3&nbsp

深度学习语音降噪方法对比_一种语音降噪方法与流程相关推荐

深度学习与计算机视觉系列(8)_神经网络训练与注意点
深度学习与计算机视觉系列(8)_神经网络训练与注意点作者:寒小阳时间:2016年1月. 出处:http://blog.csdn.net/han_xiaoyang/article/details ...
深度学习+计算机视觉（CV）_第0章_课程介绍
深度学习+计算机视觉(CV)_第0章_课程介绍文章目录深度学习+计算机视觉(CV)_第0章_课程介绍深度学习 1.什么是深度学习 2 发展历史(了解) 计算机视觉 1.计算机视觉定义 2.常见任 ...
深度学习与计算机视觉系列(4)_最优化与随机梯度下降\数据预处理，正则化与损失函数
1. 引言上一节深度学习与计算机视觉系列(3)_线性SVM与SoftMax分类器中提到两个对图像识别至关重要的概念: 用于把原始像素信息映射到不同类别得分的得分函数/score function 用 ...
深度学习与计算机视觉系列(1)_基础介绍
转载自: 深度学习与计算机视觉系列(1)_基础介绍 - 龙心尘 - 博客频道 - CSDN.NET http://blog.csdn.net/longxinchen_ml/article/detail ...
DL框架之DL4J/Deeplearning4j：深度学习框架DL4J/Deeplearning4j的简介、安装、使用方法之详细攻略
DL框架之DL4J/Deeplearning4j:深度学习框架DL4J/Deeplearning4j的简介.安装.使用方法之详细攻略目录深度学习框架Deeplearning4j的简介 1.Deep ...
2017深度学习最新报告及8大主流深度学习框架超详细对比（内含PPT）
2017深度学习最新报告(PPT) 深度学习领军人物 Yoshua Bengio 主导的蒙特利尔大学深度学习暑期学校目前"深度学习"部分的报告已经全部结束. 本年度作报告的学术 ...
深度学习与自然语言处理(4)_斯坦福cs224d 大作业测验1与解答
深度学习与自然语言处理(4)_斯坦福cs224d 大作业测验1与解答作业内容翻译:@胡杨(superhy199148@hotmail.com) && @胥可(feitongxiaok ...
深度学习与计算机视觉系列(9)_串一串神经网络之动手实现小例子
深度学习与计算机视觉系列(9)_串一串神经网络之动手实现小例子作者:寒小阳时间:2016年1月. 出处:http://blog.csdn.net/han_xiaoyang/article/de ...
深度学习仍是视觉大数据领域的最好分析方法之一
随着移动互联网和物联网的快速普及,全球数据总量呈指数级增长.据雷锋网统计,我们每天创造约2.3万亿GB数据. 过去,人们对海量数据无从下手.随着大数据与人工智能.云计算.物联网.区块链等前沿技术的紧密 ...
深度学习与计算机视觉系列(10)_细说卷积神经网络
转载自: 深度学习与计算机视觉系列(10)_细说卷积神经网络 - 龙心尘 - 博客频道 - CSDN.NET http://blog.csdn.net/longxinchen_ml/article/d ...

深度学习语音降噪方法对比_一种语音降噪方法与流程

深度学习语音降噪方法对比_一种语音降噪方法与流程相关推荐

最新文章

热门文章