【论文速递】BANDWIDTH EXTENSION IS ALL YOU NEED
2021 IEEE
论文:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9413575
代码:https://github.com/brentspell/hifi-gan-bwe
ABSTRACT
本文提出了一种新的带宽扩展(BWE)方法,将8-16kHz语音信号扩展到48kHz。该方法基于前向传播网络WaveNet,基于GAN的deep feature loss训练。
INTRODUCTION
新方法的关键思想改编自Su等人的HiFi-GAN方法[5],HiFi-GAN是为语音增强(去噪、去混响和均衡校正)设计和评估的,但在这里,我们将其适用到BWE。
RELATED WORK
[18] [19] [20] [21]用LPS对数功率谱图和各种神经网络。但是由于MSE和MAE的平滑效应,估计的光谱图通常缺乏细节,并且不会消除噪声和伪影。
[22]使用编解码器,[23-25]WaveNet变体,[26]FFTNet,[27]分层RNN,[28]EnvNet,[29] TimeFrequency Networks,[28,30]时频loss
[31, 20, 19]中的BWE GAN模型相关都设计的比较简单,在光谱特征使用简单的鉴别器,而直接用在波形上的很少。
图1(发不上来)
HiFi-GAN [5] 表明,时域和时频域的鉴别是实现最佳音质所必需的。MelGAN [11]提议使用鉴别器的学习特征空间作为距离度量,因为它动态地拾取生成的音频和真实音频之间的明显差异。这种特征匹配loss稳定了GAN的训练,避免了模式崩溃。类似的想法可以迁移到BWE问题上。
METHOD
采用了语音增强的HiFi-GAN方法【5】,该方法成功地从噪声混响条件中获得干净的高保真音频录制。它使用端到端前馈WaveNet结构,以及多尺度多域鉴别器中的深度特征匹配,从各个方面和分辨率识别伪影。
图2(发不上来)
WaveNet 将窄带信号输出成全带信号,使用了non-casual dilated convolutions。We use a power of three (1 to 2187) as dilation rate as we are working with 3× and 6× upsampling. In our experiments, two WaveNet stacks with channel size 128 are used.没有用HiFi-GAN中的postnet module,因为额外的卷积层会平滑输出信号,降低高频分辨率。使用weight normalization加快收敛速度。
Perceptually-motivated loss
waveform loss:预测波形和目标波形的绝对差值。有助于匹配整体的波形和相位,但是预测波形越接近真实值,会阻碍进一步优化。因为噪声是不可预测的:当groundtruth包含高频噪声时,最小化L1/L2距离会导致预测噪声的平均值,从而损失高频内容。
spectrogram loss:具有不同FFT窗长(512/1024/2048/4096for 48kHz)的L1 distance of log spectrograms。
Adversarial training
采用了与HiFi-GAN相似的设计。全带128系数对数梅尔光谱图full-band 128-coefficient log mel-spectrogram上使用鉴别器。它由4个2D卷积层、BN和GLU组成,最后是一个卷积层,然后是全局平均池化,类似于StarGAN-VC [35]中使用的卷积层。它使用(7, 7)、(4, 4)、(4, 4)、(4, 4)的kernel sizes和(1, 2)、(1, 2)、(1, 2)、(1, 2)的stride,最后一个卷积层使用(15,5)的kernel sizes。所有层的通道大小为32。
波形鉴别器对于去除伪影有明显贡献。
本文将每个鉴别器的特征匹配损失加到生成器上,生成器计算生成音频和真实音频特征间的L1距离。
Noise augmentation
为了增强鲁棒性,在训练期间从DNS数据集中随机抽取15-25db噪声加入到窄带信号中。
EXPERIMENTS
首先,使用waveform loss and the spectrogram losses,学习率0.001训练1000k steps。然后,用0.00001的lr训练生成器,0.001lr随机初始化的辨别器,100step,包括adversarial losses, deep feature matching losses and the previously used losses.使用Adam optimizers在每个step更新两次辨别器。batch size 4, Tesla V100, input of 48k samples (i.e. 1 second).
我们在三个不同的任务上评估了我们的模型:(1)在干净语音上从8kHz到48kHz和从16kHz到48kHz的BWE,以比较我们的方法与基线,(2)将我们的BWE方法应用于语音去噪算法的结果,(3)将我们的BWE方法应用于语音生成算法的结果。实验旨在证明,我们提出的BWE方法获得了与真实全带音频相当的高质量结果,并可作为各种音频应用的后处理步骤应用。
Comparison study比较研究
用VCTK数据集训练8k至48k和16k至48k。前99个说话人用于训练,后9说话人用于验证。测试在DAPS数据集。
和各种基线对比,找了各种人员听力实验,本文方法最牛逼。
Bandwidth extension for speech denoising语音去噪
牛逼
Bandwidth extension for waveform generation语音生成
牛逼
CONCLUSION
本文提出了一种基于WaveNet和深度特征匹配对抗训练的带宽扩展方法。我们进行了广泛的实验,以表明该方法在8k/16kHz至48kHz带宽扩展任务中优于其他最先进的方法。我们还通过成对比较表明,我们的16至48kHz BWE生成的音频在保真度上与实际48kHz录音相当。因此,我们提出了我们的方法作为增强语音增强和生成算法输出的通用工具。我们通过主观评估证明了这些任务的保真度提高。
代码解析
模型输入:
48k_true数据——>加噪(专门的语音噪声数据集)——>下采样至8k/16k/24k
生成器:WaveNet
简单理解成一个时间序列的预测网络,即已知 x1,x2,…,xt ,通过训练网络中个参数预测 xt+1
输入低频序列,输出预测的高频序列
下采样数据生成到48k_pred数据
时域:L1_loss(48k_true, 48k_pred)
频域:语谱图stft_loss(48k_true, 48k_pred) 分别用窗长512 1024 2048 4096 计算stft,求平均
频域:梅尔谱图melspec_loss (48k_true, 48k_pred) 将stft的结果转为mel域中的strft
三个loss加起来
判别器:1个光谱图辨别器和多个不同分辨率的波形鉴别器
梅尔判别器、波形(6k/12k/24k/48k)判别器(输入y_gen/y)——>输出y_gen_fake和y_real和特征层f
MESLoss(y_gen_fake, y_real)
feat_loss:计算卷积层y_gen_fake和y_real特征之间的L1loss
训练过程:
先训练10W次生成器,再训练10W生成器和20W判别器(1次生成器+1次判别器(MESLoss和feat_loss)+1次判别器(只有MESLoss))
【论文速递】BANDWIDTH EXTENSION IS ALL YOU NEED相关推荐
- 【一周论文速递】自然语言处理最新论文!
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 自然语言处理论文速递 [1] Pretrained Transformers Im ...
- CVPR 2022 3月7日论文速递(17 篇打包下载)涵盖 3D 目标检测、医学影像、图像去模糊、车道线检测等方向
CVPR2022论文速递系列: CVPR 2022 3月3日论文速递(22 篇打包下载)涵盖网络架构设计.姿态估计.三维视觉.动作检测.语义分割等方向 CVPR 2022 3月4日论文速递(29 篇打 ...
- 计算机视觉论文速递(七)FAN:提升ViT和CNN的鲁棒性和准确性
计算机视觉论文速递(七)FAN:提升ViT和CNN的鲁棒性和准确性 1. 摘要 2. 引言 3. Fully Attentional Networks 3.1 Self-Attention的原理 To ...
- 【论文速递】CVPR2022-Blind2Unblind:具有可见盲点的自监督图像去噪
[论文速递]CVPR2022-Blind2Unblind:具有可见盲点的自监督图像去噪 [论文原文]Blind2Unblind: Self-Supervised Image Denoising wit ...
- 【论文速递】ISPRS2018 :基于增强极线几何约束以及自适应窗最小二乘匹配方法的立体SAR山区DSM
[论文速递]ISPRS2018 :基于增强极线几何约束以及自适应窗最小二乘匹配方法的立体SAR山区DSM [论文原文]:Radargrammetric DSM generation in mounta ...
- 【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据三维定位方法
[论文速递]ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法 [论文原文]:A novel solution for stereo three-dimensional ...
- 【论文速递】TPAMI2022 - 自蒸馏:迈向高效紧凑的神经网络
[论文速递]TPAMI2022 - 自蒸馏:迈向高效紧凑的神经网络 [论文原文]:Self-Distillation: Towards Efficient and Compact Neural Net ...
- 【论文速递】IJCV2022 - CRCNet:基于交叉参考和区域-全局条件网络的小样本分割
[论文速递]IJCV2022 - CRCNet:基于交叉参考和区域-全局条件网络的小样本分割 [论文原文]:CRCNet: Few-shot Segmentation with Cross-Refer ...
- 【论文速递】9位院士Science88页长文:人工智能的进展、挑战与未来
[论文速递]9位院士Science88页长文:人工智能的进展.挑战与未来 [论文原文]:Intelligent Computing: The Latest Advances, Challenges a ...
- 【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
[论文速递]ECCV2022 - 密集高斯过程的小样本语义分割 [论文原文]:Dense Gaussian Processes for Few-Shot Segmentation 获取地址:https ...
最新文章
- VLC搭建RTSP服务器的过程 -测试通过
- 多篇顶会论文看DRO (Distributionally Robust Optimization) 最新进展
- 第六十八期:做中台找死,不做中台等死?
- 你看,公司状告员工不加班,居然还告赢了
- vmware 无权输入许可证密钥
- GraPhlAn:最美进化树或层级分类树学习笔记
- Layui实现Eharts图表
- matlab 画散点图后添加趋势线
- 2019年终总结与展望
- sam卡和sim卡区别_SAM卡
- 脉冲神经网络(SNN)论文阅读(一)-----Going Deeper With Directly-Trained Larger Spiking Neural Networks
- 【观察】西部数据:再定义分层存储架构,赋能数据中心新基建
- JavaScript沙箱(环境,黑盒)
- GITLAB email不发送腾讯企业邮箱解决方案
- 童程童美JAVA笔试A卷,童程童美的待遇为什么这么好
- 客户端iOS 的自动化测试
- linux服务器实训心得体会,linux服务器实训心得体会
- 数据库xxx已打开,并且一次只能有一个用户访问。 (Microsoft SQL Server,错误: 924)
- Spring Boot 中三种跨域场景总结
- 金仓数据库KingbaseES数据迁移
热门文章
- 北航计算机考博经验,考博经验——说说我北邮北航考博经历
- 用matlab计算信源信息熵,计算离散信源的熵matlab实现
- word排版小技巧总结
- 200多张精美Kubernetes(k8s)源码架构图
- 关于笔记本电脑外接扩展第二显示器显示有问题,显示模糊等,分辨率调节无果的解决方案,HDMI转VGA显示问题解决
- Tensorflow (5) Word2Vec
- 【NB-Iot自我学习之路_3】NB平台介绍【电信篇】+【移动篇】
- vue 项目中使用wangEditor上传图片视频到oos
- Java学习笔记8:多态性理解
- Java中导入/导出excel,导出pdf报表信息