【论文速递】BANDWIDTH EXTENSION IS ALL YOU NEED

2021 IEEE
论文：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9413575
代码：https://github.com/brentspell/hifi-gan-bwe

ABSTRACT

本文提出了一种新的带宽扩展（BWE）方法，将8-16kHz语音信号扩展到48kHz。该方法基于前向传播网络WaveNet，基于GAN的deep feature loss训练。

INTRODUCTION

新方法的关键思想改编自Su等人的HiFi-GAN方法[5]，HiFi-GAN是为语音增强（去噪、去混响和均衡校正）设计和评估的，但在这里，我们将其适用到BWE。

RELATED WORK

[18] [19] [20] [21]用LPS对数功率谱图和各种神经网络。但是由于MSE和MAE的平滑效应，估计的光谱图通常缺乏细节，并且不会消除噪声和伪影。
[22]使用编解码器，[23-25]WaveNet变体，[26]FFTNet，[27]分层RNN，[28]EnvNet，[29] TimeFrequency Networks，[28,30]时频loss
[31, 20, 19]中的BWE GAN模型相关都设计的比较简单，在光谱特征使用简单的鉴别器，而直接用在波形上的很少。
图1（发不上来）
HiFi-GAN [5] 表明，时域和时频域的鉴别是实现最佳音质所必需的。MelGAN [11]提议使用鉴别器的学习特征空间作为距离度量，因为它动态地拾取生成的音频和真实音频之间的明显差异。这种特征匹配loss稳定了GAN的训练，避免了模式崩溃。类似的想法可以迁移到BWE问题上。

METHOD

采用了语音增强的HiFi-GAN方法【5】，该方法成功地从噪声混响条件中获得干净的高保真音频录制。它使用端到端前馈WaveNet结构，以及多尺度多域鉴别器中的深度特征匹配，从各个方面和分辨率识别伪影。
图2（发不上来）
WaveNet 将窄带信号输出成全带信号，使用了non-casual dilated convolutions。We use a power of three (1 to 2187) as dilation rate as we are working with 3× and 6× upsampling. In our experiments, two WaveNet stacks with channel size 128 are used.没有用HiFi-GAN中的postnet module，因为额外的卷积层会平滑输出信号，降低高频分辨率。使用weight normalization加快收敛速度。

Perceptually-motivated loss

waveform loss：预测波形和目标波形的绝对差值。有助于匹配整体的波形和相位，但是预测波形越接近真实值，会阻碍进一步优化。因为噪声是不可预测的：当groundtruth包含高频噪声时，最小化L1/L2距离会导致预测噪声的平均值，从而损失高频内容。
spectrogram loss：具有不同FFT窗长（512/1024/2048/4096for 48kHz）的L1 distance of log spectrograms。

Adversarial training

采用了与HiFi-GAN相似的设计。全带128系数对数梅尔光谱图full-band 128-coefficient log mel-spectrogram上使用鉴别器。它由4个2D卷积层、BN和GLU组成，最后是一个卷积层，然后是全局平均池化，类似于StarGAN-VC [35]中使用的卷积层。它使用(7, 7)、(4, 4)、(4, 4)、(4, 4)的kernel sizes和(1, 2)、(1, 2)、(1, 2)、(1, 2)的stride，最后一个卷积层使用（15,5）的kernel sizes。所有层的通道大小为32。
波形鉴别器对于去除伪影有明显贡献。
本文将每个鉴别器的特征匹配损失加到生成器上，生成器计算生成音频和真实音频特征间的L1距离。

Noise augmentation

为了增强鲁棒性，在训练期间从DNS数据集中随机抽取15-25db噪声加入到窄带信号中。

EXPERIMENTS

首先，使用waveform loss and the spectrogram losses，学习率0.001训练1000k steps。然后，用0.00001的lr训练生成器，0.001lr随机初始化的辨别器，100step，包括adversarial losses, deep feature matching losses and the previously used losses.使用Adam optimizers在每个step更新两次辨别器。batch size 4, Tesla V100, input of 48k samples (i.e. 1 second).

我们在三个不同的任务上评估了我们的模型：（1）在干净语音上从8kHz到48kHz和从16kHz到48kHz的BWE，以比较我们的方法与基线，（2）将我们的BWE方法应用于语音去噪算法的结果，（3）将我们的BWE方法应用于语音生成算法的结果。实验旨在证明，我们提出的BWE方法获得了与真实全带音频相当的高质量结果，并可作为各种音频应用的后处理步骤应用。

Comparison study比较研究

用VCTK数据集训练8k至48k和16k至48k。前99个说话人用于训练，后9说话人用于验证。测试在DAPS数据集。
和各种基线对比，找了各种人员听力实验，本文方法最牛逼。

Bandwidth extension for speech denoising语音去噪

牛逼

Bandwidth extension for waveform generation语音生成

牛逼

CONCLUSION

本文提出了一种基于WaveNet和深度特征匹配对抗训练的带宽扩展方法。我们进行了广泛的实验，以表明该方法在8k/16kHz至48kHz带宽扩展任务中优于其他最先进的方法。我们还通过成对比较表明，我们的16至48kHz BWE生成的音频在保真度上与实际48kHz录音相当。因此，我们提出了我们的方法作为增强语音增强和生成算法输出的通用工具。我们通过主观评估证明了这些任务的保真度提高。

代码解析

模型输入：
48k_true数据——>加噪（专门的语音噪声数据集）——>下采样至8k/16k/24k

生成器：WaveNet
简单理解成一个时间序列的预测网络，即已知 x1,x2,…,xt ，通过训练网络中个参数预测 xt+1
输入低频序列，输出预测的高频序列
下采样数据生成到48k_pred数据
时域：L1_loss(48k_true, 48k_pred)
频域：语谱图stft_loss(48k_true, 48k_pred) 分别用窗长512 1024 2048 4096 计算stft，求平均
频域：梅尔谱图melspec_loss (48k_true, 48k_pred) 将stft的结果转为mel域中的strft
三个loss加起来

判别器：1个光谱图辨别器和多个不同分辨率的波形鉴别器
梅尔判别器、波形(6k/12k/24k/48k)判别器(输入y_gen/y)——>输出y_gen_fake和y_real和特征层f
MESLoss(y_gen_fake, y_real)
feat_loss：计算卷积层y_gen_fake和y_real特征之间的L1loss

训练过程：
先训练10W次生成器，再训练10W生成器和20W判别器（1次生成器+1次判别器（MESLoss和feat_loss）+1次判别器（只有MESLoss））