WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION-----论文翻译

WAVE-U-NET: 一个用于端到端音源分离的多尺度神经网络

作者：Daniel Stoller、Sebastian Ewert、Simon Dixon
摘要：
音频源分离模型通常在幅度频谱上操作，这忽略了相位信息，使分离性能依赖于频谱前端的超参数。因此，我们研究了时域中的端到端声源分离，它允许对相位信息进行建模，并避免了固定的频谱转换。由于音频的高采样率，在采样水平上采用长时间的输入背景是困难的，但由于长距离的时间相关性，需要高质量的分离结果。在这种情况下，我们提出了Wave-U-Net，它是U-Net在一维时域的改编，它重复重采样特征图以计算和组合不同时间尺度的特征。我们引入了进一步的架构改进，包括一个强制执行源可加性的输出层，一个上采样技术和一个上下文感知的预测框架，以减少输出伪影。唱歌的声音分离实验表明，在相同的数据条件下，我们的架构产生了与基于光谱图的U-Net架构相当的性能。最后，我们揭示了目前使用的SDR评估指标中存在的异常值问题，并建议报告基于等级的统计数据来缓解这一问题。
1. 简介
目前的音源分离方法几乎只在音频信号的频谱图上操作[6, 7]，因为它们允许直接访问时间和频率的成分。特别是，在对输入的混合信号进行短时傅里叶变换（STFT）后，复值频谱图被分割成其幅度和相位部分。然后，只有幅值被输入到一个参数模型中，该模型返回单个声源的估计谱图幅值。为了产生相应的音频信号，这些幅值与混合相位相结合，然后用反STFT转换到时域。可以选择使用Griffin-Lim算法[5]为每个声源单独恢复相位。
这种方法有几个局限性。首先，STFT输出取决于许多参数，如音频帧的大小和重叠，这可能会影响时间和频率分辨率。理想情况下，这些参数应与分离模型的参数一起进行优化，以使特定分离任务的性能最大化。然而，在实践中，转换参数被固定为特定的值。其次，由于分离模型没有估计源相位，它通常被假定为等于混合相位，这对于重叠的参量是不正确的。另外，GriffinLim算法可以用来寻找一个信号的近似值，该信号的大小等于估计的大小，但这很慢，而且经常没有这样的信号存在[8]。最后，在估计信号源时忽略了混合相位，这有可能限制性能。因此，分离模型最好能学会直接估计源信号，包括其相位。
作为解决上述问题的一种方法，最近提出了一些直接操作时域音频信号的音频处理模型，包括将语音去噪作为与一般音源分离相关的任务[1,16,18]。受这些初步结果的启发，我们在本文中研究了面对未解决的挑战，完全端到端的时域分离系统的潜力。特别是，目前还不清楚这样的系统是否能够有效地处理音频中因其高采样率而出现的非常长距离的时间依赖。此外，额外的相位信息是否真的对任务有益，或者噪声相位是否对这样一个系统的学习动力有害，这一点在前期并不明显。总的来说，我们在本文中的贡献可以概括为以下几点。

我们提出了Wave-U-Net，这是对U-Net架构的一维改编[7, 19]，它直接在时域中分离源，并能将大的时间背景考虑在内。
我们展示了一种为模型提供额外的输入背景的方法，以避免在输出窗口的边界出现伪影，这与以前的工作[7, 16]不同。
我们取代了以前的工作[7]和[16]中所使用的分层转置卷积。以前的工作[7, 16]中用于对特征图进行上采样的用线性插值，然后再进行正常卷积，以避免出现伪影。
Wave-U-Net实现了良好的多乐器和歌声分离。唱歌的声音分离，后者比与我们重新实现的最先进的网络结构[7]相比，后者更胜一筹。我们在可比的环境下进行了训练。
由于Wave-U-Net可以处理多声道音频，我们比较了立体声和单声道音源分离性能
我们强调了常用的Signal-to-Distortion ratio评估指标的一个问题，并提出了一个解决方法。

应该指出的是，我们预计[7]中提出的当前最先进的模型会产生比我们这里报告的更高的分离质量，因为[7]中使用的训练数据集是精心设计的，高度无偏差的，而且相当大。然而，我们相信，我们与在类似条件下训练的重新实施的比较可能表明了相对的性能改进。
2. 相关的工作
为了缓解以前工作中广泛使用的固定频谱表示的问题[6, 11, 13, 14, 20, 23]，开发了一个用于频谱计算的自适应前端[24]，它与分离网络共同训练，后者对产生的幅度谱图进行操作。尽管性能相对提高了，但该模型没有利用混合相位进行更好的源幅度预测，也没有输出源相位，因此混合相位必须用于源信号重建，这两个方面都限制了性能。
据我们所知，只有TasNet[12]和MRCAE[4]系统解决了时域中的音源分离的一般问题。TasNet将信号分解为一组基础信号和权重，然后在权重上创建一个掩码，最后用于重建源信号。该模型被证明可用于语音分离任务。然而，这项工作在概念上进行了权衡，以允许低延迟的应用，而我们专注于离线应用，使我们能够利用大量的上下文信息。
多分辨率卷积自动编码器（MRCAE）[4]使用两层卷积和转置卷积各一层。作者认为，不同的卷积滤波器大小检测不同分辨率的音频频率，但它们只对一个时间分辨率（即输入的分辨率）起作用，因为网络不进行任何重采样。由于输入和输出仅由1025个音频样本组成（相当于23毫秒），它只能利用很少的上下文信息。此外，在测试时，输出段使用规则的间距重叠，然后合并，这与网络的训练方式不同。这种不匹配和小的上下文可能会损害性能，也解释了为什么所提供的声音例子会表现出许多假象。
为了达到语音增强和去噪的目的，开发了SEGAN[16]，采用了一个具有编码器和解码器通路的神经网络，在每一层的特征图的分辨率分别连续减半和加倍，并且在编码器和解码器层之间有跳过的连接。虽然我们使用了类似的架构，但我们纠正了如[15]所示的使用strided transposed convolutions时生成的输出中出现的混叠伪影问题。此外，该模型不能很好地预测接近其边界输出的音频样本，因为它没有被赋予额外的输入背景，这是我们使用带有适当填充的卷积解决的问题。目前还不清楚该模型的性能是否可以转移到其他更具挑战性的音源分离任务中。
Wavenet[1]适用于语音去噪[18]，具有非因果条件输入和每个预测样本的并行输出，它是基于重复应用扩张卷积，以指数级增长的扩张系数来考虑上下文信息。虽然这种结构的参数效率很高，但由于扩张卷积产生的每个特征图仍有原始音频的采样率作为分辨率，所以内存消耗很高。
相比之下，我们的方法是基于具有更多特征和越来越低分辨率的特征图来计算长期的依赖关系。这就节省了内存，并能实现大量的高层次特征，这些特征可以说不需要样本级的分辨率就能发挥作用，如仪器活动或当前措施中的位置。
3.波浪-u-net模型
我们的目标是将一个混合波形M 2 [-1; 1]Lm×C分离成K个源波形S1; ::; SK，Sk 2 [-1; 1]Ls×C，对于所有k 2 f1; ::; Kg，C为音频通道的数量，Lm和Ls为各自音频样本的数量。对于有额外输入背景的模型变体，我们有Lm>Ls，并对输入的中心部分进行预测。

3.1 基础架构
图1是Wave-U-Net的结构图。它使用下采样（DS）块在较粗的时间尺度上计算越来越多的高级特征。这些特征与先前使用上采样（US）块计算的局部、高分辨率特征相结合，产生多尺度特征，用于预测。该网络总共有L个级别，每个连续的级别都以前一个级别的一半时间分辨率运行。对于要估计的K个音源，该模型在区间（-1；1）内返回预测值，每个音源的音频样本都有一个。
详细结构见表1。 Conv1D(x,y)表示用大小为y的x个滤波器进行一维卷积。它包括基础结构的零填充，然后是LeakyReLU激活（除了最后一个，它使用tanh）。Decimate丢弃每隔一个时间步骤的特征，将时间分辨率减半。 Upsample在时间方向上进行2倍的升采样，为此我们使用线性插值（详见3.1.1节）。在基本架构的扩展中（见下文），Conv1D不涉及零填充，x首先被中心裁剪，所以它的时间步数与当前层相同。
3.1.1 避免因升采样而产生的混叠伪影
许多相关的方法使用转置的卷积与步长来对特征图进行上样化[7,16]。这可能会在输出中引入混叠效应，如图像生成网络的情况[15]。在最初的测试中，我们也发现在我们的Wave-U-Net模型中使用这样的卷积作为上采样块时，出现了高频嗡嗡声的伪影。
滤波器大小为k、跨度为x>1的转置卷积可以看作是应用于特征图的卷积，在每个原始值之间填充x-1个零[2]。我们怀疑在没有后续低通滤波的情况下用零进行交错，会在特征图中引入高频模式，如图2所示，这也导致了最终输出中的高频噪声。因此，我们不采用转置的串联卷积，而是进行线性插值的上采样，这保证了特征空间的时间连续性，然后再进行正常的卷积。在最初的测试中，我们没有观察到用这种技术在输出中出现任何高频声音的假象，并取得了非常相似的性能。

3.2 建筑改进
上一节描述了Wave-U-Net的基线变体。在下文中，我们将描述一套旨在提高模型性能的Wave-U-Net的架构改进。
3.2.1 差分输出层
我们的基线模型通过独立应用K个卷积滤波器，然后对最后的特征图进行tanh非线性处理，为K个源中的每个源输出一个源估计。在我们考虑的分离任务中，混合信号是其源信号成分的总和。M≈PK j=1 Sj。由于我们的基线模型不受这种方式的约束，它必须近似地学习这个规则，以避免高度不可能的输出，这可能会减慢学习速度并降低性能。因此，我们使用差分输出层来约束输出S^j，强制PK j=1 S^j = M：只有K - 1个大小为1的卷积滤波器被应用于网络的最后一个特征图，然后是一个tanh非线性，以估计前K - 1个源信号。然后，最后一个源被简单地计算为S^K = M - PK j=1 -1 S^j
这种类型的输出在[18]中也被用于语音去噪，作为 "能量保护 "损失的一部分，类似的想法在基于谱图的声源分离中非常常见，其形式是将输入混合物大小的能量分配给输出源的掩码。我们研究引入这一层及其可加性假设的影响，因为它取决于数据满足这种可加性的程度。
3.2.2 用适当的输入环境和重采样进行预测
在以前的工作中[4,7,16]，输入和特征图在卷积之前被填充了零，因此产生的特征图在维度上没有变化，如图2a所示。这简化了网络的实现，因为输入和输出的尺寸是相同的。以这种方式对音频或频谱图的输入进行Zeropadding，可以有效地利用开头和结尾的沉默来扩展输入。然而，从完整的音频信号中的一个随机位置开始，边界的信息就变成了人为的，也就是说，这个节选的时间背景在完整的音频信号中已经给出，但却被忽略了，被认为是沉默的。没有适当的背景信息，网络就很难预测序列开始和结束时的输出值。因此，在测试时简单地将输出连接成不重叠的片段，以获得完整音频信号的预测，会在片段边界产生可听的假象，因为相邻的输出在没有正确的上下文信息的情况下产生时可能是不一致的。在第5.2节中，我们研究了实践中的这种行为。
作为一个解决方案，我们采用了没有隐含填充的卷积，而是提供一个大于输出预测大小的混合输入，这样卷积就会在正确的音频背景上计算出来（见图2b）。由于这减少了特征图的大小，我们限制了网络可能的输出大小，使特征图总是足够大，以便进行下面的卷积。
此外，在对特征图进行重采样时，特征维度往往正好减半或翻倍[7, 16]，如图2a所示的转置跨度卷积。然而，这必然涉及到在边界上至少推断一个值，这又会引入伪影。相反，我们只在已知的相邻值之间进行内插，并保留最开始和最后的条目，从n产生2n-1个条目，反之亦然，如图2b所示。为了恢复抽取后的中间值，同时保持边界值不变，我们确保特征图具有奇数维。
3.2.3立体声通道
为了适应C通道的多通道输入，我们只需将输入M从Lm×1改为Lm×C矩阵。由于第二维被视为特征通道，网络的第一次卷积考虑到所有的输入通道。对于有C个通道的多通道输出，我们将输出部分修改为有K个独立的卷积层，每个卷积层的过滤器大小为1和C个过滤器。有了差分输出层，我们只使用K - 1个这样的卷积层。我们使用这个简单的方法，C=2，对立体声录音进行实验，研究使用立体声而不是单声道估计时，声源分离指标的改善程度。
3.2.4 为Wave-U-Net学习的上升采样
用于上采样的线性插值是简单的、无参数的，并且鼓励特征的连续性。然而，它可能对网络的容量限制太大。也许，这些特征图中所使用的特征空间的结构并不是这样的，以至于特征空间中两点之间的线性插值本身就是一个有用的点，因此，一个学习的上采样可以进一步提高性能。为此，我们提出了学习型上采样层。对于一个给定的具有n个时间步长的F×n特征图，我们为成对的相邻特征ft+0:5 2 RF计算内插特征；ft+1 2 RF使用参数w 2 RF和sigmoid函数σ将每个wi 2 w约束在[0；1]区间:

这可以实现为一个跨时间的一维卷积，有大小为2的F滤波器，没有填充，有一个适当的约束矩阵。学习到的插值层可以被看作是简单线性插值的概括，因为它允许具有0：5以外权重的特征的凸组合。
4. 实验
我们对我们的模型在两个任务上的表现进行了评估：唱歌的声音分离和音乐分离，以贝斯、鼓、吉他、人声和 "其他 "乐器为类别，如SiSec分离活动[10]所定义。
4.1 数据集
来自MUSDB[17]多轨数据库训练分区的75首曲目被随机分配到我们的训练集，其余25首曲目构成验证集，用于早期停止。最终的性能是在由50首歌曲组成的MUSDB测试分区上评估的。对于歌声分离，我们还将整个CCMixter数据库[9]加入训练集。
作为这两项任务的数据增强，我们将源信号与从区间[0:7;1:0]中均匀选择的因子相乘，并将输入混合物设定为源信号之和。没有进行进一步的数据预处理，只有转换为单声道（立体声模型除外）和降频至22050Hz。
4.2 培训程序
在训练过程中，对音频片段进行随机采样，对有输入背景的模型进行相应的输入填充。输入相应地填充到有输入背景的模型中。作为损失，我们使用平均平方误差(MSE)在所有的源输出样本。我们使用ADAM优化器，学习率为0:0001，衰减率β1 = 0:9 和β2=0:999，批次大小为16。我们定义2000次迭代为一个历时，并在20个历时后执行早期停止。在验证集上没有任何改进的20个历时后提前停止，以MSE损失来衡量。衡量的MSE损失。之后，最后一个模型被进一步微调。进一步微调，批次大小增加一倍，学习率降低到0:00001，同样直到20个epochs没有验证损失的改善。最后，选择具有最佳损失的模型被选中。
4.3 模型设置和变体
对于我们的基线模型，我们使用Lm=Ls=16384个输入和输出样本，L=12层，Fc=每层24个额外的过滤器，过滤器大小fd=15和fu=5。
为了确定第3.2节所述的模型改进的影响，我们训练了第3.1节所述的基线模型M1和模型M2至M5，后者增加了第3.2.1节的差异输出层（M2）、第3.2.2节的输入背景和重采样（M3）、第3.2.3节的立体声通道（M4）和第3.2.4节的学习上升采样（M5），并且还包含分别以前模型的所有特征。我们将上述的最佳模型（M4）应用于多乐器分离（M6）。有输入背景的模型（M3到M6）有Lm=147443个输入和Ls=16389个输出样本。
为了与以前的工作进行比较，我们还训练了取得最先进的人声分离性能的基于频谱的U-Net架构[7]（U7），以及相同条件下的Wave-U-Net比较模型（M7），两者都使用基于音频的MSE损失和下采样为8192Hz的单声道信号。M7以最佳模型M4为基础，但设置为Lm=233459和Ls=102405，以便与U7（Ls=98650samples）相比有非常相似的输出规模，Fc=34，使我们的网络达到与U7相同的规模（20M参数），并且由于每个样本需要大量的内存，初始批次大小被设置为4。为了训练U7，我们通过反STFT操作反向传播误差，该操作用于从估计的谱图幅度和混合相位构建源音频信号。我们还按照[7]的做法，用频谱幅度的L1损失来训练同一个模型（U7a）。由于U7和M7网络的训练程序和损失完全相同，我们可以通过确保性能差异不会仅仅因为训练数据的数量或使用的损失函数的类型而产生，并与基于频谱图的损失（U7a）进行比较，从而公平地比较两种架构。尽管我们努力实现整体模型的比较，但请注意，一些训练设置，如[7]中使用的学习率可能与我们的不同（而且部分是未知的），即使使用相同的数据集，U7和U7a也可能提供比这里所示更好的性能。
5. 结果
5.1 量化结果
5.1.1 评价指标
信号失真（SDR）指标通常用于评估声源分离性能[25]。一条音轨通常被分割成长度为多秒的非重叠音频段，然后对每条音轨或整个数据集进行分段平均，以评估模型性能。按照2018年SiSec分离活动[17]使用的程序，这些片段的长度为一秒钟。

5.1.2 当前评价指标的问题
当真正的音源是无声或接近无声时，SDR的计算是有问题的。在无声的情况下，SDR是未定义的（log(0)），这在人声轨道上经常发生。这样的片段被排除在结果之外，所以这些片段的性能被忽略了。对于接近无声的部分，当分离器的输出是安静的，但不是无声的，SDR通常是非常低的，尽管这样的输出可以说在感知上不是一个严重的错误。这些异常值用图3中的M5模型进行了可视化。由于各段的平均值通常用于获得整体的性能测量，这些异常值会大大影响评估结果。
由于整个数据集中各段的声乐SDR值的收集不是正态分布（比较图3的声乐），平均数和标准差不足以充分概括它。作为一种变通方法，我们采用各段的中位数，因为它对离群值是稳健的，并且直观地描述了50%的时间内达到的最低性能。为了描述分布的广度，我们使用中位绝对偏差（MAD）作为与标准偏差（SD）等价的等级。它被定义为与总体中位数的绝对偏差的中位数，并且很容易解释，因为一个x的值意味着50%的值与中位数的绝对差异低于x。
我们还注意到，将片段的持续时间增加到一秒钟以上，可以通过消除许多但不是所有的异常值来缓解这个问题。这需要更多的记忆，但据推测，在沉默的部分仍然会对错误进行惩罚。
5.1.3 模型比较
表2显示了歌唱性声音分离的评估结果。所有模型的低人声SDR平均值和高中位数再次证明了第5.1.2节中讨论的离群问题。差异输出层并没有明显地改变性能，因为模型M2似乎只比模型M1好一点。没有微调的初始实验显示出更大的差异，这可能表明更精细的权重调整使得受限的输出不那么重要，但它们仍然可以使使用更快的学习速率。如模型M3所示，引入上下文可以明显地提高性能，这可能是由于在输出边界有更好的预测。模型M4中的立体声建模尤其对伴奏产生了改善，这可能是因为它的声音比人声更多地被移到左或右通道。经过学习的升采样（M5）稍微改善了中位数，但稍微降低了平均人声SDR。考虑到我们也实验过无约束的卷积，它带来了更多的改善，但也带来了高频声音的伪影，这些微小的差异可以解释为学习到的上升采样层中的权重较低。因此，我们认为M4是我们的最佳模型。对于多乐器分离，我们取得了略低但适中的性能（M6），如表3所示，部分原因是训练数据较少。

U7的表现比我们的对比模型M7要差，这表明我们的网络架构与最先进的架构相比是很好的，因为在实验过程中所有其他方面都保持不变。然而，U7在训练集上意外地提前停止了改进，也许是因为它不是为最小化基于音频的MSE损失而设计的，或者是因为与通过反STFT进行梯度反向传播有关的影响。相比之下，U7a使用基于幅度的损失显示了预期的训练行为。我们的模型也优于U7a，产生了相当高的平均和中位SDR分数。平均发声SDR是唯一的例外，因为我们的模型有更多的离群段，但在大多数情况下，输出更好。
M4和M6模型被作为STL1和STL2提交给SiSec活动[22]。对于人声来说，M4的表现更好，或者说与其他几乎所有的系统一样好。虽然它的表现明显优于提交的UHL3、TAK1-3和TAU1，但除了TAK1之外，所有这些都使用了额外的800首歌曲进行训练，因此有很大的优势。M4对伴奏的分离也很好，虽然比人声稍差。更多的细节，我们参考[22]。
5.2 定性结果和观察
作为不使用适当的时间背景时发生的问题的例子，我们用基线模型M1生成了一首歌曲的声源估计，并在图4中用频谱图直观地显示了一个节选。由于模型的输入和输出是等长的，而且总的输出是由不重叠的连续音频片段的预测值连接而成的，因此在红色显示的边界处出现了不一致的情况：响度在1:2秒时突然降低，开始的人声旋律在2:8秒时突然被切断，只留下安静的噪音，然后人声在4:2秒时重新出现。只有元音 "a "的声乐旋律听起来类似于非声乐乐器，可能是由于没有进一步的时间背景而被误认为是非声乐乐器。
总之，这些模型不仅在这种片段边界处存在不一致的问题，而且只要需要来自时间背景的信息，它们在那里进行分离的能力也较差。较大的输入和输出尺寸在一定程度上缓解了这一问题，但边界处的问题仍然存在。混合重叠段的预测[4]是一个临时性的解决方案，因为多个预测音频信号的平均值本身可能不是一个现实的预测。例如，两个振幅和频率相等，但相位相反的正弦波会相互抵消。因此，应该避免混合，而采用我们的上下文感知预测框架。
6. 讨论和结论
在本文中，我们提出了无需任何前处理或后处理的端到端音源分离的Wave-U-Net，并将其应用于唱歌的声音和多乐器分离。通过对特征图的反复下采样和卷积来处理一个长的时间背景，以结合不同时间尺度的高低层次特征。正如我们的实验所表明的，当在可比的环境下训练时，它优于基于频谱图的U-Net架构[7]。然而，由于我们的数据规模相当有限，在与[7]中使用的数据集规模相当的情况下训练我们的模型，以更好地评估各自的优势和劣势，将是非常有趣的。
我们强调在最近的分离和增强模型中缺乏适当的时间输入背景，这可能会损害性能并产生伪影，并提出对卷积的填充进行简单的改变作为解决方案。同样，通过零填充作为跨步转置卷积的一部分而产生的伪影也可以通过固定或学习权重的线性上采样来解决，以避免高频伪影的产生。
最后，我们发现了目前基于SDR的评估框架中的一个问题，即对声源的安静部分产生了异常值，并建议另外报告基于等级的指标作为一个简单的解决方法。然而，使用SDR指标对声音分离结果进行感知评估的根本问题仍然存在，今后应从根本上加以解决。
对于未来的工作，我们可以研究我们的模型在多大程度上进行频谱分析，以及如何将类似于多尺度滤波器库中的计算纳入其中，或者明确地将输入信号分解为一组分层的基础信号和加权，在此基础上进行分离，类似于TasNet[12]。此外，应该研究更好的原始音频预测的损失函数，如生成对抗网络[3,21]提供的函数，因为MSE可能不能很好地反映感知的质量损失。
7. 参考文献
[1] Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu, et al. Wavenet: A generative model for raw audio. arXiv preprint arXiv:1609.03499,2016.
[2] Vincent Dumoulin and Francesco Visin. A guide to convolution arithmetic for deep learning. arXiv preprint arXiv:1603.07285, 2016.
[3] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza,Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems, pages 2672–2680, 2014.
[4] Emad M Grais, Dominic Ward, and Mark D Plumbley.
Raw multi-channel audio source separation using multiresolution convolutional auto-encoders. arXiv preprint arXiv:1803.00702, 2018.
[5] D. Griffin and Jae Lim. Signal estimation from modified short-time fourier transform. IEEE Transactions on Acoustics, Speech, and Signal Processing, 32(2):236–243, 1984.
[6] Po-Sen Huang, Minje Kim, Mark Hasegawa-Johnson,and Paris Smaragdis. Singing-voice separation from monaural recordings using deep recurrent neural networks. In International Society for Music Information Retrieval (ISMIR), pages 477–482, 2014.
[7] Andreas Jansson, Eric J. Humphrey, Nicola Montecchio,Rachel Bittner, Aparna Kumar, and Tillman Weyde.
Singing voice separation with deep U-Net convolutional networks. In Proceedings of the International Society for Music Information Retrieval Conference (ISMIR),pages 323–332, 2017.
[8] Jonathan Le Roux, Nobutaka Ono, and Shigeki Sagayama. Explicit consistency constraints for STFT spectrograms and their application to phase reconstruction. In SAPA@ INTERSPEECH, pages 23–28, 2008.
[9] Antoine Liutkus, Derry Fitzgerald, and Zafar Rafii.
Scalable audio separation with light kernel additive modelling. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),pages 76–80. IEEE, 2015.
[10] Antoine Liutkus, Fabian-Robert Stoter, Zafar Rafii, ¨Daichi Kitamura, Bertrand Rivet, Nobutaka Ito, Nobutaka Ono, and Julie Fontecave. The 2016 signal separation evaluation campaign. In Proceedings of the International Conference on Latent Variable Analysis and Signal Separation (LVA/ICA), pages 323–332, 2017.
[11] Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani. Deep clustering and conventional networks for music separation: Stronger together. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 61–65, 2017.
[12] Yi Luo and Nima Mesgarani. Tasnet: time-domain audio separation network for real-time, single-channel speech separation. CoRR, abs/1711.00541, 2017.
[13] Marius Miron, Jordi Janer Mestres, and Emilia Gomez Guti ´ errez. Generating data to train convolutional ´neural networks for classical music source separation.
In Proceedings of the 14th Sound and Music Computing Conference. Aalto University, 2017.
[14] Aditya Arie Nugraha, Antoine Liutkus, and Emmanuel Vincent. Multichannel audio source separation with deep neural networks. PhD thesis, Inria, 2015.
[15] Augustus Odena, Vincent Dumoulin, and Chris Olah.
Deconvolution and checkerboard artifacts. Distill, 2016.
[16] Santiago Pascual, Antonio Bonafonte, and Joan Serra.
Segan: Speech enhancement generative adversarial network. arXiv preprint arXiv:1703.09452, 2017.
[17] Zafar Rafii, Antoine Liutkus, Fabian-Robert Stter,Stylianos Ioannis Mimilakis, and Rachel Bittner. The MUSDB18 corpus for music separation, 2017.
[18] Dario Rethage, Jordi Pons, and Xavier Serra. A wavenet for speech denoising. CoRR, abs/1706.07162, 2017.
[19] O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 234–241. Springer, 2015.
[20] Andrew JR Simpson, Gerard Roma, and Mark D Plumbley. Deep karaoke: Extracting vocals from musical mixtures using a convolutional deep neural network. In International Conference on Latent Variable Analysis and Signal Separation, pages 429–436. Springer, 2015.
[21] Daniel Stoller, Sebastian Ewert, and Simon Dixon. Adversarial semi-supervised audio source separation applied to singing voice extraction. In Proceedings of the IEEE International Conference on Acoustics, Speech,and Signal Processing (ICASSP), pages 2391–2395,Calgary, Canada, 2018. IEEE.
[22] F.-R. Stoter, A. Liutkus, and N. Ito. The 2018 Signal ¨Separation Evaluation Campaign. ArXiv e-prints, 2018.
[23] S. Uhlich, M. Porcu, F. Giron, M. Enenkl, T. Kemp,N. Takahashi, and Y. Mitsufuji. Improving music source separation based on deep neural networks through data augmentation and network blending. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 261–265, March 2017.
[24] Shrikant Venkataramani and Paris Smaragdis. End-toend source separation with adaptive front-ends. CoRR,abs/1705.02514, 2017.
[25] E. Vincent, R. Gribonval, and C. Fevotte. Performance measurement in blind audio source separation. IEEE Transactions on Audio, Speech, and Language Processing, 14(4):1462–1469, 2006.

WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION-----论文翻译相关推荐

Neural Network Aided SC Decoder for Polar Codes（论文笔记）
Neural Network Aided SC Decoder for Polar Codes阅读笔记研究背景: 从理论上讲,只要有足够的规模和足够的训练,就可以完全用神经网络(NN)来代替传统的极 ...
Complex Spectral Mapping With Attention Based Convolution Recurrent Neural Network（省略）---论文翻译
基于注意力的卷积递归神经网络的复杂频谱映射,用于语音增强 Liming Zhou1, Yongyu Gao1,Ziluo Wang1,Jiwei Li1,Wenbin Zhang11CloudWalk ...
论文翻译：2020_TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids
论文地址:TinyLSTMs:助听器的高效神经语音增强音频地址:https://github.com/Bose/efficient-neural-speech-enhancement 引用格式:Fe ...
论文翻译：2020_DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement...
论文地址:DCCRN:用于相位感知语音增强的深度复杂卷积循环网络论文代码:https://paperswithcode.com/paper/dccrn-deep-complex-convolutio ...
Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling论文阅读
<Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling& ...
(zhuan) Recurrent Neural Network
Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http://jxg ...
Bayesian Neural Network for regression (PRML)
Bayesian Neural Network : PRML 5.7章节参考代码:https://nbviewer.jupyter.org/github/ctgk/PRML/blob/master ...
【面向代码】学习 Deep Learning Convolution Neural Network(CNN)
转载自: [面向代码]学习 Deep Learning(三)Convolution Neural Network(CNN) - DarkScope从这里开始 - 博客频道 - CSDN.NET htt ...
5.深度学习练习：Deep Neural Network for Image Classification: Application
本文节选自吴恩达老师<深度学习专项课程>编程作业,在此表示感谢. 课程链接:https://www.deeplearning.ai/deep-learning-specialization ...

WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION-----论文翻译

WAVE-U-NET: 一个用于端到端音源分离的多尺度神经网络

WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION-----论文翻译相关推荐

最新文章

热门文章