深度吸引子网络 Deep attractor Net单通道语音分离文献汇总

论文一：(DANet)基于单麦克风语音分离的深度吸引子网络
核心工作：提出了在高维空间中嵌入吸引子（Attractor）将时频信息整合来训练的网络，模型实现了端到端的训练，分离不需要知道混合源的数量。

分离的难点：
1. 排序问题：混合语音会出现多个标签，无法分清属于哪个；
2. 输出维度不匹配（标签不明确）：不清楚具体有几个声源
深度聚类（DPCL）特点：能解决以上两点问题，但目标函数是各声源之间的关联性，因此不能执行端到端的映射。
置换不变训练（PIT）特点：该方法假设声源数量固定，因此存在输出维度不匹配的问题，由于样本段和样本内之间排列不一致，预测窗口要远小于上下文窗口（context window）
吸引子：提出这种感知效应表明，大脑回路产生感知吸引子(磁铁)，使刺激空间扭曲，从而吸引离刺激空间最近的声音，这种现象被称为“感知磁铁效应”.
测试阶段的吸引子设置：
1. 类似于DC的使用K均值算法确定中心；
2. 实验发现吸引子位置相对稳定，因此可以通过观测得出。
与DC对比：
1. 基本的DAN已经超过DC性能了
2. 不断调整吸引子的形成效果更好，如联合优化网络参数
3. 运用课程培训策略（curriculum training strategy），继续用400帧长的输入进行训练效果更好
4. 固定的吸引子效果略差于用K均值得出的吸引子，但说话人增多时更灵活便于实时处理
三说话人的情况下DAN效果更明显，原理在于DC预测的是IBM而DAN关注的是信号重构。

论文二：基于DANet的独立声源语音分离
核心工作：在原DANet基础上提出第三种寻找声源嵌入空间中的吸引子方法，并进行训练、测试阶段的实现
声源分离方法概述：
1. 统计方法，高斯分布或独立成分分析（ICA）
2. 聚类法：计算听觉场景分析（CASA）、光谱聚类
3. 因式分解法：非负矩阵分解（NMF）
4. 经典深度学习法：在给定T-F域直接估计mask，一般为有监督地单类或多类回归问题
5. DPCL、PIT等
DPCL特点：
1. 能够解决排列和输出维度不匹配问题，性能较好
2. mask是通过与神经网络分开的后聚类完成，因此无法将重建误差用作优化目标
3. 改进：通过展开的软聚类子系统进行最小化分离误差求出掩码和增强网络的掩码达到了更好的效果
PIT特点：
1. 通过计算混合声源的PIT目标损失来更新网络最低错误解决排列问题
2. 通过假设最大声源数量并使用空输出目标来解决维度不匹配问题
模型步骤：
1. 在每个T-F块生成一个高维嵌入空间（与DPCL相似）
2. 在嵌入空间中形成吸引子，将属于该声源的TF块拉向自身，造成空间中的声源分离开来
3. 利用每个嵌入空间和吸引子的相似性来估计混合语音中每个声源的mask（DPCL使用亲和矩阵来衡量和嵌入空间的相似性）
4. 由于掩模的顺序与吸引子直接相关，因此在吸引子确定之后掩模顺序也可以确定下来
5. 设定一组锚点，便可以不通过后聚类直接估计声源掩码
嵌入空间：
1. 基于认识：类似于有监督分类
2. 数据驱动：类似于无监督聚类
与DPCL、PIT比较：
1. 使用计算使用更简单的目标函数直接优化重建误差，而不是DPCL的亲和矩阵，而且可以地利用利用相位感知掩模和相位敏感掩模来计算
2. 由于吸引子的动态形成性质是它在嵌入空间中具有语音级别的灵活性，并且由于吸引子的数量是在训练阶段根据声源分配函数决定的，因此数量不固定
3. 吸引子跟权重本质相似，当他们相同时DAN简化为一个分类网络DNN，因此必须进行PIT使mask能与声源相关联。
吸引子求法：
1. 在嵌入空间进行聚类
2. 先估计训练阶段的吸引子，然后在测试阶段求平均值即为固定吸引子
3. 锚点算法

锚点算法：
1. 在训练阶段设定几个可训练的参考点作为锚点，
2. 在测试阶段对锚点做EM迭代并计算相似度求得吸引子
3. 设定锚点即为期望步骤E，形成吸引子即为最大化步骤M
4. 优点：解决了DPCL产生的训练和测试聚类中心不匹配的问题，不增加网络参数，还保持了聚类估计的灵活性
5. 缺点：需要做EM迭代，增加了计算量
实验一：研究不同阈值的吸引子效果
1. 与没有阈值相比，使用％90阈值可以获得更好的性能，说明准确估计吸引子对mask的重要
2. 虽然具有理想扬声器分配的Softmax导致比Sigmoid更高的性能，但是用于Softmax网络的K-means的性能比Sigmoid网络更差，说明Softmax网络中的K-means性能高度依赖于网络如何被优化（即，使用不同初始值训练的不同网络可能具有非常不同的性能）
3. Drop-out等训练策略并不能保证提升聚类性能
4.
实验二：锚点数量的对Softmax结构网络生成mask的影响
1. 锚点数量增加性能不断提升
2. 在BLSTM添加drop-out能提升性能，也体现出没有后聚类步骤的网络优点
3.
实验三：DANet与DPCL、PIT比较
1. 在双声源中一级系统中DANet效果最好，六个锚点的ADANet比其他DAN效果更好，仅次于二级DPCL
2. 在三声源中以及一级的DAN甚至好于二级的所有其他系统
3. WFM
4.
实验四：两、三个声源混合测试
1. DANet K均值聚类在双声源效果不错但三声源效果较差，可能是因为Softmax功能在双声源情况下嵌入空间分离较少，但ADANet经过配置好于PIT的一二级系统
2. ADANne成功检测出两声源测试集中的声源数量，说明在两、三混合声源训练期间在不牺牲三声源分离性能的情况下很好地附加零掩码使网络学习两个以下的mask
3. 说明ADANet能在不同数量源混合训练集中选择适当的锚点进行声源分配估计
4.

深度吸引子网络 Deep attractor Net单通道语音分离文献汇总相关推荐

滴滴单通道语音分离与目标说话人提取和抑制技术进展
桔妹导读:为了将目标语音从含多种干扰(如车噪.导航音.车内FM等)的复杂声学环境中分离出来同时尽量减小对原始语音的损伤,提高人机交互.客服听音等的效率,滴滴结合了在前端信号处理的多年研发积累与该领域的 ...
语音顶会 ICASSP 2022 成果分享：基于时频感知域模型的单通道语音增强算法
近日,阿里云视频云音频技术团队与新加坡国立大学李海洲教授团队合作论文 <基于时频感知域模型的单通道语音增强算法 >(Time-Frequency Attention for Monaura ...
功率谱魏凤英统计程序_单通道语音增强之统计信号模型
[欢迎访问我的博客原文](单通道语音增强之统计信号模型) 1. 信号估计理论简述信号估计理论是现代统计处理的基础课题[@ZhangXianDa2002ModernSP],在通信.语音.图像领域均有广 ...
基于盲估计和ICA的单通道盲分离算法–Matlab仿真
关键词:参数盲估计.单通道.盲分离.ICA算法盲源分离简单的来讲就是在不明确系统的传输特性的前提下,从系统的源信号估计出观测信号的传输信道. 假设n个未知的源信号,各传感器接收到m个混合的观测信号, ...
单通道语音信噪分离算法研究
单通道语音信噪分离算法研究摘要:为了评估单通道语音信噪分离的效果,本文分别对六种传统语音增强算法进行了探讨.在理想的高斯白噪声环境下,子空间法增强后的语音信号输出信噪比SNR最大,VMD(Varia ...
毕业设计-基于深度学习的单通道语音降噪技术
目录前言课题背景和意义实现技术思路一.基于子空间投影的时域语音降噪二.基于噪声信息辅助的双阶段语音降噪三.感知高相关时频损失函数研究实现效果图样例最后前言
深度学习在语音分离的应用
基于深度学习的有监督语音分离在学术界和工业界越来越受到关注,也是深度学习在语音领域的应用中重要的一部分.这个主题社长曾经邀请搜狗语音研究员文仕学做过分享. 以下是他的分享内容,点击查看更多往期回顾: ...
【论文综述】基于深度学习语音分离技术的研究现状与进展
基于深度学习语音分离技术的研究现状与进展本文主要是针对单通道的监督性语音分离技术的综述,描述该技术涉及到的特征.模型和目标三个主要方面:并对语音分离的一般流程和整体框架进行了详细的介绍.归纳和总结. ...
（全文翻译）基于深度残差收缩网络的故障诊断Deep Residual Shrinkage Networks for Fault Diagnosis
M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, I ...
《Deep residual shrinkage networks for fault diagnosis》基于深度残差收缩网络的故障诊断（翻译与python代码）
基于深度残差收缩网络的故障诊断(翻译) 赵明航,钟诗胜,付旭云,汤宝平,Michael Pecht 论文连接:https://ieeexplore.ieee.org/document/8850096 ...

深度吸引子网络 Deep attractor Net单通道语音分离文献汇总

深度吸引子网络 Deep attractor Net单通道语音分离文献汇总相关推荐

最新文章

热门文章