【WangDeLiangOverview2018】

Supervised Speech Separation Based on Deep Learning: An Overview

DeLiang Wang / Jitong Chen @ Ohio

IEEE/ACM Trans. ASLP2018

【目录】

1. 引入

2. 学习机器(learning machines)

3. 训练目标(training target)

4. 特征

5. 单声道分离

5.1 语音增强(speech separation)

5.2 语音增强的泛化

5.3 语音去混响 & 去噪(speech dereverberation & denoising)

5.4 说话人分离(speaker separation)

6. 多声道分离(阵列分离)

7. 讨论&总结

【正文】

本文对基于DNN的有监督语音分离进行了全面的概述。我们总结了监督分离的关键组成部分,即学习机器、训练目标和声学特征,解释了代表性的算法,并回顾了大量的相关研究。配方的分离问题,监督学习,基础款分离短几年大大升高的最先进的广泛的语音分离任务,包括单耳的语音增强,反混响的演讲中,演讲者分离,以及阵列语音分离。随着领域知识和数据驱动框架的更紧密集成,以及深度学习本身的进步,这种快速发展可能会继续下去。下面我们将讨论与此概述相关的几个概念性问题。

A. 特征VS学习机器

正如第4节所讨论的,特征对于语音分离是很重要的。然而,深度学习的一个主要吸引力是为一项任务学习适当的特征,而不是设计这些特征。那么,特征提取在深度学习时代有什么作用吗?我们相信答案是肯定的。所谓的no-free-lunch定理[189]指出,任何学习算法,包括DNN,都不能在所有任务中取得优异的性能。除了理论上的争论,特征提取是一种从问题领域中传授知识的方法,它是有理由的,它是有用的,以这种方式整合领域知识(见[176]最近的一个例子)。例如,CNN在视觉模式识别方面的成功部分是由于在其架构中使用了共享权和池(采样)层,这有助于建立对特征位置[10]的小变化不变的表示。为问题领域学习有用的特征是可能的,但这样做可能不是计算效率,特别是当通过领域研究已知某些特征具有歧视性时。以沥青为例。大量的听觉场景分析研究表明,音高是听觉组织[15][30]的主要线索,CASA的研究表明,音高本身就可以很好地分离语音[78]。也许DNN可以通过训练来“发现”和声作为一个显著特征,最近的研究[24]对此有一些提示,但提取音高作为输入特征似乎是将音高纳入语音分离的最直接方法。

以上讨论并不意味着不考虑学习机的重要性,因为这一概述已经使非常清楚,但争论的相关性特征提取,尽管深度学习的力量。正如在5.1节中提到的, CNN中的卷积层相当于特征提取。虽然CNN的权重是经过训练的,但是特定CNN架构的使用反映了用户的设计选择。

B. 时频域VS时域

绝大多数有监督语音分离研究都是在T-F领域进行的,这反映在第3节中回顾的各种训练目标中。另外,语音分离可以在时域进行,而不求助于频率表示。如V.A节所指出的,通过时间映射,大小和相位都可以立即清除。端到端分离是随着CNN和GAN的使用而出现的一个新趋势。我有几点意见。首先,时间映射是一种受欢迎的监督分离方法列表,并为相位增强[50]提供了独特的视角[103]。其次,同一信号可以在时域表示和T-F域表示之间来回转换。第三,人类听觉系统在听觉通路的起点,即耳蜗处有一个频率维度。值得注意的是,Licklider的经典的双工音高感知理论假设了两个音高分析过程:一个空间过程对应于耳蜗的频率维度,一个时间过程对应于每个频率通道的时间响应[111]。基音估计的计算模型分为三类:光谱、时间和谱时方法[33]。从这个意义上说,一个带有人工耳蜗滤波器组[118][172]的个体响应的耳蜗报是一种双工表示。

C. 目标是什么?

当声环境中存在多种声音时,哪一种声音应在特定时间作为目标声音处理?理想掩码的定义假定目标源是已知的,这在语音分离应用中经常是这样的。在语音增强中,以语音信号为目标,以非语音信号为干扰。多说话者分离的情况变得棘手。一般来说,这是听觉注意力和意图的问题。这是一个复杂的问题,因为即使是在相同的输入场景下,也要从一个时刻转移到下一个时刻,而且不一定是语音信号。不过,还是有一些切实可行的解决方案的。例如,定向助听器通过假设目标位于视线方向,即利用视觉[170][35]来解决这个问题。分离信号源后,还有其他合理的目标定义选择,例如最响的信号源,先前参与的信号源(即跟踪),或最熟悉的信号源(如多扬声器情况)。然而,完整的叙述需要一个听觉注意的诡辩模型(见[172][118])。

D. 解决鸡尾酒会问题的解决方法应该是怎样的?

CASA将鸡尾酒会问题的解决方案定义为一个在所有聆听条件下实现人类分离性能的系统([172],p.28)。但是如何比较机器和人的分离性能呢?也许比较不同听力条件下的ASR分数和人类语言可理解性分数是一个简单的方法。这是一个艰巨的任务,因为尽管深度学习在最近取得了巨大的进步,但ASR的性能在现实条件下仍然不足。ASR评估的一个缺点是依赖于ASR及其所有特性。

这里我们提出了一个不同的,具体的措施:鸡尾酒会的一个解决方案是一个分离系统,在所有听障的情况下,将听障听众的言语清晰度提高到正常听众的水平。虽然不像CASA中定义的那么广泛,但这一定义的好处是它与语言分离研究的主要驱动力紧密相连,即消除数百万听力受损的听者的语言理解障碍[171]。根据这一定义,上述基于DNN的语音增强在有限条件下(如图13所示)达到了标准,但显然不是在所有条件下都达到了标准。多功能性是人类智能的标志,也是当今有监督语音分离研究面临的主要挑战。

在结束之前,我们指出监督学习和DNN在信号处理中的使用超越了语音分离和自动语音和说话人识别。相关主题包括多音高跟踪[80][56],语音活动检测[207],甚至是信号处理中最基本的任务,如信噪比估计[134]。无论任务是什么,一旦它被定义为一个数据驱动的问题,各种深度学习模型和适当构建的训练集的使用都可能带来进步;还应该提到的是,这些进步是以训练过程中涉及的高计算复杂度为代价的,而且通常是在操作训练过的DNN模型时。将信号处理视为学习的一个相当大的好处是,信号处理可以利用机器学习的进展,这是一个快速发展的领域。

最后,我们指出,人类解决鸡尾酒会问题的能力似乎与我们大量暴露在各种嘈杂环境中有很大关系(参见[24])。研究表明,儿童在噪音中识别语音的能力比成人[54]差[92],而音乐家在感知噪音语音方面比非音乐家更好[135],这可能是因为音乐家长期接触多音信号。相对于单语者,双语者在噪音的言语感知方面存在缺陷,尽管两组人在安静环境下同样精通[159]。所有这些效果都支持了这样一种观点,即广泛的训练(经验)是正常听觉系统对声音干扰具有显著鲁棒性的部分原因。

WangDeLiangReview2018 - (7)讨论总结相关推荐

  1. TVM/Relay 的 PartitionGraph()(mod) 函数讨论整理

    TVM/Relay 的 PartitionGraph()(mod) 函数讨论整理 TVM/Relay 的图形分区功能.以下简单示例,错误信息. PartitionGraph() 函数指定图形是用带有 ...

  2. 关于 RMAN 备份 数据块 一致性的讨论

    今天和 杭州恒生 的一个朋友讨论一个RMAN 在备份时数据块一致性的问题. 关于RMAN 的备份原理参考blog: RMAN 系列(一)---- RMAN 体系结构概述 http://blog.csd ...

  3. 分布式系统 一致性模型的介绍 以及 zookeeper的 “线性一致性“ 讨论

    文章目录 1. 一致性 概览 1.1 分布式系统的 "正确性" 1.2 线性一致性(Linearizability) 1.3 顺序一致性(Sequential consistenc ...

  4. HTML中常见的各种位置距离以及dom中的坐标讨论

    最近在学习JavaScript,特意买了一本犀牛角书来看看,尼玛一千多页,看的我头昏脑涨,翻到DOM这章节,突然记起平常在使用DOM时,碰到了好多的这个dom里面的各种宽度,高度,特意在此写一写,写的 ...

  5. 深入讨论.NET Socket的Accept方法

    深入讨论.NET  Socket的Accept方法 考虑一个问题,假如同时有50个连接请求进入一个服务器(这种情况对于普通负载的Web服务器都是很常见的)会怎么样?阻塞式I/O只能循环调用Accept ...

  6. 关于何种情况下使用DataGrid、DataList或Repeater的一些讨论

    作者:Scott Mitchell [概述] WEB开发自从有了基于脚本的WEB编程技术(如ASP)以来,经历了一个漫长的过程.通过使用微软的ASP.Net技术,传统的ASP中大量的.单调乏味的.重复 ...

  7. 现代软件工程 第十章 【典型用户和场景】 练习与讨论

    1. 讨论:下面的老板犯了什么错误? 只看用户的表面语言或行动还是不够的.我们还要找到用户语言行动背后的动机! (图像来源: http://www.weibo.com/funnyshoelace) 2 ...

  8. Java虚拟机JVM学习06 自定义类加载器 父委托机制和命名空间的再讨论

    Java虚拟机JVM学习06 自定义类加载器 父委托机制和命名空间的再讨论 创建用户自定义的类加载器 要创建用户自定义的类加载器,只需要扩展java.lang.ClassLoader类,然后覆盖它的f ...

  9. 关于比特币现金升级问题讨论不断升温

    过去几周,比特币现金的支持者一直在讨论定于今年11月15日推出的硬叉.大多数人都明白,目前有两个阵营有着完全不同的愿景.看来双方在短期内不会达成妥协.最近,随着时间的推移,双方都在测试某些特性,并发表 ...

最新文章

  1. mysql mgr应用场景_悄悄告诉你 MySQL MGR 牛在哪?
  2. python 图片 转 pdf
  3. 数据结构实验之串一:KMP简单应用
  4. ML之DR之SVD:SVD算法相关论文、算法过程、代码实现、案例应用之详细攻略
  5. html树形多选下拉列表,EasyUI 多行树形下拉框(Multiple ComboTree)_Vue EasyUI Demo
  6. android 下滑,Android实现下滑和上滑事件
  7. Redis数据库的连接
  8. OpenCV中的仿射变换
  9. ElasticSearch 各模块介绍及参数配置详解
  10. 阻尼衰减曲线用python_阻尼的反击 | 被半篇论文爆脑两次是一种什么体验
  11. 为什要学习烹饪?学习烹饪迫在眉睫
  12. ReactNative配合node.js实现的公司通讯录管理app
  13. 中频逆变IGBT控制板 感应加热电源 中高频电阻焊电源逆变技术
  14. 去中介化的租房EOS DAPP,实现租客与房东互赢
  15. MFC实现文字随鼠标移动
  16. PHPstrom + xdebug + postman断点调试代码 php谷歌浏览器代码断点调试
  17. java地理坐标转屏幕_(转)经纬度坐标转换为屏幕坐标
  18. java实现dwg转pdf
  19. 实现redis连接池以及管道
  20. uni-app 安装配置安卓手机模拟器

热门文章

  1. 点清垃圾渗滤液脱色剂的现场应用和数据
  2. java aes对称加密算法_JavaAES128对称加密算法实现
  3. 基于java的毕业设计_计算机专业的小白,不会做毕业设计怎么办,要是自己学选哪个方面比较容易一点。?...
  4. 20210416 word插入题录却有图片嵌入word
  5. 遮罩层——通过阴影弱化背景的四种方案
  6. 【Cucumber系列】Junit Test Runner和CucumberOptions
  7. android 获取当前坐标,Android获取位置信息的方法
  8. 科普:alphago是什么
  9. Python break语句:多层循环中break是终止(或跳出)本层(也即所在层)循环,后者说是跳出最内层循环。也就是break只能跳出一层循环而不是多层循环
  10. 页面无限刷新,JS修改当前页面地址,是界面不再刷新