本文介绍了用于研究人员的基于pytorch的音频源分离工具包Asteroid。受到最成功的神经源分离系统的启发,它提供了建立这样一个系统所需的所有神经构建模块。为了提高再现性,还提供了常见音频源分离数据集的 Asteroid’s recipes。本文介绍了Asteroid的软件体系结构及其主要功能。通过展示实验结果获得的Asteroid’s recipes,可以看见我们的实验结果取得了比较好的效果。

代码提供在github.com/mpariente/asteroid.

目录

1.介绍

2.框架

3. 数据集

4.pipeline

4.结论

1.介绍

声源分离旨在将混合信号分离成单个的声源信号,是在真实声学环境中实现鲁棒语音处理的关键。经典的开源工具包,如fast、HARK、ManyEars和openBliSSART,它们基于概率建模、非负矩阵分解、声源局部化和/或波束形成,在过去的十年中已经取得了成功。然而,它们现在在很大程度上被基于深度学习的方法超越,至少在单通道信源分离的任务上是这样。

其他还有一些开源的包,用于声源的分离。比如有nussl,onssen,open-unmix。但是存在一系列的问题,比较明显的是,他们并不会全部提供数据集,或者没有提供完整的pipeline。

Asteroid用户友好的,容易扩展,促进可复制的研究,并使易于实验。因此,它支持广泛的数据集和架构,并提供重现一些重要论文的配方。Asteroid是建立在以下原则:

1.尽可能使用自然地pytorch代码

2.允许较小的第三方改动

3.按照需要可配置

2.框架

Asteroid 不是单框架任务short-time Fourier trans- form (STFT)-like representation。遵循编码器-掩码-解码器的方法,并提供各种选择的filterbanks,masker networks, and loss functions。它还为几个数据集training and evaluation tools and recipes。

这里的masker网络,Asteroid主要使用的是TasNet's 的LSTM网络。以及DPRNN(多路径循环神经网络)。

3. 数据集

wsj0-2mix和wsj0-3mix、WHAM、WHAMR、LibriMix  FUSS、微软深层噪声抑制挑战数据集(DNS)、SMS-WSJ、Kinect- WSJ、MUSDB18。wsj0-2mix和MUSDB18分别是目前用于语音和音乐分离的参考数据集。WHAM、WHAMR、LibriMix、SMS-WSJ和Kinect-WSJ是最近发布的数据集,它们解决了wsj0-2mix的一些缺点。FUSS是第一个处理任意声音分离的开源数据集。注意,wsj0-2mix是WHAM的一个子集,WHAM是WHAMR的一个子集。

使用pb bss eval4执行评估,这是pb bss5的一个子工具包,专门为评估而编写。它原生支持用于源分离的大多数指标:SDR、信噪比(SIR)、信伪比(SAR)、SI-SDR、PESQ和短时目标可解性(STOI)。

4.pipeline

4.结论

在本文中,我们介绍了一个新的开源音频源分离工具包Asteroid,它专为研究人员和实践者设计。对比实验表明,在不同的数据集和不同的体系结构下,使用Asteroid获得的结果是有竞争力的。该工具包被设计成可以快速扩展为新的网络架构或新的基准数据集。在不久的将来,预训练模型将可用,我们打算与ESPNet接口,以实现端到端多说话人语音识别。

22. Asteroid: the PyTorch-based audio source separation toolkit for researchers相关推荐

  1. WAVE-U-NET: A MULTI-SCALE NEURAL NETWORK FOR END-TO-END AUDIO SOURCE SEPARATION-----论文翻译

    WAVE-U-NET: 一个用于端到端音源分离的多尺度神经网络 作者:Daniel Stoller.Sebastian Ewert.Simon Dixon 摘要:   音频源分离模型通常在幅度频谱上操 ...

  2. Audio Source 音频源

    转自:http://www.ceeger.com/Components/class-AudioSource.html 音频源(Audio Source)在场景中播放音频剪辑(Audio Clip).如 ...

  3. 【Unity】Audio Source组件——用代码动态控制音效的播放、暂停

    1.代码控制播放.暂停.停止 给游戏物体添加Audio Source组件 把音频文件拖入Audio Source组件的AudioCilp中 创建一个脚本并挂载 using System.Collect ...

  4. Unity 声音组件 Audio Source(声源)和Audio Listener(声音接收者)

    Audio Source(声音源,发出声音的东西)可以有多个 Audio Listener(声音接收者)只能有一个 AudioClip  拖入声音片段 Output   默认为AudioListene ...

  5. 解决android调用录音不成功,h5录音权限问题android notReadableError Could not start audio source

    解决android调用录音不成功,h5录音权限问题 navigator.mediaDevices.getUserMedia not work on android <uses-permissio ...

  6. Electron常见问题 60 - 报错:Could not start audio source

    目录 需求 问题 解决 第一个原因 第二个原因 <Electron实战>系列-总览_Data-Mining的博客-CSDN博客_electron实战教程欢迎大家阅读

  7. 盲源分离(BSS, Blind Source Separation)

    数学描述: 假设N个统计独立的未知信号S(t) 经过未知信道A的传输后由M个传感器检测获得M个观测信号 整个传输过程的数学模型为: 为M维观测矢量,为N维未知源信号矢量,为M维加性信道噪声,A为维传递 ...

  8. Unity零基础到进阶 ☀️| 音频源Audio Source组件 详解

    [Unity3D组件使用指南]AudioSource组件 详解 一.组件介绍 二.组件属性面板 三.代码操作组件 四.组件常用方法示例 五.组件相关扩展 1.在Unity中听不到声音的问题 总结

  9. arXiv每日推荐-5.16:语音/音频每日论文速递

    同步公众号(arXiv每日学术速递) [1] Semi-supervised Neural Chord Estimation Based on a Variational Autoencoder wi ...

  10. 论文翻译:Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation

    我醉了呀,当我花一天翻译完后,发现已经网上已经有现成的了,而且翻译的比我好,哎,造孽呀,但是他写的是论文笔记,而我是纯翻译,能给读者更多的思想和理解空间,并且还有参考文献,也不错哈,反正翻译是写给自己 ...

最新文章

  1. 菜鸟成长日记(一)之WMIC简单命令应用
  2. Lucene.Net无障碍学习和使用:搜索篇
  3. linux中sed命令用例,Linux中使用sed命令或awk命令修改常规配置文件
  4. 05 - @property 后面所加的关键词
  5. Elasticsearch是如何实现master选举的?
  6. 基于JAVA+SpringMVC+Mybatis+MYSQL的实习生招聘网站
  7. jquery叠加页片自动切换特效
  8. Scribe安装问题
  9. php 循环获取分类,PHP 循环删除无限分类子节点
  10. 如何利用ThoughtWorks.QRCode 生成二维码
  11. [Iphone开发]如何在GDB中查看变量的值
  12. 如何自学C语言(一个菜鸟的学习路)
  13. 电机控制初学入门资料_电机控制如何入门
  14. LZY的CQU水下机器人视觉学习笔记(一)
  15. 【批处理DOS-CMD命令-汇总和小结】-注册表编辑命令reg,如何用cmd命令打开注册表编辑器regedit
  16. 程序设计基础—什么是逻辑与、或、非关系?
  17. 【转】手机充电器原理
  18. 关于置信度和置信区间的解释
  19. jupyter中显示行数_如何在Jupyter Noteb中显示所有行
  20. 如何科学预测后代的身高

热门文章

  1. opencv中的颜色通道BGR与常规颜色通道RGB的差异
  2. 怎么用计算机圣诞节快乐,【计算机·图文】圣诞节快乐—圣诞节故事
  3. 大白教你一分钟识别图片中的文字
  4. android ios相机,曝苹果iOS13相机加入了这项功能 安卓上早就有了
  5. Windows中MSOCache文件夹
  6. 新西兰八大名校--新西兰公立大学
  7. 快速排序(萝卜填坑算法)【必会知识】
  8. 微信小程序网易云音乐
  9. 科学计算机调成了fx,科学计算器怎么编程
  10. 用MATLAB实现对运动物体识别与跟踪