Speech separation 现在大热的一个方向,西雅图的腾讯一直在作者方面的研究,chime6上俞老师讲了一个多小时的他们的工作就能证明该方向有多火, 当前有很多深度学习的方法如deep-clustering, PIT, utterance-PIT, conv-tasnet, dual-rnn, 效果都不错,时频单元到时域单元。

但会发现很多论文或者网上有的开源的代码都需要WSJ0数据来做, 这个数据集是要钱的,很贵。 并且原有的数据准备脚本是骂matlab的,很难集成在一个项目里面去,有些人没有matlab更无法用。 所以我自己做了一个python的separation数据准备的脚本,并且开源出来给大家,给社区做做贡献。

此代码可以对所有数据集进行separation的数据准备工作, 比如很容易获取到的timit, aishell。 要求只有你的数据集中包括了train和test两个子目录即可, 你用了该数据准备库之后再去自己参考github上大多数的开源separation模型或者自己实现的separation模型都可以run的。当然你可以阅读我里面的代码进行修改,代码都很简单,除了有一个函数比较复杂你可能看不懂。

如果觉得好,请去github给个star,此博文点个赞。 谢谢各位

该数据准备代码的链接,我的github:

speech separation数据准备

这个代码过几天等我有空会有更新,之前的有点问题,并且太慢了,还有一些边界没设置好。

接下去的版本会对训练数据开放一个接口去选择是否新增噪声和混响,并且能直接嵌入模型训练的dataloader, 尽情期待。

顺便说说,目前单通道分离在真实条件下会有很大的问题,所以各位最好是混点噪声和混响去训练,特征工程以及mask也可以响应的换一些比较新的方法比如crn啥的,

训练数据相对应的label也需要依据混响来进行对齐或者混了同一个混响之后取直达声

语音分离speech separation数据准备,开源相关推荐

  1. 语音分离--学习笔记(2)

    根据说话人(麦克风)的数目,通常将语音分离任务分为单通道(Singlechannel)语音分离和麦克风阵列(Multi-channel)的语音分离. 对于时频域的语音分离需要将时域的语音信号进行短时傅 ...

  2. 单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

    单通道说话人语音分离--Conv-TasNet模型(Convolutional Time-domain audio separation Network) 参考文献:<Conv-TasNet: ...

  3. ICASSP 2023论文模型开源|语音分离Mossformer

    人类能在复杂的多人说话环境中轻易地分离干扰声音,选择性聆听感兴趣的主讲人说话.但这对机器却不容易,如何构建一个能够媲美人类听觉系统的自动化系统颇具挑战性. 本文将详细解读ICASSP2023本届会议收 ...

  4. 滴滴单通道语音分离与目标说话人提取和抑制技术进展

    桔妹导读:为了将目标语音从含多种干扰(如车噪.导航音.车内FM等)的复杂声学环境中分离出来同时尽量减小对原始语音的损伤,提高人机交互.客服听音等的效率,滴滴结合了在前端信号处理的多年研发积累与该领域的 ...

  5. 深度学习在语音分离的应用

    基于深度学习的有监督语音分离在学术界和工业界越来越受到关注,也是深度学习在语音领域的应用中重要的一部分.这个主题社长曾经邀请搜狗语音研究员文仕学做过分享. 以下是他的分享内容,点击查看更多往期回顾: ...

  6. 论文翻译:Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation

    我醉了呀,当我花一天翻译完后,发现已经网上已经有现成的了,而且翻译的比我好,哎,造孽呀,但是他写的是论文笔记,而我是纯翻译,能给读者更多的思想和理解空间,并且还有参考文献,也不错哈,反正翻译是写给自己 ...

  7. 【深度学习人类语言处理】3 语音转换——类别(特征分解、直接转换)、语音分离(评价指标、深度聚类、PIT、TaskNet)

    Deep Learning for Human Ianguage Processing 3 1. 语音转换应用场景 2. 语音转换类别 2.1 成对的资料 2.2 不成对的资料 2.2.1 特征分解 ...

  8. 从鸡尾酒会问题入门语音分离

    前言 谷歌这篇文章<Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for S ...

  9. 【论文笔记之 Speech Separation Overview】Supervised Speech Separation Based on Deep Learning-An Overview

    本文对汪徳亮于 2017 年在 IEEE/ACM Transactions on Audio, Speech, and Language Processing 上发表的论文进行简单地翻译,如有表述不当 ...

最新文章

  1. 海王必备,我用python写了一个微信机器人和她聊天之后把我拉黑了
  2. Codeforces #499 E Border ( 裴蜀定理 )
  3. 利用GAN原始框架生成手写数字
  4. 构建完整的微服务(三)
  5. html打包apk_将打包彻底一键化!Unity和Jenkins真是绝配
  6. 1.2.3 TCP/PI参考模型(应用层、传输层、网际层、网络接口层)、五层参考模型(应用层、传输层、网络层、数据链路层、物理层)、OSI与TCP/IP参考模型比较(转载)
  7. [转载]MyISAM InnoDB 区别
  8. 【Leetcode 795】Number of Subarrays with Bounded Maximum
  9. ActiveMQ下载与安装(Linux环境下进行)
  10. 爬虫介绍+Jupyter Notebook
  11. 软工课设2021-10-19会议记录
  12. BP神经网络算法基本原理,bp神经网络的算法步骤
  13. 黑马JAVA P177 定时器
  14. 腾讯股票接口API(4)——计算分时线平均值
  15. 做生意的“四大方向”让你看清财富的本质
  16. postgresql Connection to database failed: FATAL: no pg_hba.conf entry for host 10.129.195.161, us
  17. C语言入门(1)——Hello World
  18. docker portainer agent 安装
  19. 腾讯云服务器简单搭建项目
  20. 登陆动网论坛时报“Microsoft JET Database Engine 错误 '80004005' ”

热门文章

  1. 人工神经网络matlab代码,matlab神经网络30例代码
  2. 半双工 Wi-Fi 无线局域网讲解
  3. 【Python】文本转语音库pyttsx3
  4. Office文件自动同步到OneDrive方法
  5. Scrapy-简单应用实例
  6. jQuery ajax bootstrap layui
  7. 清除系统垃圾文件bat
  8. 货币分拣设备行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  9. 网页中添加QQ聊天代码
  10. 电源模块KIM-3R35L 超越KIS3R33S YEC-SD200 KIW3312S