博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI

写歌填词、改换风格、续写音乐的AI,今天又来做编曲人了!

上传一段《Stay》,一键按下:

伴奏和人声就轻松分离。

人声颇有种在空旷地带清唱的清晰感,背景乐都能直接拿去做混剪了!

这样惊人的效果也引发了Reddit热议:

这项研究的主要负责人孔秋强来自字节跳动,全球最大的古典钢琴数据集GiantMIDI-Piano,也是由他在去年牵头发布的。

那么今天,他又带来了怎样的一个AI音乐家呢?

一起来看看。

基于深度残差网络的音源分离

这是一个包含了相位估计的音乐源分离(MSS)系统。

首先,将幅值(Magnitude)与相位(Phase)解耦,用以估计复数理想比例掩码(cIRM)。

其次,为了实现更灵活的幅值估计,将有界掩码估计和直接幅值预测结合起来。

最后,为MSS系统引入一个143层的深度残差网络(Deep Residual UNets),利用残差编码块(REB)和残差解码块(RDB)来增加其深度:

残差编码块和残差卷积块中间还引入了中间卷积块(ICB),以提高残差网络的表达能力。

其中每个残差编码块由4个残差卷积块(RCB)组成,残差卷积块又由两个核大小为3×3的卷积层组成。

每个残差解码块由8个卷积层和1个反卷积层组成。

实验结果

接下来,将这一系统在MUSDB18数据集上进行实验。

MUSDB18中的训练/验证集分别包含100/50个完整的立体声音轨,包括独立的人声、伴奏、低音、鼓和其他乐器。

在训练时,利用上述系统进行并行的混合音频数据增强,随机混合来自同一来源的两个3秒片段,然后作为一个新的3秒片段进行训练。

以信号失真率(SDR)作为评判标准,可以看到ResUNetDecouple系统在分离人声、低音、其他和伴奏方面明显优于以前的方法:

在消融实验中,143层残差网络的表现也证实了,结合有界掩码估计和直接幅值预测确实能够改善声音源分离系统的性能。

作者介绍

这项研究的论文一作为孔秋强,本硕都毕业于华南理工大学,博士则毕业于英国萨里大学的电子信息工程专业。

他在2019年加入字节跳动的Speech, Audio and Music Intelligence研究小组,主要负责音频信号处理和声音事件检测等领域的研究。

论文:
https://arxiv.org/abs/2109.05418

试玩:
https://huggingface.co/spaces/akhaliq/Music_Source_Separation

开源地址:
https://github.com/bytedance/music_source_separation

参考链接:
https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

字节博士搞的AI火了,一键完美分离人声和伴奏 | 在线可玩相关推荐

  1. 男神青涩时纤毫毕现!腾讯AI模型GFPGAN火上GitHub热榜第一,Demo在线可玩

    包浆老图立刻清晰到头发丝是一种怎样的体验? 看这明亮的眼眸.清晰的发丝,原本模糊的人像立刻添了几分灵动: (这就是用AI修复的高圆圆童年照) 时间更久远的历史名人照片也能搞定. 鲁迅先生年轻时意气风发 ...

  2. 女神青涩时纤毫毕现!腾讯AI模型GFPGAN火上GitHub热榜第一,Demo在线可玩

    明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 包浆老图立刻清晰到头发丝是一种怎样的体验? 看这明亮的眼眸.清晰的发丝,原本模糊的人像立刻添了几分灵动: (这就是用AI修复的高圆圆童年照) ...

  3. 女神青涩时纤毫毕现,腾讯 AI 模型 GFPGAN 火上 GitHub 热榜第一,Demo 在线可玩

    来源:量子位 作者:明敏 包浆老图立刻清晰到头发丝是一种怎样的体验?看这明亮的眼眸.清晰的发丝,原本模糊的人像立刻添了几分灵动(这就是用 AI 修复的高圆圆童年照). 甚至时间更久远的历史名人照片也能 ...

  4. 这款AI语音模型让派大星承认自己是钢铁侠,造假小扎对口型,火到挤爆服务器|在线可玩...

    行早 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你敢信,派大星当众宣称自己是钢铁侠,漫威宇宙和比基尼海滩梦幻联动: I am Iron Man! 这深沉憨厚又有点喜感的嗓音,是派大星本星没 ...

  5. 【AI产品】一键去除杂物,Photo Eraser助你拍出美丽照片

    欢迎来到<AI产品>专栏,本专栏面向所有热爱人工智能技术的朋友.同学.在本专栏中,会多多分享给大家不同种类的且新奇有趣的AI产品,对产品中的核心技术进行深度剖析.文章底部会推荐相关核心技术 ...

  6. 【自媒体必备】AI文字转语音,支持多种人声选择,在线生成一键导出【电脑永久版】

    AI文字转语音,支持多种人声选择,在线生成一键导出 软件是电脑版安装版本,大家根据自己安软件的习惯进行安装即可,安装后打开软件即可,且完全免费.语音选择方面就有晓晓.云扬.云希等等常用选择.点击后面的 ...

  7. ai新视觉:一键解决模糊图片高清精准修复

    ai新视觉:一键解决模糊图片高清精准修复 美工在处理照片时,通常会遇到图片模糊不清,提高清晰度依靠PS或其他平面工具处理步骤十分麻烦,人工处理精度难以把控,因此成为客户投诉最多,备受诟病的问题. 通常 ...

  8. CSDN日报190923:盘点那些被AI换脸、一键“脱”衣所滥用的AI模型

    CSDN日报来啦!给大家奉上当日最新鲜的技术干货! 人工智能|盘点那些被AI换脸.一键"脱"衣所滥用的AI模型 作者:beyondma 虽然笔者对于技术的滥用深恶痛绝,但技术本身是 ...

  9. Jina AI创始人肖涵博士解读多模态AI的范式变革

    我们正处于人工智能新时代的风口浪尖,正从单模态大步迈向多模态 AI 时代.在 Jina AI,我们的 MLOps 平台帮助企业和开发者加速整个应用开发的过程,在这一范式变革中抢占先机,构建起着眼于未来 ...

最新文章

  1. 【模型蒸馏】从入门到放弃:深度学习中的模型蒸馏技术
  2. Redis 21问,你接得住不?
  3. beacon帧字段结构最全总结(三)——VHT字段总结
  4. Benny:只处理那些NVARCHAR字段,并且NTEXT也是小于4000个字符时的情况.不管类型.只管长度....
  5. flink1.12在ubuntu下面的编译记录(转载+自己整理)
  6. 公司那些事-关于领导
  7. C++工作笔记-仿大佬使用枚举类型
  8. Jartto: 如何成为一名合格的技术面试官?
  9. 【ios】在真实设备上运行
  10. 小菜鸟一步步打造图书馆外挂之十三:用户编辑界面的实现
  11. docker安装和启动zookeeper,数据导入及导出
  12. XenApp简单部署
  13. 有没有那种免费的办公软件?
  14. Python(pybrain模块)搭建神经网络BPNN
  15. 按键精灵 获取某网站服务器时间,按键精灵如何获得网络时间的毫秒
  16. J-link 固件版本问题
  17. UVa - 11283 - PLAYING BOGGLE
  18. C语言数据类型及typedef下的uint8_t / uint32_t
  19. GC8418 数字光纤音频解码芯片 光纤解码芯片 CS8418替代 MS8413替代
  20. ios开发者添加开发测试机

热门文章

  1. C#调用COM组件遇到的问题及解决办法
  2. 如何使用SQL Server 2008打开和关闭IDENTITY_INSERT?
  3. Vim 80列布局问题
  4. Rocket - diplomacy - AddressSet
  5. Oracle分析函数巧妙使用
  6. [LeetCode] Kth Smallest Element in a BST
  7. 怎样实现前端裁剪上传图片功能
  8. 老男人面试第四家第五家-初创公司和b轮公司
  9. Qt学习之路(29): 绘图设备
  10. 企业建立规范化IT运维管理制度的重要性