在视频剪辑工作中,假设我们拿到了一段电影或者电视剧素材,如果直接在剪辑的视频中播放可能会遭遇版权问题,大部分情况需要分离其中的人声和背景音乐,随后替换背景音乐进行二次创作,人工智能AI库Spleeter可以帮我们完成大部分素材的人声和背景音乐的分离流程。

Spleeter的模型源来自最大的音乐网站Deezer,底层基于深度学习框架Tensorflow,它可以通过模型识别出素材中的背景音乐素材,从而判断出哪些是背景音乐,哪些是外部人声。

Spleeter安装

在终端执行运行pip命令:

pip3 install spleeter --user

安装成功之后,输入命令,检查Spleeter安装路径:

pip show spleeter

程序返回:

PS C:\Users\liuyue\www\videosite> pip show spleeter                                        WARNING: Ignoring invalid distribution -umpy (c:\python39\lib\site-packages)               Name: spleeter                                                                             Version: 2.3.2
Summary: The Deezer source separation library with pretrained models based on tensorflow.
Home-page: https://github.com/deezer/spleeter
Author: Deezer Research
Author-email: spleeter@deezer.com
License: MIT
Location: c:\users\liuyue\appdata\roaming\python\python39\site-packages                    Requires: ffmpeg-python, httpx, librosa, llvmlite, norbert, numpy, pandas, protobuf, tensorflow, typer

说明安装成功。

如果不想在本地搭建深度学习环境,也可以通过Docker镜像安装。关于Docker,请移步:一寸宕机一寸血,十万容器十万兵|Win10/Mac系统下基于Kubernetes(k8s)搭建Gunicorn+Flask高可用Web集群,这里不在赘述。

运行Docker命令:

docker pull deezer/spleeter:3.8-5stems

这里程序加上预训练模型大概需要1.73GB的硬盘空间。

Spleeter分离人声和背景音乐

Spleeter同时支持视频和音频文件的人声和背景音乐分离,Spleeter自带三种预训练模型:

1、人声&伴奏声分离模型 2 stems,分离出两个音轨

2、鼓声、贝斯声及其它声分离模型 4 stems,分离出4个音轨)

3、鼓声、贝斯声、钢琴声及其它声分离模型 5 stems,分离出5个音轨)

后面两种模型相对比较精细,它可以把人声、鼓声、贝斯声、钢琴声各自分离成多个音轨,一般适合音乐行业的专业人士进行使用。

大多数情况下,我们只需要使用第一种模型 2 stems 即可,它将音频分离成两个音轨,人声和背景音乐的声音:

spleeter separate -o /output/ -p spleeter:2stems /test.mp3

这里-o代表输出目录,-p代表选择的分离模型,最后是要分离的素材。

首次运行会比较慢,因为spleeter会下载预训练模型,体积在1.73g左右,运行完毕后,会在输出目录生成分离后的音轨文件:

accompaniment.wav
vocals.wav

accompaniment.wav代表人声,vocals.wav是背景音乐。

如果是基于Docker安装的,则需要运行对应的Docker命令:

docker run -v $(pwd)/output:/output deezer/spleeter:3.8-5stems separate test.mp3 -o /output

结语

Spleeter可以算是免费的人声和背景音乐分离功能的最佳本地方案了,除了影视剧素材的人声和背景音乐分离的二次创作,如果是在外部环境录制的Vlog,环境音非常嘈杂,而又不得不现场录音,那么使用Spleeter也可以将人声从环境音中分离出来,节省了二次录制画外音的环节。

人工智能AI库Spleeter免费人声和背景音乐分离实践(Python3.10)相关推荐

  1. 好饭不怕晚,Google基于人工智能AI大语言对话模型Bard测试和API调用(Python3.10)

    谷歌(Google)作为开源过著名深度学习框架Tensorflow的超级大厂,是人工智能领域一股不可忽视的中坚力量,旗下新产品Bard已经公布测试了一段时间,毁誉参半,很多人把Google的Bard和 ...

  2. 口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)

    不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求.君不见几乎所有的抖音营销号口播均采 ...

  3. 任务拆解,悠然自得,自动版本的ChatGPT,AutoGPT自动人工智能AI任务实践(Python3.10)

    当我们使用ChatGPT完成某些工作的时候,往往需要多轮对话,比如让ChatGPT分析.翻译.总结一篇网上的文章或者文档,再将总结的结果以文本的形式存储在本地.过程中免不了要和ChatGPT" ...

  4. 民谣女神唱流行,基于AI人工智能so-vits库训练自己的音色模型(叶蓓/Python3.10)

    流行天后孙燕姿的音色固然是极好的,但是目前全网都是她的声音复刻,听多了难免会有些审美疲劳,在网络上检索了一圈,还没有发现民谣歌手的音色模型,人就是这样,得不到的永远在骚动,本次我们自己构建训练集,来打 ...

  5. 声音克隆,精致细腻,人工智能AI打造国师“一镜到底”鬼畜视频,基于PaddleSpeech(Python3.10)

    电影<满江红>上映之后,国师的一段采访视频火了,被无数段子手恶搞做成鬼畜视频,诚然,国师的这段采访文本相当经典,他生动地描述了一个牛逼吹完,大家都信了,结果发现自己没办法完成最后放弃,随后 ...

  6. TensorFlow入门教程(16)分离歌曲中的人声和背景音乐

    # #作者:韦访 #博客:https://blog.csdn.net/rookie_wei #微信:1007895847 #添加微信的备注一下是CSDN的 #欢迎大家一起学习 # ------韦访 2 ...

  7. 使用Python扩展库spleeter分离MP3音乐文件中的伴奏和人声

    推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年9月第10次印刷,山东省一流本 ...

  8. 吾剑未尝不利,国内Azure平替,科大讯飞人工智能免费AI语音合成(TTS)服务Python3.10接入

    微软Azure平台的语音合成(TTS)技术确实神乎其技,这一点在之前的一篇:含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入),已经做过详细介绍, ...

  9. 10个最佳的人工智能开发框架和AI库

    10个最佳的人工智能开发框架和AI库 人工智能(AI)已经存在很长时间了.然而,由于这一领域的巨大进步,近年来它已成为一个流行语.人工智能曾经被称为一个完整的书 呆子和天才的领域,但由于各种开发库和框 ...

最新文章

  1. ShopEx安装过程
  2. boost::fusion::for_each用法的测试程序
  3. 【.NET特供-第三季】ASP.NET MVC系列:传统WebForm站点和MVC站点执行机制对照
  4. typedef的四个用途和两个陷阱
  5. nodejs安装失败
  6. Android的事件分发机制
  7. python PEP 487
  8. PyTorch 深度学习:33分钟快速入门——VGG
  9. 130 个相见恨晚的超实用网站,一次性分享出来,十倍提高工作效率
  10. redis 入门笔记(一)
  11. 360 se html document 广告,360浏览器广告过滤规则
  12. c语言用分治法求最大最小值,C语言实现分治法实例
  13. python add picture显示过大_利用Python自带PIL库扩展图片大小给图片加文字描述的方法示例...
  14. 追捧《弟子规》,因为你并不知道古代的优质教育是什么
  15. win10分屏快捷键无法使用_Win10 1909碰上多任务如何快速四分屏 Win10 1909分屏快捷键无效怎么办...
  16. 判断NSString是否含有某字符rangeOfString
  17. jQuery小游戏——小鸟飞行闪躲
  18. 系统集成项目管理(软考中级)第一章信息化知识
  19. FPGA||ZYNQ概念理解之: Cortex-A9 处理器及架构
  20. 鳄鱼笔记(三) --> bug小屋<--[c# 报错The type initializer for ‘Gdip‘ threw an exception]

热门文章

  1. nextjs 使用備忘
  2. kali RDP远程桌面之xfce4
  3. 高可靠性领域如何选取处理器系统和ADC/DAC?
  4. 模拟根据后端返回列表数据,先包装成树结构,包装路由数据格式。
  5. 联结主义时间分类(Connectionist temporal classification)的论文笔记
  6. 怎么查看域名被墙_怎么查看域名是否被墙检测(教你一招域名被墙
  7. Cisco Firepower App for Splunk
  8. Mysql中使用json格式存储数据好吗?
  9. 202316读书笔记|《作家榜名著:花间集》——花半坼,雨初晴,满身香雾簇朝霞,娇艳轻盈香雪腻
  10. 零基础学python 视频_零基础入门学习PYTHON(第2版)(微课视频版)