语音合成工具_bark
1 介绍
多语言的文字转语音模型。
地址: https://github.com/suno-ai/bark
2 模型原理
Bark通过三个Transformer模型,将文本转换为音频。
2.1 文本到语义Token
输入:由Hugging Face的BERT标记器分词的文本
输出:编码生成音频的语义Token
2.2 语义到粗略Token
输入:语义Token
输出:来自Facebook的EnCodec编解码器的前两个codebooks的Token
2.3 粗略到细节Token
输入:EnCodec的前两个codebooks
输出:EnCodec的8个codebooks
3 使用方法
3.1 环境配置
docker pull pytorch/pytorch:2.0.0-cuda11.7-cudnn8-runtime
运行docker
nvidia-docker run -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all -p 8893:8888 -v /raid/:/opt/raid --gpus all --rm -it pytorch/pytorch:2.0.0-cuda11.7-cudnn8-runtime bash
3.2 安装 bark
进入docker后:
# 安装 bark
git clone https://github.com/suno-ai/bark
cp /xxx/pip.conf /root/.pip/
export http_proxy=http://192.168.1.22:xxxx
export https_proxy=http://192.168.1.22:xxxx
cd bark
python setup.py install# 安装 jupyter
pip install jupyter_nbextensions_configurator jupyter_contrib_nbextensions
jupyter notebook --allow-root -y --no-browser --ip=0.0.0.0
3.3 测试
设置环境变量:
import os
os.environ['SUNO_USE_SMALL_MODELS'] = 'True'
os.environ['XDG_CACHE_HOME'] = 'set local path to save models'
# default path: /USER_DIR/.cache/suno/bark_v0
合成语音:
from bark import SAMPLE_RATE, generate_audio, preload_models
from IPython.display import Audio# download and load all models
preload_models()# generate audio from text
text_prompt = """我要试试能不能合成中文
"""
audio_array = generate_audio(text_prompt)# play text in notebook
Audio(audio_array, rate=SAMPLE_RATE)
4 用后感
- 试用SMALL版本,一共下载三个模型,大小分别是1.1G,1.2G,2.5G,不是很大。
- 试用普通版本,一共下载三个模型,大小分别是3.5G, 3.7G, 5.5G,运行时占GPU 6G左右。
- 小模型中英文都能合成人声,但听起来比较粗糙,普通模型比较清晰。 流畅度还可以,对于中文的语调感觉不太好,无论模型大小均有此问题,有丢字,错误问题。
- 可以用提示指定男声或女声。
- 没看到论文,基本是现有技术的组合,结构类似AudioLM。
5 参考资料
[语音合成最新技术分享]https://zhuanlan.zhihu.com/p/622980527
语音合成工具_bark相关推荐
- 语音合成工具Coqui TTS安装及体验
先介绍两种免费的语音合成工具 balabolka 官网 http://balabolka.site/balabolka.htm 是一种基于微软Speech API (SAPI)的免费语音合成工具,只是 ...
- 在线语音合成工具代码
语音合成软件 语音合成助手免费版下载 语音合成助手 语音合成技术 语音合成器 语音合成工具下载 语音合成软件哪个好用 语音合成软件免费版 语音合成网易有道智云 语音合成网站 <div class ...
- ipv4转ipv6 在线工具_TOOLFK在线工具-在线文字转语音/语音合成mp3工具
本文要推荐的[TOOLFK]在线文字转语音/语音合成mp3工具 ,提供文字转语音功能. 網站名稱:ToolFk 網站鏈結:https://www.toolfk.com/ 工具链接:https://ww ...
- 推荐几个免费的在线文本转语音网站(支持中英文多种语音)
如果你正在寻找一款免费的在线文本转语音工具,那么你来对地方了!本文将介绍几个完全免费的在线文本转语音网站,推荐收藏下来以备不时之需. No.1 免费文本转语音(TTSMaker) TTSMaker是第 ...
- Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)
需要源码请点赞关注收藏后评论区留下QQ~~~ 一.系统自带的语音引擎 语音播报的本质是将书面文字转换成自然语言的音频流,这个转换操作被称作语音合成,又称TTS(从文本到语音)在转换过程中,为了避免机械 ...
- 微软语音合成助手 TTS-VUE 文字转语音工具
前言 我们在刷短视频的时候经常会听到一些AI合成声音,它们有各种音色.语调,甚至不同的情绪,听起来与人声无异 其实这些大都是利用微软Azure的文字转语音技术来实现的 虽然国内也有很多配音工具,但体验 ...
- html+js文字合成语音代码 支持在线试听播放和转换成mp3格式下载到本地 单文件 便携版 在线AI文字转换音频速度超快
<!doctype html><html lang="en"><head><meta charset="UTF-8"& ...
- mac m1安装coquiTTS,文字转语音
本想安装TensorFlowTTS的,费了老大劲还是不行. 参考:([语音合成]TensorFlowTTS 中文文本转语音_王小希ww的博客-CSDN博客, 一篇文章教你语音合成入门,训练一个中文语音 ...
- 免费的文字转语音软件哪个好用?试试这个
在现代社会中,文字转语音技术越来越普及,它可以让我们在各种场景下获得信息,提高工作和生活效率.文字转语音软件可以将电子书.PDF.网页等各种文本内容转换为语音,为人们的学习和阅读带来了很大的便利.在市 ...
最新文章
- ThreadLocal究竟存不存在内存泄漏?
- vm虚拟机和windows共享文件夹
- Software Testing Homework03:
- Android Animation学习(六) View Animation介绍
- @SessionAttributes 和 @SessionAttribute的区别
- jedis入门_Jedis入门
- 导航栏iframe公共样式_中秋节微信公众号推文样式素材推荐
- vlan 间路由+单臂路由(实验思路讲解+配置)
- macos必做的设置_如何在MacOS上设置PHP,CaddyServer和Kirby —以及为什么要这样做
- python视频教程全集-Python 3视频教程全集(2018版)免费送啦
- left和offsetLeft
- c语言作业大全,C语言练习题(答案)
- web学习笔记1-VM虚拟机配置windows,IP,DNS,DHCP
- [ 物联网篇 ] 09 - Buildroot中构建NXP IMX8MM
- 校园内网服务器维修视频,怎么搭建校园高清视频直播系统
- 一种圆面积公式的推导方法
- OCR文字识别谁最好?4款拍照扫描应用横向对比
- go+gSoap+onvif学习总结:7、进行镜头调焦、聚焦和预置点的增删改查
- 前端学习-HTML5
- ROS使用介绍——rosbag
热门文章
- android精品源码,跑马灯图片浏览器归属地下载!
- Vit-详解(结构拆分)
- layui导入功能实现(太特么难了,网上全是坑啊)
- 世界环境日 | 始祖数字化可持续发展峰会精彩回顾
- ipad手写笔推荐品牌,推荐性价比最高的平替苹果笔
- java子类调用父类变量值_java子类如何调用父类变量和方法
- Linux执行tar解压报错tar: Error is not recoverable: exiting now
- Win7 粘滞键漏洞利用绕过登录密码
- ACL2022 | 面向中文真实搜索场景的开放域文档视觉问答数据集
- p9android8内测,大批机型将升级EMUI 8.0:华为Mate8/P9等开启内测招募