语音合成工具

1 介绍

多语言的文字转语音模型。
地址: https://github.com/suno-ai/bark

2 模型原理

Bark通过三个Transformer模型，将文本转换为音频。

2.1 文本到语义Token

输入：由Hugging Face的BERT标记器分词的文本
输出：编码生成音频的语义Token

2.2 语义到粗略Token

输入：语义Token
输出：来自Facebook的EnCodec编解码器的前两个codebooks的Token

2.3 粗略到细节Token

输入：EnCodec的前两个codebooks
输出：EnCodec的8个codebooks

3 使用方法

3.1 环境配置

docker pull pytorch/pytorch:2.0.0-cuda11.7-cudnn8-runtime

运行docker

nvidia-docker run -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all -p 8893:8888 -v /raid/:/opt/raid --gpus all --rm -it pytorch/pytorch:2.0.0-cuda11.7-cudnn8-runtime bash

3.2 安装 bark

进入docker后：

# 安装 bark
git clone https://github.com/suno-ai/bark
cp /xxx/pip.conf /root/.pip/
export http_proxy=http://192.168.1.22:xxxx
export https_proxy=http://192.168.1.22:xxxx
cd bark
python setup.py install# 安装 jupyter
pip install jupyter_nbextensions_configurator jupyter_contrib_nbextensions
jupyter notebook --allow-root -y --no-browser --ip=0.0.0.0

3.3 测试

设置环境变量：

import os
os.environ['SUNO_USE_SMALL_MODELS'] = 'True'
os.environ['XDG_CACHE_HOME'] = 'set local path to save models'
# default path: /USER_DIR/.cache/suno/bark_v0

合成语音：

from bark import SAMPLE_RATE, generate_audio, preload_models
from IPython.display import Audio# download and load all models
preload_models()# generate audio from text
text_prompt = """我要试试能不能合成中文
"""
audio_array = generate_audio(text_prompt)# play text in notebook
Audio(audio_array, rate=SAMPLE_RATE)

4 用后感

试用SMALL版本，一共下载三个模型，大小分别是1.1G，1.2G，2.5G，不是很大。
试用普通版本，一共下载三个模型，大小分别是3.5G, 3.7G, 5.5G，运行时占GPU 6G左右。
小模型中英文都能合成人声，但听起来比较粗糙，普通模型比较清晰。流畅度还可以，对于中文的语调感觉不太好，无论模型大小均有此问题，有丢字，错误问题。
可以用提示指定男声或女声。
没看到论文，基本是现有技术的组合，结构类似AudioLM。

5 参考资料

[语音合成最新技术分享]https://zhuanlan.zhihu.com/p/622980527

语音合成工具_bark相关推荐

语音合成工具Coqui TTS安装及体验
先介绍两种免费的语音合成工具 balabolka 官网 http://balabolka.site/balabolka.htm 是一种基于微软Speech API (SAPI)的免费语音合成工具,只是 ...
在线语音合成工具代码
语音合成软件语音合成助手免费版下载语音合成助手语音合成技术语音合成器语音合成工具下载语音合成软件哪个好用语音合成软件免费版语音合成网易有道智云语音合成网站 <div class ...
ipv4转ipv6 在线工具_TOOLFK在线工具-在线文字转语音/语音合成mp3工具
本文要推荐的[TOOLFK]在线文字转语音/语音合成mp3工具 ,提供文字转语音功能. 網站名稱:ToolFk 網站鏈結:https://www.toolfk.com/ 工具链接:https://ww ...
推荐几个免费的在线文本转语音网站（支持中英文多种语音）
如果你正在寻找一款免费的在线文本转语音工具,那么你来对地方了!本文将介绍几个完全免费的在线文本转语音网站,推荐收藏下来以备不时之需. No.1 免费文本转语音(TTSMaker) TTSMaker是第 ...
Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战（超详细附源码）
需要源码请点赞关注收藏后评论区留下QQ~~~ 一.系统自带的语音引擎语音播报的本质是将书面文字转换成自然语言的音频流,这个转换操作被称作语音合成,又称TTS(从文本到语音)在转换过程中,为了避免机械 ...
微软语音合成助手 TTS-VUE 文字转语音工具
前言我们在刷短视频的时候经常会听到一些AI合成声音,它们有各种音色.语调,甚至不同的情绪,听起来与人声无异其实这些大都是利用微软Azure的文字转语音技术来实现的虽然国内也有很多配音工具,但体验 ...
html+js文字合成语音代码支持在线试听播放和转换成mp3格式下载到本地单文件便携版在线AI文字转换音频速度超快
<!doctype html><html lang="en"><head><meta charset="UTF-8"& ...
mac m1安装coquiTTS，文字转语音
本想安装TensorFlowTTS的,费了老大劲还是不行. 参考:([语音合成]TensorFlowTTS 中文文本转语音_王小希ww的博客-CSDN博客, 一篇文章教你语音合成入门,训练一个中文语音 ...
免费的文字转语音软件哪个好用？试试这个
在现代社会中,文字转语音技术越来越普及,它可以让我们在各种场景下获得信息,提高工作和生活效率.文字转语音软件可以将电子书.PDF.网页等各种文本内容转换为语音,为人们的学习和阅读带来了很大的便利.在市 ...

语音合成工具_bark