1 介绍

多语言的文字转语音模型。
地址: https://github.com/suno-ai/bark

2 模型原理

Bark通过三个Transformer模型,将文本转换为音频。

2.1 文本到语义Token

输入:由Hugging Face的BERT标记器分词的文本
输出:编码生成音频的语义Token

2.2 语义到粗略Token

输入:语义Token
输出:来自Facebook的EnCodec编解码器的前两个codebooks的Token

2.3 粗略到细节Token

输入:EnCodec的前两个codebooks
输出:EnCodec的8个codebooks

3 使用方法

3.1 环境配置

docker pull pytorch/pytorch:2.0.0-cuda11.7-cudnn8-runtime

运行docker

nvidia-docker run -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all -p 8893:8888 -v /raid/:/opt/raid --gpus all --rm -it pytorch/pytorch:2.0.0-cuda11.7-cudnn8-runtime bash

3.2 安装 bark

进入docker后:

# 安装 bark
git clone https://github.com/suno-ai/bark
cp /xxx/pip.conf /root/.pip/
export http_proxy=http://192.168.1.22:xxxx
export https_proxy=http://192.168.1.22:xxxx
cd bark
python setup.py install# 安装 jupyter
pip install jupyter_nbextensions_configurator jupyter_contrib_nbextensions
jupyter notebook --allow-root -y --no-browser --ip=0.0.0.0

3.3 测试

设置环境变量:

import os
os.environ['SUNO_USE_SMALL_MODELS'] = 'True'
os.environ['XDG_CACHE_HOME'] = 'set local path to save models'
# default path: /USER_DIR/.cache/suno/bark_v0

合成语音:

from bark import SAMPLE_RATE, generate_audio, preload_models
from IPython.display import Audio# download and load all models
preload_models()# generate audio from text
text_prompt = """我要试试能不能合成中文
"""
audio_array = generate_audio(text_prompt)# play text in notebook
Audio(audio_array, rate=SAMPLE_RATE)

4 用后感

  • 试用SMALL版本,一共下载三个模型,大小分别是1.1G,1.2G,2.5G,不是很大。
  • 试用普通版本,一共下载三个模型,大小分别是3.5G, 3.7G, 5.5G,运行时占GPU 6G左右。
  • 小模型中英文都能合成人声,但听起来比较粗糙,普通模型比较清晰。 流畅度还可以,对于中文的语调感觉不太好,无论模型大小均有此问题,有丢字,错误问题。
  • 可以用提示指定男声或女声。
  • 没看到论文,基本是现有技术的组合,结构类似AudioLM。

5 参考资料

[语音合成最新技术分享]https://zhuanlan.zhihu.com/p/622980527

语音合成工具_bark相关推荐

  1. 语音合成工具Coqui TTS安装及体验

    先介绍两种免费的语音合成工具 balabolka 官网 http://balabolka.site/balabolka.htm 是一种基于微软Speech API (SAPI)的免费语音合成工具,只是 ...

  2. 在线语音合成工具代码

    语音合成软件 语音合成助手免费版下载 语音合成助手 语音合成技术 语音合成器 语音合成工具下载 语音合成软件哪个好用 语音合成软件免费版 语音合成网易有道智云 语音合成网站 <div class ...

  3. ipv4转ipv6 在线工具_TOOLFK在线工具-在线文字转语音/语音合成mp3工具

    本文要推荐的[TOOLFK]在线文字转语音/语音合成mp3工具 ,提供文字转语音功能. 網站名稱:ToolFk 網站鏈結:https://www.toolfk.com/ 工具链接:https://ww ...

  4. 推荐几个免费的在线文本转语音网站(支持中英文多种语音)

    如果你正在寻找一款免费的在线文本转语音工具,那么你来对地方了!本文将介绍几个完全免费的在线文本转语音网站,推荐收藏下来以备不时之需. No.1 免费文本转语音(TTSMaker) TTSMaker是第 ...

  5. Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)

    需要源码请点赞关注收藏后评论区留下QQ~~~ 一.系统自带的语音引擎 语音播报的本质是将书面文字转换成自然语言的音频流,这个转换操作被称作语音合成,又称TTS(从文本到语音)在转换过程中,为了避免机械 ...

  6. 微软语音合成助手 TTS-VUE 文字转语音工具

    前言 我们在刷短视频的时候经常会听到一些AI合成声音,它们有各种音色.语调,甚至不同的情绪,听起来与人声无异 其实这些大都是利用微软Azure的文字转语音技术来实现的 虽然国内也有很多配音工具,但体验 ...

  7. html+js文字合成语音代码 支持在线试听播放和转换成mp3格式下载到本地 单文件 便携版 在线AI文字转换音频速度超快

    <!doctype html><html lang="en"><head><meta charset="UTF-8"& ...

  8. mac m1安装coquiTTS,文字转语音

    本想安装TensorFlowTTS的,费了老大劲还是不行. 参考:([语音合成]TensorFlowTTS 中文文本转语音_王小希ww的博客-CSDN博客, 一篇文章教你语音合成入门,训练一个中文语音 ...

  9. 免费的文字转语音软件哪个好用?试试这个

    在现代社会中,文字转语音技术越来越普及,它可以让我们在各种场景下获得信息,提高工作和生活效率.文字转语音软件可以将电子书.PDF.网页等各种文本内容转换为语音,为人们的学习和阅读带来了很大的便利.在市 ...

最新文章

  1. ThreadLocal究竟存不存在内存泄漏?
  2. vm虚拟机和windows共享文件夹
  3. Software Testing Homework03:
  4. Android Animation学习(六) View Animation介绍
  5. @SessionAttributes 和 @SessionAttribute的区别
  6. jedis入门_Jedis入门
  7. 导航栏iframe公共样式_中秋节微信公众号推文样式素材推荐
  8. vlan 间路由+单臂路由(实验思路讲解+配置)
  9. macos必做的设置_如何在MacOS上设置PHP,CaddyServer和Kirby —以及为什么要这样做
  10. python视频教程全集-Python 3视频教程全集(2018版)免费送啦
  11. left和offsetLeft
  12. c语言作业大全,C语言练习题(答案)
  13. web学习笔记1-VM虚拟机配置windows,IP,DNS,DHCP
  14. [ 物联网篇 ] 09 - Buildroot中构建NXP IMX8MM
  15. 校园内网服务器维修视频,怎么搭建校园高清视频直播系统
  16. 一种圆面积公式的推导方法
  17. OCR文字识别谁最好?4款拍照扫描应用横向对比
  18. go+gSoap+onvif学习总结:7、进行镜头调焦、聚焦和预置点的增删改查
  19. 前端学习-HTML5
  20. ROS使用介绍——rosbag

热门文章

  1. android精品源码,跑马灯图片浏览器归属地下载!
  2. Vit-详解(结构拆分)
  3. layui导入功能实现(太特么难了,网上全是坑啊)
  4. 世界环境日 | 始祖数字化可持续发展峰会精彩回顾
  5. ipad手写笔推荐品牌,推荐性价比最高的平替苹果笔
  6. java子类调用父类变量值_java子类如何调用父类变量和方法
  7. Linux执行tar解压报错tar: Error is not recoverable: exiting now
  8. Win7 粘滞键漏洞利用绕过登录密码
  9. ACL2022 | 面向中文真实搜索场景的开放域文档视觉问答数据集
  10. p9android8内测,大批机型将升级EMUI 8.0:华为Mate8/P9等开启内测招募