Bark：基于转换器的文本到音频模型

Bark是由Suno创建的一个基于转换器的文本到音频模型。Bark可以生成高度逼真的多语言语音以及其他音频，包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流，如大笑、叹息和哭泣。为了支持研究社区，我们正在提供对预先训练的模型检查点的访问，以便进行推理。

1、安装

pip install git+https://github.com/suno-ai/bark.git

git clone https://github.com/suno-ai/bark
cd bark && pip install .

2、支持的语言

Language	Status
English (en)	✅
German (de)	✅
Spanish (es)	✅
French (fr)	✅
Hindi (hi)	✅
Italian (it)	✅
Japanese (ja)	✅
Korean (ko)	✅
Polish (pl)	✅
Portuguese (pt)	✅
Russian (ru)	✅
Turkish (tr)	✅
Chinese, simplified (zh)	✅

3、基本用法

from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio

# download and load all models
preload_models()

# generate audio from text
text_prompt = """
Hello, my name is Suno. And, uh — and I like pizza. [laughs]
But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)

# save audio to disk
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)

# play text in notebook
Audio(audio_array, rate=SAMPLE_RATE)

如果转换其它语言，比如日文

text_prompt = """추석은 내가 가장 좋아하는 명절이다. 나는 며칠 동안 휴식을 취하고 친구 및 가족과 시간을 보낼 수 있습니다.
"""
audio_array = generate_audio(text_prompt)

音乐：

text_prompt = """♪ In the jungle, the mighty jungle, the lion barks tonight ♪
"""
audio_array = generate_audio(text_prompt)

语言预置（只列出中文的）：

text_prompt = """I have a silky smooth voice, and today I will tell you about the exercise regimen of the common sloth.
"""
audio_array = generate_audio(text_prompt, history_prompt="v2/en_speaker_1")

一些非语音的声音：

[laughter]
[laughs]
[sighs]
[music]
[gasps]
[clears throat]
— or ... for hesitations
♪ for song lyrics
CAPITALIZATION for emphasis of a word
[MAN] and [WOMAN] to bias Bark toward male and female speakers, respectively

Bark：基于转换器的文本到音频模型相关推荐

基于softmax的文本多分类模型代码实现
对于多分类问题,可以使用softmax来做,但是效果不是那么好,当做一个算法的练手吧首先是数据集处理的代码: 文件名:data_loader.py # coding: utf-8import sys ...
基于sigmoid的文本多标签分类模型代码实现
sigmoid一般是用来做二分类的,它是将一个标量的数字转换成[0,1]之间的一个概率值,如果概率值大于0.5, 则判定为是某个分类,否则则不是某个分类,公式如下: 本文基于sigmoid做了一个将一 ...
AI艺术的背后：详解文本生成图像模型【基于GAN】
系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...
基于机器学习的文本分类
基于机器学习的文本分类机器学习模型文本表示方法 Part1 One-hot Bag of Words N-gram TF-IDF 基于机器学习的文本分类 Count Vectors + Ridge ...
3D版DALL-E来了！谷歌发布文本3D生成模型DreamFusion，给一个文本提示就能生成3D模型！...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群转载自:新智元 | 编辑:LRS [导读]给一个文本提示就能生成3 ...
15 分钟搭建一个基于XLNET的文本分类模型——keras实战
今天笔者将简要介绍一下后bert 时代中一个又一比较重要的预训练的语言模型--XLNET ,下图是XLNET在中文问答数据集CMRC 2018数据集(哈工大讯飞联合实验室发布的中文机器阅读理解数据,形 ...
java lstm pb_在Tensorflow Serving上部署基于LSTM的文本分类模型
一些重要的概念 Servables Servables 是客户端请求执行计算的基础对象,大小和粒度是灵活的. Servables 不会管理自己的运行周期. 典型的Servables包括: a Tens ...
基于隐马尔科夫模型文本相似度问题研究
文本相似度是表示两个或者多个文本之间匹配程度的一个度量参数,相似度数值大,说明文本相似度高:反之文件相似程度就低.文本相似度的精确计算问题是进行信息处理的关键. 在如今信息技术飞速发展的互联网时代,文 ...
AI艺术的背后：详解文本生成图像模型【基于 Diffusion Model】
系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...

Bark：基于转换器的文本到音频模型

Bark：基于转换器的文本到音频模型相关推荐

最新文章

热门文章