Bark:基于转换器的文本到音频模型
Bark是由Suno创建的一个基于转换器的文本到音频模型。Bark可以生成高度逼真的多语言语音以及其他音频,包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。为了支持研究社区,我们正在提供对预先训练的模型检查点的访问,以便进行推理。
1、安装
pip install git+https://github.com/suno-ai/bark.git
or
git clone https://github.com/suno-ai/bark
cd bark && pip install .
2、支持的语言
Language | Status |
---|---|
English (en) | ✅ |
German (de) | ✅ |
Spanish (es) | ✅ |
French (fr) | ✅ |
Hindi (hi) | ✅ |
Italian (it) | ✅ |
Japanese (ja) | ✅ |
Korean (ko) | ✅ |
Polish (pl) | ✅ |
Portuguese (pt) | ✅ |
Russian (ru) | ✅ |
Turkish (tr) | ✅ |
Chinese, simplified (zh) | ✅ |
3、基本用法
from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio
# download and load all models
preload_models()
# generate audio from text
text_prompt = """
Hello, my name is Suno. And, uh — and I like pizza. [laughs]
But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)
# save audio to disk
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)
# play text in notebook
Audio(audio_array, rate=SAMPLE_RATE)
如果转换其它语言,比如日文
text_prompt = """추석은 내가 가장 좋아하는 명절이다. 나는 며칠 동안 휴식을 취하고 친구 및 가족과 시간을 보낼 수 있습니다. """ audio_array = generate_audio(text_prompt)
音乐:
text_prompt = """♪ In the jungle, the mighty jungle, the lion barks tonight ♪ """ audio_array = generate_audio(text_prompt)
语言预置(只列出中文的):
text_prompt = """I have a silky smooth voice, and today I will tell you about the exercise regimen of the common sloth. """ audio_array = generate_audio(text_prompt, history_prompt="v2/en_speaker_1")
一些非语音的声音:
[laughter]
[laughs]
[sighs]
[music]
[gasps]
[clears throat]
—
or...
for hesitations♪
for song lyrics- CAPITALIZATION for emphasis of a word
[MAN]
and[WOMAN]
to bias Bark toward male and female speakers, respectively
Bark:基于转换器的文本到音频模型相关推荐
- 基于softmax的文本多分类模型代码实现
对于多分类问题,可以使用softmax来做,但是效果不是那么好,当做一个算法的练手吧 首先是数据集处理的代码: 文件名:data_loader.py # coding: utf-8import sys ...
- 基于sigmoid的文本多标签分类模型代码实现
sigmoid一般是用来做二分类的,它是将一个标量的数字转换成[0,1]之间的一个概率值,如果概率值大于0.5, 则判定为是某个分类,否则则不是某个分类,公式如下: 本文基于sigmoid做了一个将一 ...
- AI艺术的背后:详解文本生成图像模型【基于GAN】
系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...
- 基于机器学习的文本分类
基于机器学习的文本分类 机器学习模型 文本表示方法 Part1 One-hot Bag of Words N-gram TF-IDF 基于机器学习的文本分类 Count Vectors + Ridge ...
- 3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:新智元 | 编辑:LRS [导读]给一个文本提示就能生成3 ...
- 15 分钟搭建一个基于XLNET的文本分类模型——keras实战
今天笔者将简要介绍一下后bert 时代中一个又一比较重要的预训练的语言模型--XLNET ,下图是XLNET在中文问答数据集CMRC 2018数据集(哈工大讯飞联合实验室发布的中文机器阅读理解数据,形 ...
- java lstm pb_在Tensorflow Serving上部署基于LSTM的文本分类模型
一些重要的概念 Servables Servables 是客户端请求执行计算的基础对象,大小和粒度是灵活的. Servables 不会管理自己的运行周期. 典型的Servables包括: a Tens ...
- 基于隐马尔科夫模型文本相似度问题研究
文本相似度是表示两个或者多个文本之间匹配程度的一个度量参数,相似度数值大,说明文本相似度高:反之文件相似程度就低.文本相似度的精确计算问题是进行信息处理的关键. 在如今信息技术飞速发展的互联网时代,文 ...
- AI艺术的背后:详解文本生成图像模型【基于 Diffusion Model】
系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...
最新文章
- ECMAScript6变量的解构赋值
- Linux下通过进程名查询占用的端口
- 洛谷 P1851 好朋友
- 【重要】如何彻底夯实CV基础,有三AI三大导师一起带你学习!
- 跟谁学、有道营销费用大于营业收入,在线教育企业烧钱大战何时休?
- autojs 如何获取控件的desc_Autojs Pro中,常用的几个选择器搜索接口的区别-技术类-雨后春笋...
- 反思PHP多个字符串函数
- 在 Visual Studio Code 里编辑 Excel 和 csv 文件两个比较方便的扩展应用
- 数据库杂谈(九)——事务管理
- JavaScript【面向对象】-静态方法-私有方法-公有方法-特权方法
- js 中{},[]中括号,大括号使用详解
- HAIKUO-SOFT 作品推荐 四叶草 よつのは 攻略
- 跟极限编程创始人Kent Beck学编程
- 使用Mono.cecil修改Unity游戏内存
- [unity]实现切水果游戏
- 实验楼linux命令,GitHub - encorechow/linux-command: Linux命令大全搜索工具,内容包含Linux命令手册、详解、学习、搜集。...
- 一人干翻专业机构,27岁华裔小伙一战成名!搞出美国新冠最准预测模型,彭博:Superstar
- Mac电脑图片后期处理Lightroom Classic 2022(lrc2022)
- 使用华为手机对android studio进行真机调试(我的是荣耀V10,其他类型手机可以参考)
- 新华字典 - Windows Store