使用 PaddleSpeech 训练一个自己的 TTS 模型

2024-05-14 15:21:36

(以下内容搬运自 PaddleSpeech)

首先看一下效果对paddlespeech的拙劣尝试对paddlespeech的拙劣尝试2
我们需要走通 other/mfa和aishell3/tts3 两个流程
另外 windows 电脑也能搞这个用 gitshell 就好了有的地方要小改一下

收集数据

我的数据收集自网上，一种speaker大概需要600句话。获取到数据后用SpleeterGui进行背景音乐的分离，只取人声。

数据标注

我自己写了个小软件啪的一下很快啊我们就标注完了，然后模仿 aishell3 的格式制作数据集，记得要排除所有非中文字符。
经过尝试和读代码我觉得照搬 aishell3 的 speaker 名的方式是最好的，改动少。然后我们用 pypinyin 制作标注文本，效果不怎么喜人，但是大概够用。记得抽出几句来填进test文件夹里。

获取mfa结果

other/mfa 流程走一下流程里下载的是 linux 版本的二进制文件如果你是windows的电脑记得改成下载windows版本的文件。

数据预处理

mfa结果有了之后去走 aishell3/tts3 的流程要记住，先下载预训练好的那个 aishell3_fastspeech2 模型然后 ❗❗把脚本里的音素对照表指向这里的音素对照表，不要用你自己生成的那个。

训练

走流程练一会然后停下进checkpoints文件夹，❗❗把预训练模型复制进来然后编辑那个 jsonl 文件。删的只剩一行然后把那一行里的 pdz 文件指向你刚复制进来的那个模型就可以接着训练了。

运行

你可以走 e2e 那个 step 然后指定好 speaker 如果不出意外的话，你就能听到你的训练结果了。

补充

注意，finetune 的时候，❗❗speaker_id_map 也需要用预训练模型提供的（要保证 speaker 数与预训练模型保持一致），假设你有 n 个新的 speaker, 需要把前 n 个 speaker 替换成自己的 speaker ，合成的时候通过 spk_id 选择自己的 speaker

FAQ

参考原 Disscussion 链接。

P.S. 欢迎关注我们的 github repo PaddleSpeech, 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。

使用 PaddleSpeech 训练一个自己的 TTS 模型相关推荐

在PyTorch训练一个epoch时，模型不能接着训练，Dataloader卡死
笔者在训练模型的时候,突然偶遇这个问题,即训练一个epoch时,模型不能接着训练,只能通过Ctrl+C强制性暂停,见下图: Ctrl+C之后呈现的信息表明,这个bug是和多线程有关系. 经过笔者实验, ...
训练一个专门捣乱的模型
三位韩国人在EMNLP 2021 Findings上发表了一篇论文,名为Devil's Advocate: Novel Boosting Ensemble Method from Psychologi ...
深度学习框架tensorflow二实战（训练一个简单二分类模型）
导入工具包 import os import warnings warnings.filterwarnings("ignore") import tensorflow as tf ...
Tensorflow object detection API训练自己的目标检测模型详细配置教程 (一)
Tensorflow object detection API 简单介绍Tensorflow object detection API: 这个API是基于tensorflow构造的开源框架,易于构建. ...
PyTorch 入门：训练一个深度神经网络(DNN)
准备知识 1. NumPy 为什么要学 NumPy?弄懂了 NumPy 的 array,可以轻松上手 PyTorch 的 tensor.请看这个对比:torch v.s. numpy. 这里毛遂自荐一 ...
python训练模型、如何得到模型训练总时长_模型训练时间的估算
模型训练时间的估算昨天群里一个朋友训练一个BERT句子对模型,使用的是CPU来进行训练,由于代码是BERT官方代码,并没有显示训练需要的总时间,所以训练的时候只能等待.他截图发了基本的信息,想知道训 ...
训练一个130亿参数的模型要用几个GPU？微软：一个就够
视学算法报道转载自公众号:机器之心作者:蛋酱.张倩现在的模型动辄数百.数千亿参数,普通人训不动怎么办? 前不久,谷歌发布了参数量为 1.6 万亿的语言模型 Swith Transformer,将 ...
把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...
本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...
pytorch 训练过程acc_pytorch入门练手：一个简单的CNN模型
由于新型冠状肺炎疫情一直没能开学,在家自己学习了一下pytorch,本来说按着官网的60分钟教程过一遍的,但是CIFAR-10数据库的下载速度太慢了-- 这台电脑里也没有现成的数据库,想起之前画了一些 ...

最新文章

热门文章