Tacotron中文语音合成

Tacotron2

为了实现中文语音合成的项目需要，首先调研了Tacotron2的网络架构和最终的实现效果。
Tacotron2的Pytorch实现
Tacotron2的Tensorflow实现
但最终由于Tacotron2中包含两个模型的训练，包括序列模型和声码器两部分，最终放弃了使用Tacotron2来完成最终的实现。改成使用Tacotron模型来完成相关的任务，因为Tactron不包含Tacotron2中Wavenet的部分，而是使用了Griffin-Lim算法来完成声码器的工作，目前声码器部分的研究还有World,FFTNET等等。
Tacotron的Tensorflow中文实现
由于比较懒，就直接附上中文实现了，原作者是begeekmyfriend，初始版本可以参考其fork的原作者。

该中文实现的数据集使用的是清华中文语音数据集data_thchs30
data_thchs30
将其解压到工程文件当中，并重命名为data_thchs30，与程序相对应，或者修改程序中的字符串为你的名字。
预处理阶段：
首先要对原先数据集当中的音频文件进行预处理，并将其转化为梅尔谱图的形式，生成的梅尔谱图作为Tacotron模型的期望值Y。而预测值即训练过程中生成的梅尔谱图。预处理要使用preprocess.py文件。命令行执行如下：
python preprocess.py
预处理完之后会得到training data文件夹和train.txt。train.txt即训练文件所在的路径，训练过程需要从train.txt中读取所需的文件路径和拼音标注。
python train.py
之后通过以上命令行，进行训练过程，本地服务器的GPU是GTX 1080Ti一块，迭代步数最终达到了194000次，loss大约为0.6左右。训练得到的checkpoint保存在log-Tacotron文件夹中，还有在验证过程中生成的音谱图等等。
最终音频结果如下：
发现不支持插入音频文件，皮一下。效果还可以，能够清晰的读出来，测试使用的是网上爬取的新闻文本。
模型生成的有效音频长度有限，所以需要写一个音频处理的脚本进行连接和过渡，也可以使用ffmpeg进行音频的链接。通过自己写的pinyin.py对生成的短时音频进行链接和处理，最终生成了一个长达2分钟的音频文件。

由于项目结束之后，就把原先的training data文件夹（大约100G）删除了，因为本地服务器只有800G的硬盘容量，所以流程可能有一点误区。

如果是英文实现的话，Tacotron英文实现
其中有附带的预训练模型，模型名字后有其训练完成的时间。
通过python demo_server.py 加载入模型路径的命令行参数
即可在弹出的localhost窗口中进行输入英文，来进行语音合成。
或在预训练模型的基础上进行训练。
前提条件必须是Linux系统。

Tacotron中文语音合成相关推荐

端到端的TTS深度学习模型tacotron(中文语音合成)
TACONTRON: A Fully End-to-End Text-To-Speech Synthesis Model 通常的TTS模型包含许多模块,例如文本分析, 声学模型, 音频合成等.而构建这 ...
python语音合成标贝_tacotronV2 + wavernn 实现中文语音合成(Tensorflow + pytorch)
TacotronV2 + WaveRNN 开源中文语音数据集标贝(女声)训练中文TacotronV2,实现中文到声学特征(Mel)转换的声学模型.在GTA模式下,利用训练好的TacotronV2合成标 ...
新网杯top1方案：手把手构建中文语音合成模型！
基于Parakeet的中文语音合成方案方案地址: https://aistudio.baidu.com/aistudio/projectdetail/2792887 1 第一步安装Parakeet ...
Android中文语音合成（TTS）各家引擎对比 .
Android中文语音合成(TTS)各家引擎对比 Yao.GUET 2012-02-03,转载请注明出处:http://blog.csdn.net/Yao_GUET Android系统从1.6版本开始 ...
基于Tacotron汉语语音合成的开源实践
语音合成(Text to Speech Synthesis)是一种将文本转化为自然语音输出的技术,在各行各业有着广泛用途.传统TTS是基于拼接和参数合成技术,效果上同真人语音的自然度尚有一定差距,效果 ...
####好好好好####基于Tacotron汉语语音合成的开源实践
2017年初,Google 提出了一种新的端到端的语音合成系统--Tacotron.Tacotron打破了各个传统组件之间的壁垒,使得可以从<文本,声谱>配对的数据集上,完全随机从头开始训 ...
中文语音合成综合评测一(可懂度)
可懂度描述 mel谱角度 (来自T-1)使用了mel谱而不用: The inputs to WaveNet: a. linguistic features b. predicted log(F0) c ...
中文语音合成开源模型总结
近段时间一直忙于语音开源克隆模型的尝试,现总结如下: MockingBird:特点是克隆的声音音色比较像,缺点也很明显,速度慢,5秒左右,可以优化到0.4-1.2秒左右,MOS值偏低: Vits:特点 ...
linux中文语音合成软件,中文TTS 的容易告终（基于linux）之语音库的告终
语音库保留着常用汉字的发音(多音的汉字只登记其一种发音,这也是本系统的一个缺点,必需尔后健全),因而先要获得一汉字集,这个汉字集包括了大局部常用的汉字,然后在依据这个汉字集,来一个个的获得汉字的发音, ...

Tacotron中文语音合成

Tacotron中文语音合成相关推荐

最新文章

热门文章