Tacotron2

为了实现中文语音合成的项目需要,首先调研了Tacotron2的网络架构和最终的实现效果。
Tacotron2的Pytorch实现
Tacotron2的Tensorflow实现
但最终由于Tacotron2中包含两个模型的训练,包括序列模型和声码器两部分,最终放弃了使用Tacotron2来完成最终的实现。改成使用Tacotron模型来完成相关的任务,因为Tactron不包含Tacotron2中Wavenet的部分,而是使用了Griffin-Lim算法来完成声码器的工作,目前声码器部分的研究还有World,FFTNET等等。
Tacotron的Tensorflow中文实现
由于比较懒,就直接附上中文实现了,原作者是begeekmyfriend,初始版本可以参考其fork的原作者。

该中文实现的数据集使用的是清华中文语音数据集data_thchs30
data_thchs30
将其解压到工程文件当中,并重命名为data_thchs30,与程序相对应,或者修改程序中的字符串为你的名字。
预处理阶段:
首先要对原先数据集当中的音频文件进行预处理,并将其转化为梅尔谱图的形式,生成的梅尔谱图作为Tacotron模型的期望值Y。而预测值即训练过程中生成的梅尔谱图。预处理要使用preprocess.py文件。命令行执行如下:
python preprocess.py
预处理完之后会得到training data文件夹和train.txt。train.txt即训练文件所在的路径,训练过程需要从train.txt中读取所需的文件路径和拼音标注。
python train.py
之后通过以上命令行,进行训练过程,本地服务器的GPU是GTX 1080Ti一块,迭代步数最终达到了194000次,loss大约为0.6左右。训练得到的checkpoint保存在log-Tacotron文件夹中,还有在验证过程中生成的音谱图等等。
最终音频结果如下:
发现不支持插入音频文件,皮一下。效果还可以,能够清晰的读出来,测试使用的是网上爬取的新闻文本。
模型生成的有效音频长度有限,所以需要写一个音频处理的脚本进行连接和过渡,也可以使用ffmpeg进行音频的链接。通过自己写的pinyin.py对生成的短时音频进行链接和处理,最终生成了一个长达2分钟的音频文件。

由于项目结束之后,就把原先的training data文件夹(大约100G)删除了,因为本地服务器只有800G的硬盘容量,所以流程可能有一点误区。

如果是英文实现的话,Tacotron英文实现
其中有附带的预训练模型,模型名字后有其训练完成的时间。
通过python demo_server.py 加载入模型路径的命令行参数
即可在弹出的localhost窗口中进行输入英文,来进行语音合成。
或在预训练模型的基础上进行训练。
前提条件必须是Linux系统。

Tacotron中文语音合成相关推荐

  1. 端到端的TTS深度学习模型tacotron(中文语音合成)

    TACONTRON: A Fully End-to-End Text-To-Speech Synthesis Model 通常的TTS模型包含许多模块,例如文本分析, 声学模型, 音频合成等.而构建这 ...

  2. python语音合成 标贝_tacotronV2 + wavernn 实现中文语音合成(Tensorflow + pytorch)

    TacotronV2 + WaveRNN 开源中文语音数据集标贝(女声)训练中文TacotronV2,实现中文到声学特征(Mel)转换的声学模型.在GTA模式下,利用训练好的TacotronV2合成标 ...

  3. 新网杯top1方案:手把手构建中文语音合成模型!

    基于Parakeet的中文语音合成方案 方案地址: https://aistudio.baidu.com/aistudio/projectdetail/2792887 1 第一步 安装Parakeet ...

  4. Android中文语音合成(TTS)各家引擎对比 .

    Android中文语音合成(TTS)各家引擎对比 Yao.GUET 2012-02-03,转载请注明出处:http://blog.csdn.net/Yao_GUET Android系统从1.6版本开始 ...

  5. 基于Tacotron汉语语音合成的开源实践

    语音合成(Text to Speech Synthesis)是一种将文本转化为自然语音输出的技术,在各行各业有着广泛用途.传统TTS是基于拼接和参数合成技术,效果上同真人语音的自然度尚有一定差距,效果 ...

  6. ####好好好好####基于Tacotron汉语语音合成的开源实践

    2017年初,Google 提出了一种新的端到端的语音合成系统--Tacotron.Tacotron打破了各个传统组件之间的壁垒,使得可以从<文本,声谱>配对的数据集上,完全随机从头开始训 ...

  7. 中文语音合成综合评测一(可懂度)

    可懂度描述 mel谱角度 (来自T-1)使用了mel谱而不用: The inputs to WaveNet: a. linguistic features b. predicted log(F0) c ...

  8. 中文语音合成开源模型总结

    近段时间一直忙于语音开源克隆模型的尝试,现总结如下: MockingBird:特点是克隆的声音音色比较像,缺点也很明显,速度慢,5秒左右,可以优化到0.4-1.2秒左右,MOS值偏低: Vits:特点 ...

  9. linux中文语音合成软件,中文TTS 的容易告终(基于linux)之 语音库的告终

    语音库保留着常用汉字的发音(多音的汉字只登记其一种发音,这也是本系统的一个缺点,必需尔后健全),因而先要获得一汉字集,这个汉字集包括了大局部常用的汉字,然后在依据这个汉字集,来一个个的获得汉字的发音, ...

最新文章

  1. H264码流打包分析(精华)
  2. Bresenham 算法画线 画圆
  3. fastRPC的数据库服务
  4. SAP UI5 Hash session 2016-07-18
  5. OCR文本检测-RRPN
  6. jmeter导入DB数据再再优化
  7. 如何初始化一个vue项目
  8. [专栏精选]UnityWebRequest详解
  9. 【Python-3.5】绘制随机漫步图
  10. (已解决) centos6.5 yum源 失效 The whole CentOS 6 is dead and shouldn’t be used anywhere at all
  11. 十分钟利用windows7漏洞破解开机密码
  12. 数字孪生典型应用案例
  13. 社会工程学(安全牛)
  14. Poetry of Today3--琵琶行
  15. 重庆php就业前景,重庆就业前景最好的十大专业是哪些_中职中专网
  16. 用二维数组进行学生的成绩排序和计算
  17. A79T三极管,A79T芯片规格书
  18. 今日头条推广入门必懂知识简介
  19. 中国版权力的游戏构思
  20. 51nod3146 绿豆蛙的归宿

热门文章

  1. win10家庭版远程无法连接win11专业版,报错“你的凭据不工作“
  2. 保护鲸鱼动物网页设计作业 静态HTML宠物主题网页作业 DW鲸鱼网站模板下载 大学生简单动物网页作品代码 个人网页制作 学生个人网页
  3. 【弱的C艹之路。。未完待续】
  4. Final Cut Pro X 10.4.8 Apple出品的专业视频非线性编辑软件
  5. Jmeter书中不会教你的(94)——将时间戳转换为日期格式
  6. 下个月去北京了,心如一团乱麻好多事情要解决,但是不知道从哪里开始,还是顺其自然吧,一件件的解决...
  7. 运用计算机辅助设计的药物实例,计算机辅助设计在药物研发中的应用现状探究...
  8. 没想到吧,这就是算法工程师的一天!
  9. cuda-z/gpu-z/cpu-z工具分析GPU显卡和CPU算力信息
  10. 谷歌三大论文之the Google File System