Tacotron中文语音合成
Tacotron2
为了实现中文语音合成的项目需要,首先调研了Tacotron2的网络架构和最终的实现效果。
Tacotron2的Pytorch实现
Tacotron2的Tensorflow实现
但最终由于Tacotron2中包含两个模型的训练,包括序列模型和声码器两部分,最终放弃了使用Tacotron2来完成最终的实现。改成使用Tacotron模型来完成相关的任务,因为Tactron不包含Tacotron2中Wavenet的部分,而是使用了Griffin-Lim算法来完成声码器的工作,目前声码器部分的研究还有World,FFTNET等等。
Tacotron的Tensorflow中文实现
由于比较懒,就直接附上中文实现了,原作者是begeekmyfriend,初始版本可以参考其fork的原作者。
该中文实现的数据集使用的是清华中文语音数据集data_thchs30
data_thchs30
将其解压到工程文件当中,并重命名为data_thchs30,与程序相对应,或者修改程序中的字符串为你的名字。
预处理阶段:
首先要对原先数据集当中的音频文件进行预处理,并将其转化为梅尔谱图的形式,生成的梅尔谱图作为Tacotron模型的期望值Y。而预测值即训练过程中生成的梅尔谱图。预处理要使用preprocess.py文件。命令行执行如下:
python preprocess.py
预处理完之后会得到training data文件夹和train.txt。train.txt即训练文件所在的路径,训练过程需要从train.txt中读取所需的文件路径和拼音标注。
python train.py
之后通过以上命令行,进行训练过程,本地服务器的GPU是GTX 1080Ti一块,迭代步数最终达到了194000次,loss大约为0.6左右。训练得到的checkpoint保存在log-Tacotron文件夹中,还有在验证过程中生成的音谱图等等。
最终音频结果如下:
发现不支持插入音频文件,皮一下。效果还可以,能够清晰的读出来,测试使用的是网上爬取的新闻文本。
模型生成的有效音频长度有限,所以需要写一个音频处理的脚本进行连接和过渡,也可以使用ffmpeg进行音频的链接。通过自己写的pinyin.py对生成的短时音频进行链接和处理,最终生成了一个长达2分钟的音频文件。
由于项目结束之后,就把原先的training data文件夹(大约100G)删除了,因为本地服务器只有800G的硬盘容量,所以流程可能有一点误区。
如果是英文实现的话,Tacotron英文实现
其中有附带的预训练模型,模型名字后有其训练完成的时间。
通过python demo_server.py 加载入模型路径的命令行参数
即可在弹出的localhost窗口中进行输入英文,来进行语音合成。
或在预训练模型的基础上进行训练。
前提条件必须是Linux系统。
Tacotron中文语音合成相关推荐
- 端到端的TTS深度学习模型tacotron(中文语音合成)
TACONTRON: A Fully End-to-End Text-To-Speech Synthesis Model 通常的TTS模型包含许多模块,例如文本分析, 声学模型, 音频合成等.而构建这 ...
- python语音合成 标贝_tacotronV2 + wavernn 实现中文语音合成(Tensorflow + pytorch)
TacotronV2 + WaveRNN 开源中文语音数据集标贝(女声)训练中文TacotronV2,实现中文到声学特征(Mel)转换的声学模型.在GTA模式下,利用训练好的TacotronV2合成标 ...
- 新网杯top1方案:手把手构建中文语音合成模型!
基于Parakeet的中文语音合成方案 方案地址: https://aistudio.baidu.com/aistudio/projectdetail/2792887 1 第一步 安装Parakeet ...
- Android中文语音合成(TTS)各家引擎对比 .
Android中文语音合成(TTS)各家引擎对比 Yao.GUET 2012-02-03,转载请注明出处:http://blog.csdn.net/Yao_GUET Android系统从1.6版本开始 ...
- 基于Tacotron汉语语音合成的开源实践
语音合成(Text to Speech Synthesis)是一种将文本转化为自然语音输出的技术,在各行各业有着广泛用途.传统TTS是基于拼接和参数合成技术,效果上同真人语音的自然度尚有一定差距,效果 ...
- ####好好好好####基于Tacotron汉语语音合成的开源实践
2017年初,Google 提出了一种新的端到端的语音合成系统--Tacotron.Tacotron打破了各个传统组件之间的壁垒,使得可以从<文本,声谱>配对的数据集上,完全随机从头开始训 ...
- 中文语音合成综合评测一(可懂度)
可懂度描述 mel谱角度 (来自T-1)使用了mel谱而不用: The inputs to WaveNet: a. linguistic features b. predicted log(F0) c ...
- 中文语音合成开源模型总结
近段时间一直忙于语音开源克隆模型的尝试,现总结如下: MockingBird:特点是克隆的声音音色比较像,缺点也很明显,速度慢,5秒左右,可以优化到0.4-1.2秒左右,MOS值偏低: Vits:特点 ...
- linux中文语音合成软件,中文TTS 的容易告终(基于linux)之 语音库的告终
语音库保留着常用汉字的发音(多音的汉字只登记其一种发音,这也是本系统的一个缺点,必需尔后健全),因而先要获得一汉字集,这个汉字集包括了大局部常用的汉字,然后在依据这个汉字集,来一个个的获得汉字的发音, ...
最新文章
- H264码流打包分析(精华)
- Bresenham 算法画线 画圆
- fastRPC的数据库服务
- SAP UI5 Hash session 2016-07-18
- OCR文本检测-RRPN
- jmeter导入DB数据再再优化
- 如何初始化一个vue项目
- [专栏精选]UnityWebRequest详解
- 【Python-3.5】绘制随机漫步图
- (已解决) centos6.5 yum源 失效 The whole CentOS 6 is dead and shouldn’t be used anywhere at all
- 十分钟利用windows7漏洞破解开机密码
- 数字孪生典型应用案例
- 社会工程学(安全牛)
- Poetry of Today3--琵琶行
- 重庆php就业前景,重庆就业前景最好的十大专业是哪些_中职中专网
- 用二维数组进行学生的成绩排序和计算
- A79T三极管,A79T芯片规格书
- 今日头条推广入门必懂知识简介
- 中国版权力的游戏构思
- 51nod3146 绿豆蛙的归宿
热门文章
- win10家庭版远程无法连接win11专业版,报错“你的凭据不工作“
- 保护鲸鱼动物网页设计作业 静态HTML宠物主题网页作业 DW鲸鱼网站模板下载 大学生简单动物网页作品代码 个人网页制作 学生个人网页
- 【弱的C艹之路。。未完待续】
- Final Cut Pro X 10.4.8 Apple出品的专业视频非线性编辑软件
- Jmeter书中不会教你的(94)——将时间戳转换为日期格式
- 下个月去北京了,心如一团乱麻好多事情要解决,但是不知道从哪里开始,还是顺其自然吧,一件件的解决...
- 运用计算机辅助设计的药物实例,计算机辅助设计在药物研发中的应用现状探究...
- 没想到吧,这就是算法工程师的一天!
- cuda-z/gpu-z/cpu-z工具分析GPU显卡和CPU算力信息
- 谷歌三大论文之the Google File System