0. 说明

记录的是2021-2-15到2021-3-8之间的工作

主要是跨语言音色迁移的三步走中:

  1. Pre-trained Ear Speech
  2. Self-trained Ear Speech

的系统搭建和实验结果

同时也给

  • Tacotron 找到/实现了更好的一版 Pytorch 代码
  • https://github.com/ruclion/Tuned-GE2E-EarSpeech (跑通了, 并且效果好)
  • https://github.com/ruclion/WisdomTeeth-Tacotron (能训练运行, 但是还有错误)

1. Pre-trained Ear Speech

详细过程见:

https://blog.csdn.net/u013625492/article/details/114433229

1.1. 代码

  • 来源: RealTime VoiceClone: https://github.com/CorentinJ/Real-Time-Voice-Cloning
  • 简化它, 写在 Git 中: https://github.com/ruclion/Pretrained-EarSpeech

1.2. 注意事项

  1. 下载到 Pretrained-EarSpeech 文件夹
  2. unzip pretrained.zip
  3. 直接使用 Pre-trained Model

1.3. 实验结果

  • 无口音
  • 质量低

2. 参考音频优化

2.1. 思路

  1. 用 M2VoC 的数据训练
  2. 可以加上 databaker, thucoss
  3. 并且可以在 RTVC-7 Voice Cloning Model 的 Tacotron Pretrained Model 上忽略 embedding layer, 进行 Tune

npy-EarSpeech-HCSI-Data -> dereverb_npy -> SSB0005 -> spk-SSB00050001.npy

-> spk-SSB00050002.npy

-> SSB0009 -> ...

-> tst_npy          -> MST-Originbeat-S1-female-5000 -> spk-000001.npy

-> TST-Track1-S4-male-Game-100 -> spk-000001.npy

2.2. Base 版逻辑

https://github.com/ruclion/Tuned-EarSpeech

依据是改动代码最少

需要枚举的逻辑有很多, 其中本质上思路有不同的:

  • Base 版 的 Speaker Embedding 使用张阳给逸轩的, 加了一个 FC 到 256; 再尝试下 GE2E 的

仅仅是可以加快收敛的:

  • Base 版未进行 Guided Attention
  • Base 版模型随机初始化, 不使用 warm-up
  • 代码中只有 60000 的 train data, 没有 validation 的代码
  • Batch 只使用的代码自带的 12, 实际上 16 或者 20 应该没问题

2.3. GE2E 版逻辑

https://github.com/ruclion/Tuned-GE2E-EarSpeech

依据是在 Base 版的基础上, 只改动 Speaker Embedding 为 GE2E 的结果, 其他思路先不加

逻辑从 /ceph/home/hujk17/Tuned-GE2E-EarSpeech/FaPig_extract_GE2E.py 开始, 提取完了所有的 GE2E Embedding

  • 256 的 Embedding 仍然后面接了一个 FC, 和 Base 一致, 并且 FC 也不会太影响
  • 换代码的时候, 仅仅是指定 speaker 路径不同
  • 剩下代码和 Base 完全一致

2.4 Base 版实验结果

  • batch_size = 12, 4000 多内存
  • 7 个小时左右, 到达 20000 步, 能够初步形成 alignment 图, Tacotron 代码版本正确
  • teacherForce 的音频还可以

2.5 GE2E 版实验结果

  • batch_size = 12, 4000 多内存
  • 2个小时左右, 到达 7000 步, 能够初步形成 alignment 图, 证明 GE2E Speaker Embedding 更集中一些/准确
  • teacherForce 的音频还可以

3. 下阶段任务

  • 商业化 TTS 的尝试

专业实践记录IIII: 端到端跨语言音色迁移语音合成论文 - 三步走相关推荐

  1. 钉钉api接口 Java_服务端对接钉钉三步走

    服务端对接钉钉三步走 第一步:获取业务对接的appkey和appsecret 登录开发者后台,点击"应用开发"-"企业内部应用"-找到应用并点击应用图标-点击& ...

  2. 知物由学 | 再造巴别塔,我们如何进行NLP跨语言知识迁移?

    知物由学 | 再造巴别塔,我们如何进行NLP跨语言知识迁移? 自以 BERT 为代表的预训练语言模型诞生起,关于其跨语言版本的探索研究就从未停止过.2020 年 4 月,Google 发布了 XTRE ...

  3. Exchange 服务器 跨森林 邮件迁移案例分享 (三)

    既然共存环境已经设置好了,万事具备,我们可以开始迁移邮箱了. 1. 我们需要把 address policy 自动更新地址的功能禁止掉. set-mailbox NHirons -EmailAddre ...

  4. 两个分布的特征映射_跨语言分布表示学习方法概述

    分布表示(distributed representation)与深度神经网络(deep neural network)极大地推动了近几年自然语言处理研究的发展.我们知道,分布表示指的是对于一个客观描 ...

  5. Linux环境下Arm端源码编译OpenCV+ncnn目标检测模型实例运行调试完整实践记录

    今天需要在嵌入式设备端运行C的程序,里面有依赖OpenCV的部分,这就需要编译安装好OpenCV才行,这个对于我来说还是比较陌生的,我很少用C,所以这里面也没少折腾,一路上遇上了很多的报错,这里我将完 ...

  6. 红鸟沙龙(12)|李泽湘:端到端创业教育与实践探索

    所谓大众创业,万众创新,如今越来越多的同学在毕业之后准备投入到创业大军当中,那么我们的大学教育是否为这种趋势做好了准备?我们有没有为这些同学打通一条从象牙塔到创业者的道路?如果我们做的还不够的话,我们 ...

  7. 某银行大型管理系统端到端持续集成和交付实践

    背景 传统的银行IT系统研发流程从需求提出到产品交付往往具有较长的研发周期,纵观银行当下面临的市场环境,个人信贷消费升级,资管需求旺盛,普惠金融成为国家战略,来自银行同业和互联网金融的压力扑面而来,谁 ...

  8. [敏捷开发实践] 端到端测试你了解多少?

    端到端测试你了解多少? 端到端测试是一种软件测试方法,用于从开始到结束测试应用程序流.此测试的目的是模拟真实的用户场景,验证被测系统及其组件的集成和数据完整性. 它自始至终都是在实际场景下执行的,比如 ...

  9. 【记录】本科毕设:基于树莓派的智能小车设计(使用Tensorflow + Keras 搭建CNN卷积神经网络 使用端到端的学习方法训练CNN)

    0 申明 这是本人2020年的本科毕业设计,内容多为毕设论文和答辩内容中挑选.最初的灵感来自于早前看过的一些项目(抱歉时间久远,只记录了这一个,见下),才让我萌生了做个机电(小车动力与驱动)和控制(树 ...

最新文章

  1. Java的中BIO、NIO、AIO-1
  2. 【ArcGIS风暴】ArcGIS平台上点云(.las)数据生成等高线方法案例精解
  3. 使用JFlex生成词法分析器 1:安装配置
  4. thinkphp mysql 中文_耗时5天解决thinkphp连接mysql中文乱码的问题
  5. 制作手风琴效果的注意事项(附代码)
  6. 求求了!让 Python 的热搜消失吧!!
  7. ubuntu下rar文件解压后文件名乱码
  8. TOCControl 的HitTest()方法
  9. GCC vector 叠加示例
  10. Minidump文件分析
  11. PhotoShop CS5制作残旧的印章效果
  12. kasp技术原理_Massarray技术——中高通量大样本的SNP检测利器!
  13. 微信公众号接口开发--回复消息
  14. 0x000000C2:BAD_POOL_CALLER 蓝屏修复
  15. 2021秋季《数据结构》_EOJ 1063.树的双亲存储法(parent+child / parent)
  16. OFD文件怎么打开?OFD免费转PDF?
  17. 腾讯企业邮箱OpenApi
  18. SARscape报错Attempt to call undefined function:等问题
  19. ipv4如何访问ipv6的地址
  20. 终端天线—2.IFA天线仿真

热门文章

  1. 机房智能网络监控系统一体解决方案
  2. 2018年网龙、深圳盒子产品经理校招笔试题简要分享
  3. Navicat数据传输及数据同步的定时任务
  4. linux7双系统启动顺序,实测win10 efi启动及centos7双系统引导顺序修改
  5. 通过cmd注销服务器,如何通过cmd命令远程重启或远程关闭Windows服务器
  6. 基因与疾病百年研究进展
  7. 看完年薪 30W~120W 程序员分别需要掌握的技能栈,我彻底悟了
  8. SCRM与传统CRM有什么区别?
  9. 什么是哈希冲突,怎么解决哈希冲突的问题?
  10. 稀疏表示、字典学习、压缩感知的简单理解