声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning

本文章是google公司在2019.07.24更新的文章,主要做multilingual speech synthesis 的工作,具体的文章链接https://arxiv.org/pdf/1907.04448.pdf

(我之所以写这篇文章,因为我目前做的一个方向也是multilingual & code switch,近期想总结一下该方向的发展状况,而这篇该领域最经典的文章是绕不过去的。先写这篇文章,后续整理该方向综述会更简便一些)

1 研究方向

现在的TTS模型不仅需要支持多种语言,还要支持语言之间的切换自然。然而,大部分企业手中拥有不同说话人不同语言的语料,要想获取同一说话人不同语言的语料需要花费昂贵的成本。本文章使用单语言语料设计了支持多语言跨语言的TTS,而且可以支持语言切换。(研究背景实在不想再阐述了,其实目的只有一个:在缺乏同一个说话人拥有多种语言训练语料前提下,使该说话人的TTS模型支持多语言)

2 详细设计

详细的系统的架构如图1所示。这个架构非常经典,之后发表的很多文章都是在这种架构上修修改改,毕竟是出自google。该架构由3部分组成:inference network, DAT(domain adversarial training)和synthesis network。inference network使用了变分自编码VAE来学习音频的隐含变量,比如韵律,噪声等等,该模块为非监督学习。DAT模块为图中绿色部分(adversarial loss,主要训练时候使用),主要功能把语言信息和固定的speaker进行解耦。synthesis network模块为最下边的模块,本文使用tacotron2,该模块就是把语言特征转成声学特征。另外,本文研究方向为multilingual & multispeaker,因此额外添加language embedding和speaker embedding。此外,本文也对文本输入格式进行对比:characters/graphemes, uft8-bytes 和phonemes,后边的实验结果可以做个很好的经验。

3 实验

本文实验主要测试客观指标:相似度和自然度。

首先,先测试英语EN,西班牙语ES,和中文CN之间的相似性,结果如table 1所示。由结果可知,ES和CN稍微相似一些,其值大于2,其它之间相似度很低。

接下来,先验证输入格式的效果对比:characters/graphemes, uft8-bytes 和phonemes。由table2可知,无论何种情况,使用phonemes都是效果最好(这个可以作为积累的经验记着)。

然后,可以对比一下adversarial 和residual encoder模块的作用(我按照自己的想法对本文章的实验顺序改了一下,这样看起来更好)。由table3可知,使用adversarial (DAT)的效果更好。由table 5可知,使用residual encoder的Mos值更高。

最后,比较一下miultilingual 的voice clone的效果,由table 4和图2可以看出,该系统可以很好迁移语言,使说话者可以说不同语言。

4 总结

本文使用单语言语料来迁移语言特征,使任意说话人可以说多种语言。本文作为multilingual & code switch的经典文章不得不读,而且该系统可以很好扩展到其它domain的学习,google出品就是精品。

语音合成(TTS)论文优选:Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cr相关推荐

  1. 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...

  2. 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...

  3. 语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language  Model

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 End-to-End Cod ...

  4. 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...

  5. 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...

  6. 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...

  7. 【论文学习】《A Survey on Neural Speech Synthesis》

    <A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...

  8. 语音合成(speech synthesis)方向五:多语言模型multi-lingual and code switch speech synthesis

    本文稍长,希望能耐住性子看下去 声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 ht ...

  9. 语音合成 | 精选论文汇总(197篇)

    ​语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...

  10. 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...

最新文章

  1. python udp 直播_[Python] socket发送UDP广播实现聊天室功能
  2. 【WPF】MeshGeometry3D中的Normals和TextureCoordinates属性
  3. 关于php插件pdo_mysql的安装
  4. Android SDCard Mount 流程分析(一)
  5. linux 根目录突然增大
  6. (33)FPGA原语设计(BUFGCE)
  7. git commit之后后面的操作步骤
  8. r语言 怎么把字调大_R语言中的字体调整
  9. 股市的逻辑-201006-2
  10. java键盘钩子_java 写的低级鼠标键盘钩子示例
  11. 速成! | 遗传算法详解及其MATLAB实现
  12. 2017年上半年软件设计师考试真题及答案(上午+下午)免费
  13. OSTU 最佳全局阈值处理-最大类间方差法
  14. 详解30道Vue面试题
  15. 照片宽高比怎么设置_【经验分享】照片处理
  16. SATA硬盘在安装OS时注意AHCI模式
  17. 【转载】测试报告模板
  18. 【matlab实现股票量化分析收盘价曲线作图-附源码】
  19. Istio的授权策略
  20. Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding

热门文章

  1. 网易公司创始人兼CEO丁磊:独家版权偏离了传播的初衷,已陷入资本运作的怪圈...
  2. iMeta | 南京医科大学孔祥清团队创建前瞻性多组学纵向原发高血压队列eHypertension...
  3. RAM 与 ROM, CPU 与 GPU ,显卡与显存 区别以及关系等
  4. DNW刷机210步骤和常见问题
  5. Navigator对象,获取浏览器类型userAgent,机器类型platform
  6. 输入数据求熵值法matlab代码,熵值法matlab程序
  7. codefoces 417D Cunning Gena 状压DP
  8. 中国(广西)壮语春节联欢晚会将举办
  9. matlab条形图标注数据,matlab条形图怎样标注
  10. 小趴菜学习c语音记录第六天