声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

End-to-End Code-Switching TTS with Cross-Lingual Language  Model

本文章是新加坡国立大学电气与计算机工程系李海洲老师团队在icassp 2020发表的文章,主要做语言转换TTS工作,具体的文章链接

https://ieeexplore.ieee.org/abstract/document/9054722

1 研究背景

现在的TTS模型不仅需要支持多种语言,还要支持语言之间的切换自然。然而,大部分企业手中拥有不同说话人不同语言的语料,要想获取同一说话人不同语言的语料需要花费昂贵的成本。本文章设计了支持多语言跨语言的TTS,使语言切换更加自然。(研究背景实在不想再阐述了,其实目的只有一个:在缺乏同一个说话人拥有多种语言训练语料前提下,使该说话人的TTS模型支持多语言,而且语言切换更加自然)

2 系统结构

该文章的主要想法其实很简单,我在此先阐述一下本文章的主要想法。本文章提出先使用跨语言语言模型(CLLM)把输入的文本输出词向量(WV),该词向量包含了上下文语境,然后把该向量与encoder输出和音素进行拼接,使输入到decoder的内容包含更多的语言信息,从而提高语音自然度。

本文章是在tacotron2(图 1所示)基础上进行修改,另外比较有意思的是图2的残差encoder,该部分把音素与encoder 输出进行拼接,从而保持更多的语言信息。图3是本文添加了跨语言语言模型(CLLM属于NLP处理的知识),该模型可以输出多种语言的词向量,词向量包含上下文环境变量。(这样看来文章整体思想很简单。)

3 实验

实验的话也不具体讲,本文使用MUSHRA方法进行对比。图4是显示是否做adaptation效果,其中i-vex是不做,由结果可知做adaptation效果好。图5图6显示本文提出的添加CLWE模块在跨语言和单语言效果都较好。

4 总结

本文主要把自然语言里的跨语言语言模型CLLM应用到端到端的TTS中,该模块可以更好添加语言之间的上下文信息,从而使合成语言切换更好。

语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language  Model相关推荐

  1. 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...

  2. 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...

  3. 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...

  4. 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...

  5. 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...

  6. 论文解读:《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》

    <语言驱动的用于语码转换语言模型的并行数据增强> 论文地址:Linguistically Motivated Parallel Data Augmentation for Code-swi ...

  7. 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...

  8. 语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...

  9. 语音合成(TTS)论文优选:过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

最新文章

  1. Qt 4.3 公布揭晓
  2. SourceTree安装破姐添加SSH KEY以及拉取代码教程(附资源下载)
  3. 排查链接是否失效_如何进行移动站点流量排查?
  4. Python学习笔记-包
  5. 工作那些事儿(8)- 废旧立新
  6. android scrollow嵌套listview,excel 中IDEX和MATCH函数嵌套应用.doc
  7. python网格搜索优化参数_python - pyspark:在网格搜索为空后获得最佳模型的参数{} - 堆栈内存溢出...
  8. Ubuntu 如何定制桌面解放你的个性?
  9. PMP考试扫盲:超详细的PMP考试小白攻略,必看篇
  10. 科技狂人埃隆·马斯克
  11. 计算机RRC是什么指令,srb0 srb1 srb2的区别_srb什么意思_srb1 RRC建立请求
  12. 深入理解color model(颜色模型)
  13. SV中的浅拷贝和深拷贝
  14. Unity九宫格切割图片 2D Sprite
  15. hdu5761 Rower Bo(物理题or瞎猜)
  16. LitJson在Unity中的使用
  17. 企业SaaS商怎么转型做企业服务商
  18. Kubernetes 高可用集群部署
  19. 常用的舆情监测技术分享
  20. ELK:LogStash写入ES索引建立差8个时区问题

热门文章

  1. 南信大iNUIST校园网自动登录代码
  2. PaddleWeekly | 支持GPU加速!这款硬字幕提取神器超好用
  3. Wireshark网络抓包工具
  4. 排序指标CG,DCG,NDCG
  5. 基于微金字塔结构的压阻传感器的优化设计
  6. 丰田生产方式和TOC工序切换时间的解决
  7. 如何应对HR小姐姐的千年历史遗留问题:你为什么从上家公司离职?
  8. 各数据库导入/导出Access教程--图解
  9. CPU使用率过高及优化方法
  10. 6.5 【加密和安全】- 重合指数 无线网络