语音合成（TTS)论文优选：End-to-End Code-Switching TTS with Cross-Lingual Language Model

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

End-to-End Code-Switching TTS with Cross-Lingual Language Model

本文章是新加坡国立大学电气与计算机工程系李海洲老师团队在icassp 2020发表的文章，主要做语言转换TTS工作，具体的文章链接

https://ieeexplore.ieee.org/abstract/document/9054722

1 研究背景

现在的TTS模型不仅需要支持多种语言，还要支持语言之间的切换自然。然而，大部分企业手中拥有不同说话人不同语言的语料，要想获取同一说话人不同语言的语料需要花费昂贵的成本。本文章设计了支持多语言跨语言的TTS，使语言切换更加自然。（研究背景实在不想再阐述了，其实目的只有一个：在缺乏同一个说话人拥有多种语言训练语料前提下，使该说话人的TTS模型支持多语言，而且语言切换更加自然）

2 系统结构

该文章的主要想法其实很简单，我在此先阐述一下本文章的主要想法。本文章提出先使用跨语言语言模型（CLLM)把输入的文本输出词向量（WV），该词向量包含了上下文语境，然后把该向量与encoder输出和音素进行拼接，使输入到decoder的内容包含更多的语言信息，从而提高语音自然度。

本文章是在tacotron2（图 1所示)基础上进行修改，另外比较有意思的是图2的残差encoder，该部分把音素与encoder 输出进行拼接，从而保持更多的语言信息。图3是本文添加了跨语言语言模型（CLLM属于NLP处理的知识），该模型可以输出多种语言的词向量，词向量包含上下文环境变量。（这样看来文章整体思想很简单。）

3 实验

实验的话也不具体讲，本文使用MUSHRA方法进行对比。图4是显示是否做adaptation效果，其中i-vex是不做，由结果可知做adaptation效果好。图5图6显示本文提出的添加CLWE模块在跨语言和单语言效果都较好。

4 总结

本文主要把自然语言里的跨语言语言模型CLLM应用到端到端的TTS中，该模块可以更好添加语言之间的上下文信息，从而使合成语言切换更好。

语音合成（TTS)论文优选：End-to-End Code-Switching TTS with Cross-Lingual Language Model相关推荐

语音合成（TTS)论文优选：Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...
语音合成TTS论文优选：A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...
语音合成（TTS)论文优选：Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...
语音合成（TTS论文优选：VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...
语音合成（TTS)论文优选：ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...
论文解读：《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》
<语言驱动的用于语码转换语言模型的并行数据增强> 论文地址:Linguistically Motivated Parallel Data Augmentation for Code-swi ...
语音信号处理（DSP）论文优选：Interactive Modeling for Speech Enhancement
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...
语音合成论文优选：Unified Mandarin TTS Front-end Based on Distilled BERT Model
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...
语音合成（TTS）论文优选：过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

语音合成（TTS)论文优选：End-to-End Code-Switching TTS with Cross-Lingual Language Model

End-to-End Code-Switching TTS with Cross-Lingual Language Model

语音合成（TTS)论文优选：End-to-End Code-Switching TTS with Cross-Lingual Language Model相关推荐

最新文章

热门文章