语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language Model
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
End-to-End Code-Switching TTS with Cross-Lingual Language Model
本文章是新加坡国立大学电气与计算机工程系李海洲老师团队在icassp 2020发表的文章,主要做语言转换TTS工作,具体的文章链接
https://ieeexplore.ieee.org/abstract/document/9054722
1 研究背景
现在的TTS模型不仅需要支持多种语言,还要支持语言之间的切换自然。然而,大部分企业手中拥有不同说话人不同语言的语料,要想获取同一说话人不同语言的语料需要花费昂贵的成本。本文章设计了支持多语言跨语言的TTS,使语言切换更加自然。(研究背景实在不想再阐述了,其实目的只有一个:在缺乏同一个说话人拥有多种语言训练语料前提下,使该说话人的TTS模型支持多语言,而且语言切换更加自然)
2 系统结构
该文章的主要想法其实很简单,我在此先阐述一下本文章的主要想法。本文章提出先使用跨语言语言模型(CLLM)把输入的文本输出词向量(WV),该词向量包含了上下文语境,然后把该向量与encoder输出和音素进行拼接,使输入到decoder的内容包含更多的语言信息,从而提高语音自然度。
本文章是在tacotron2(图 1所示)基础上进行修改,另外比较有意思的是图2的残差encoder,该部分把音素与encoder 输出进行拼接,从而保持更多的语言信息。图3是本文添加了跨语言语言模型(CLLM属于NLP处理的知识),该模型可以输出多种语言的词向量,词向量包含上下文环境变量。(这样看来文章整体思想很简单。)
3 实验
实验的话也不具体讲,本文使用MUSHRA方法进行对比。图4是显示是否做adaptation效果,其中i-vex是不做,由结果可知做adaptation效果好。图5图6显示本文提出的添加CLWE模块在跨语言和单语言效果都较好。
4 总结
本文主要把自然语言里的跨语言语言模型CLLM应用到端到端的TTS中,该模块可以更好添加语言之间的上下文信息,从而使合成语言切换更好。
语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language Model相关推荐
- 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...
- 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...
- 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...
- 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...
- 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...
- 论文解读:《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》
<语言驱动的用于语码转换语言模型的并行数据增强> 论文地址:Linguistically Motivated Parallel Data Augmentation for Code-swi ...
- 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...
- 语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...
- 语音合成(TTS)论文优选:过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
最新文章
- Qt 4.3 公布揭晓
- SourceTree安装破姐添加SSH KEY以及拉取代码教程(附资源下载)
- 排查链接是否失效_如何进行移动站点流量排查?
- Python学习笔记-包
- 工作那些事儿(8)- 废旧立新
- android scrollow嵌套listview,excel 中IDEX和MATCH函数嵌套应用.doc
- python网格搜索优化参数_python - pyspark:在网格搜索为空后获得最佳模型的参数{} - 堆栈内存溢出...
- Ubuntu 如何定制桌面解放你的个性?
- PMP考试扫盲:超详细的PMP考试小白攻略,必看篇
- 科技狂人埃隆·马斯克
- 计算机RRC是什么指令,srb0 srb1 srb2的区别_srb什么意思_srb1 RRC建立请求
- 深入理解color model(颜色模型)
- SV中的浅拷贝和深拷贝
- Unity九宫格切割图片 2D Sprite
- hdu5761 Rower Bo(物理题or瞎猜)
- LitJson在Unity中的使用
- 企业SaaS商怎么转型做企业服务商
- Kubernetes 高可用集群部署
- 常用的舆情监测技术分享
- ELK:LogStash写入ES索引建立差8个时区问题