语音合成论文优选：One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization

本文章是国立台湾大学电气工程与计算机科学学院发表的关于声音转换的工作，本文章是把音频分解为语言特征和说话人特征，然后再进行组合，具体的文章链接

https://arxiv.org/pdf/1904.05742.pdf

demo链接

one-shot-vc-demo

（最近搞VC，前期试验使用ppg效果还算好，但存在的缺点是效果受到ASR的制约，而且刚进入公司不久，跨组让ASR帮忙真的很不便利，因此决定不使用ppg方案，所以尝试该篇文中的方案）

1 研究背景

voice conversion是保留音频的内容而更换音频的音色，以前的VC可以被分为两类：平行数据和非平行数据。平行数据是转换设计的源音频和目标音频的内容一致，这是不容易获得的。非平行数据是源音频和目标音频的内容不一致，甚至可以跨语言，因此受到很多人的关注。目前，非平行数据可以使用GAN进行直接转换或者使用ASR作为辅助来进行转换，但效果受到ASR好坏的制约，而且这些方案不能够转换训练集外的说话人。因此本文提出了支持one-shot的音频转换方案，操作起来更加便捷。

2 详细设计

本文的整体架构如图1所示，该系统包括speaker encoder, content encoder和decoder 三部分模块。speaker encoder进行speaker信息的提取，context encoder提取音频的内容，其中该部分去除speaker 信息没有使用反转网络而是使用IN的结构，该结构我在其它部分找到PPT图片，大家可以直接看图。decoder部分则是把encoder和speaker输出重新生成音频。该三部分的具体网络结构如图2所示，其中训练的LOSS为公式3。

3 实验

看一下实验结果，先说明IN对解耦说话人的信息效果，table 1为解耦效果，可以看出添加IN可以很好的解耦说话人。图3展示了speaker encoder的效果，在训练集内核外的编码，不同性别能够很好的区分开来。接下来看一下转换音频的客观指标，图4和图5可以看出转换后的音频和原始音频特征分布很像。主观测评图6可以看出，转换的音频的相似度和目标说话人很像。

4 总结

VC方案可以被分为两类：平行数据和非平行数据。非平行数据是源音频和目标音频的内容不一致，甚至可以跨语言，因此受到很多人的关注。目前，非平行数据可以使用GAN进行直接转换或者使用ASR作为辅助来进行转换，但效果受到ASR好坏的制约，而且这些方案不能够转换训练集外的说话人。因此本文提出了支持one-shot的音频转换方案，操作起来更加便捷。

语音合成论文优选：One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N相关推荐

语音合成论文优选：唇语Speaker disentanglement in video-to-speech conversion
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Speaker disentangle ...
语音合成论文优选：M2voc大赛总结The M2voc Challenge 2021
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 The Multi-speaker M ...
语音合成论文优选：Unified Mandarin TTS Front-end Based on Distilled BERT Model
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...
语音合成论文优选：Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Flavored Tacotron: ...
语音合成论文优选：Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Efficiently Trainab ...
语音合成论文优选：语音合成综述（2021）
声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...
语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》
<An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...
【20220121】Voice conversion
voice conversion 1. autovc zero-shot 代码复现 retrain Vocoder 划分数据集 Bottleneck维度分析 2. CLSVC 代码复现 3. Spee ...
【VC】VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture
VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture Abstract Introduction ...

语音合成论文优选：One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N

语音合成论文优选：One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N相关推荐

最新文章

热门文章