【VC】VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture
VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture
- Abstract
- Introduction
- Method
- VQVC
- VQVC+
- Experimental Setup
- Datasets
- Training details
- Experiment
- Content embedding
- Speaker embedding
- Subjective evaluations
Abstract
Voice conversion 是要转换说话人的音色,口音,音调的同时保留内容。在one-shot的场景下是一个比较有挑战性的问题。基于Auto-encoder的VC不需要speaker identity就能够将speaker与内容解耦,因此对于没见过的speaker有泛化作用。常用的解耦方法有vector quantization (VQ), adversarial training, or instance normalization (IN). 但是解耦可能会损害音质。在本文工作中,在Auto-encoder架构的VC中应用了U-Net结构。为了应用U-Net结构,需要一个strong information的bottleneck,VQ-based方法能够实现这个目标。主观评测和客观评测表明音频自然度和说话人相似度perform well.
Introduction
传统方法,VC集中于one-one或者many-one的问题,应用parallel数据,parallel data收集起来比较困难。最近,many-many unparallel VC被研究(cycleGAN, starGAN, BLOW), 这些模型不需要解耦直接转换,实现了令人满意的音质。另一些工作通过替换speaker embedding实现转换。另外也有一些工作是通过layer dimension, IN , VQ来解耦内容。为了解耦需要一个很强的latent bottleneck, 音质被牺牲了。为了解决这个问题,本文提出了IN和VQ结合的解耦,并应用了U-Net的方法。与AutoVC和One-Shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization中的方法对比,VQVC+在主观和客观评测中表现更好。
Method
VQVC
VQVC是一个one-shot VC系统,通过重构loss得到的。核心的想法是,内容信息可以被表示为离散的codes,speaker信息被视为连续的representation和离散的code的差异。
VQVC架构
L r e c ( Q , θ e n c , θ dec ) = E X ∈ X [ ∥ X ^ − X ∥ 1 1 ] L_{r e c}\left(\mathcal{Q}, \theta_{e n c}, \theta_{\text {dec }}\right)=\mathbb{E}_{\boldsymbol{X} \in \mathcal{X}}\left[\|\hat{\boldsymbol{X}}-\boldsymbol{X}\|_1^1\right] Lrec(Q,θenc,θdec)=EX∈X[∥X^−X∥11]
L latent ( θ e n c ) = E t [ ∥ I N ( V ) − C ∥ 2 2 ] L_{\text {latent }}\left(\theta_{e n c}\right)=\mathbb{E}_t\left[\|I N(\boldsymbol{V})-\boldsymbol{C}\|_2^2\right] Llatent(θenc)=Et[∥IN(V)−C∥22]
L = L r e c + λ L latent L=L_{r e c}+\lambda L_{\text {latent }} L=Lrec+λLlatent
VQVC+
VQVC的音质受损,本文讲音质受损的原因归结为VQ导致了information loss,因此decoder在重构音频时不能够将内容正确重建。VQVC+应用了U-Net的结构帮助提升音质,结构如下。
Experimental Setup
Datasets
VCTK
Training details
https://github.com/ericwudayi/SkipVQVC
Experiment
Content embedding
不同speaker的V_0和C_0
Speaker embedding
Subjective evaluations
【VC】VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture相关推荐
- SSD论文阅读(Wei Liu——【ECCV2016】SSD Single Shot MultiBox Detector)
本文转载自: http://www.cnblogs.com/lillylin/p/6207292.html SSD论文阅读(Wei Liu--[ECCV2016]SSD Single Shot Mul ...
- 【iOS】使用SQLite3的时候Swift3.、XCode8报错:Unsupported architecture - 'arm/arch.h'file not found - Could not
[iOS]使用SQLite3的时候Swift3..XCode8报错:Unsupported architecture - 'arm/arch.h'file not found - Could not ...
- 【VC】accent conversion 口音转换论文
文章目录 1. Audio Style Transfer for Accents 2. END-TO-END ACCENT CONVERSION WITHOUT USING NATIVE UTTERA ...
- 【VC】Converting Foreign Accent Speech Without a Reference
文章目录 1. INTRODUCTION 2. RELATED WORK A. 传统FAC方法 B. 基于sequence-to-sequence模型的FAC C. 之前的reference-free ...
- 【转】【VC】VC程序运行时间测试函数
1:Sleep函数 使用: sleep(1000),在Windows和Linux下1000代表的含义并不相同,Windows下的表示1000毫秒,也就是1秒钟: Linux下表示1000秒,Linux ...
- 【VC++】Visual Studio编辑器“智能提示(IntelliSense)”异常的解决方案
许多用户在使用Visual Studio的过程中,常会遇到"智能提示(IntelliSense)"功能异常的情况,这里提供几种用于解决这一问题的方法,希望对各位有用. 原文地址:H ...
- C语言实现易语言变量框,【VC】发一个自己用c语言写的仿易语言的文本_取文本左边函数把...
[C] 纯文本查看 复制代码/* 取字符串左边函数 */ #include #include int G_getstrleft(const char *p,const char *p2){ int n ...
- 【vc】CFileDialog 使用介绍
CFileDialog [ 2006-9-29 23:54:00 | By: superleeo ] CFileDialog文件选择对话框的使用:首先构造一个对象并提供相应的参数,构造函数原型如下: ...
- 【VC】 swscanf_s 函数使用,方便快捷的转换数据格式
int swscanf_s(const wchar_t *buffer,const wchar_t *format [,argument ] ... ); 例如:取字符串的颜色值. UINT R,G, ...
最新文章
- mysql 集群 备份_mysql cluster集群备份还原
- 工作随笔之nginx 应用场景
- 计算机网络技术中的NAT,计算机网络技术中的NAT-2.ppt
- 5、HIVE DML操作、load数据、update、Delete、Merge、where语句、基于分区的查询、HAVING子句、LIMIT子句、Group By语法、Hive 的Join操作等
- Java 开发者必备手册开放下载!
- const和define 区别
- php session_regenerate_id,什么时候以及为什么我应该使用session_regenerate_id()?
- 一个非常实用的 div+css 实现的导航条
- LINUX查看文件系统
- mysql字符类型_MySQL学习分享--字符类型
- duilib 控件位置
- 一本通1373:鱼塘钓鱼(fishing)
- 威纶通触摸屏做主站(客户端)与modsim虚拟从站通过MODBUS TCP/IP通讯测试
- 第四周项目3--单链表应用之递增判断
- 《微信小游戏远程服务器本地搭建》——本地搭建IIS静态文件服务器
- Linux3._Linux环境基础开发工具使用
- Pdg2Pic JPG质量系数
- The 10 Most Important Linux Commands/10个最经常使用的命令行
- 【CAT魔改】CAT-LOCAL项目的诞生
- POJ 1647 One-move checkmate G++
热门文章
- 20222948 2022-2023-2 《网络攻防实践》第2周作业
- 智能制造实验室建设方案
- 【Python项目实战】基于时间卷积网络(Temporal Convolution Network ,TCN)的发动机剩余寿命预测
- VS2005:error PRJ0002
- 【产品经理交互常用软件】axure软件详细教程与学习指南
- JavaScript对象详解
- Word2Vec语言模型训练和使用
- 如何让新网站快速被百度收录
- 宇视交换机监控模式用途与使用方式
- Flow Chart Maker Online Diagram Software | Lucidchart