VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture

  • Abstract
  • Introduction
  • Method
    • VQVC
    • VQVC+
  • Experimental Setup
    • Datasets
    • Training details
  • Experiment
    • Content embedding
    • Speaker embedding
    • Subjective evaluations

Abstract

Voice conversion 是要转换说话人的音色,口音,音调的同时保留内容。在one-shot的场景下是一个比较有挑战性的问题。基于Auto-encoder的VC不需要speaker identity就能够将speaker与内容解耦,因此对于没见过的speaker有泛化作用。常用的解耦方法有vector quantization (VQ), adversarial training, or instance normalization (IN). 但是解耦可能会损害音质。在本文工作中,在Auto-encoder架构的VC中应用了U-Net结构。为了应用U-Net结构,需要一个strong information的bottleneck,VQ-based方法能够实现这个目标。主观评测和客观评测表明音频自然度和说话人相似度perform well.

Introduction

传统方法,VC集中于one-one或者many-one的问题,应用parallel数据,parallel data收集起来比较困难。最近,many-many unparallel VC被研究(cycleGAN, starGAN, BLOW), 这些模型不需要解耦直接转换,实现了令人满意的音质。另一些工作通过替换speaker embedding实现转换。另外也有一些工作是通过layer dimension, IN , VQ来解耦内容。为了解耦需要一个很强的latent bottleneck, 音质被牺牲了。为了解决这个问题,本文提出了IN和VQ结合的解耦,并应用了U-Net的方法。与AutoVC和One-Shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization中的方法对比,VQVC+在主观和客观评测中表现更好。

Method

VQVC

VQVC是一个one-shot VC系统,通过重构loss得到的。核心的想法是,内容信息可以被表示为离散的codes,speaker信息被视为连续的representation和离散的code的差异。
VQVC架构

L r e c ( Q , θ e n c , θ dec  ) = E X ∈ X [ ∥ X ^ − X ∥ 1 1 ] L_{r e c}\left(\mathcal{Q}, \theta_{e n c}, \theta_{\text {dec }}\right)=\mathbb{E}_{\boldsymbol{X} \in \mathcal{X}}\left[\|\hat{\boldsymbol{X}}-\boldsymbol{X}\|_1^1\right] Lrec(Q,θenc,θdec)=EXX[X^X11]
L latent  ( θ e n c ) = E t [ ∥ I N ( V ) − C ∥ 2 2 ] L_{\text {latent }}\left(\theta_{e n c}\right)=\mathbb{E}_t\left[\|I N(\boldsymbol{V})-\boldsymbol{C}\|_2^2\right] Llatent(θenc)=Et[IN(V)C22]
L = L r e c + λ L latent  L=L_{r e c}+\lambda L_{\text {latent }} L=Lrec+λLlatent

VQVC+

VQVC的音质受损,本文讲音质受损的原因归结为VQ导致了information loss,因此decoder在重构音频时不能够将内容正确重建。VQVC+应用了U-Net的结构帮助提升音质,结构如下。


Experimental Setup

Datasets

VCTK

Training details

https://github.com/ericwudayi/SkipVQVC

Experiment

Content embedding

不同speaker的V_0和C_0


Speaker embedding

Subjective evaluations

【VC】VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture相关推荐

  1. SSD论文阅读(Wei Liu——【ECCV2016】SSD Single Shot MultiBox Detector)

    本文转载自: http://www.cnblogs.com/lillylin/p/6207292.html SSD论文阅读(Wei Liu--[ECCV2016]SSD Single Shot Mul ...

  2. 【iOS】使用SQLite3的时候Swift3.、XCode8报错:Unsupported architecture - 'arm/arch.h'file not found - Could not

    [iOS]使用SQLite3的时候Swift3..XCode8报错:Unsupported architecture - 'arm/arch.h'file not found - Could not ...

  3. 【VC】accent conversion 口音转换论文

    文章目录 1. Audio Style Transfer for Accents 2. END-TO-END ACCENT CONVERSION WITHOUT USING NATIVE UTTERA ...

  4. 【VC】Converting Foreign Accent Speech Without a Reference

    文章目录 1. INTRODUCTION 2. RELATED WORK A. 传统FAC方法 B. 基于sequence-to-sequence模型的FAC C. 之前的reference-free ...

  5. 【转】【VC】VC程序运行时间测试函数

    1:Sleep函数 使用: sleep(1000),在Windows和Linux下1000代表的含义并不相同,Windows下的表示1000毫秒,也就是1秒钟: Linux下表示1000秒,Linux ...

  6. 【VC++】Visual Studio编辑器“智能提示(IntelliSense)”异常的解决方案

    许多用户在使用Visual Studio的过程中,常会遇到"智能提示(IntelliSense)"功能异常的情况,这里提供几种用于解决这一问题的方法,希望对各位有用. 原文地址:H ...

  7. C语言实现易语言变量框,【VC】发一个自己用c语言写的仿易语言的文本_取文本左边函数把...

    [C] 纯文本查看 复制代码/* 取字符串左边函数 */ #include #include int G_getstrleft(const char *p,const char *p2){ int n ...

  8. 【vc】CFileDialog 使用介绍

    CFileDialog [ 2006-9-29 23:54:00 | By: superleeo ] CFileDialog文件选择对话框的使用:首先构造一个对象并提供相应的参数,构造函数原型如下: ...

  9. 【VC】 swscanf_s 函数使用,方便快捷的转换数据格式

    int swscanf_s(const wchar_t *buffer,const wchar_t *format [,argument ] ... ); 例如:取字符串的颜色值. UINT R,G, ...

最新文章

  1. mysql 集群 备份_mysql cluster集群备份还原
  2. 工作随笔之nginx 应用场景
  3. 计算机网络技术中的NAT,计算机网络技术中的NAT-2.ppt
  4. 5、HIVE DML操作、load数据、update、Delete、Merge、where语句、基于分区的查询、HAVING子句、LIMIT子句、Group By语法、Hive 的Join操作等
  5. Java 开发者必备手册开放下载!
  6. const和define 区别
  7. php session_regenerate_id,什么时候以及为什么我应该使用session_regenerate_id()?
  8. 一个非常实用的 div+css 实现的导航条
  9. LINUX查看文件系统
  10. mysql字符类型_MySQL学习分享--字符类型
  11. duilib 控件位置
  12. 一本通1373:鱼塘钓鱼(fishing)
  13. 威纶通触摸屏做主站(客户端)与modsim虚拟从站通过MODBUS TCP/IP通讯测试
  14. 第四周项目3--单链表应用之递增判断
  15. 《微信小游戏远程服务器本地搭建》——本地搭建IIS静态文件服务器
  16. Linux3._Linux环境基础开发工具使用
  17. Pdg2Pic JPG质量系数
  18. The 10 Most Important Linux Commands/10个最经常使用的命令行
  19. 【CAT魔改】CAT-LOCAL项目的诞生
  20. POJ 1647 One-move checkmate G++

热门文章

  1. 20222948 2022-2023-2 《网络攻防实践》第2周作业
  2. 智能制造实验室建设方案
  3. 【Python项目实战】基于时间卷积网络(Temporal Convolution Network ,TCN)的发动机剩余寿命预测
  4. VS2005:error PRJ0002
  5. 【产品经理交互常用软件】axure软件详细教程与学习指南
  6. JavaScript对象详解
  7. Word2Vec语言模型训练和使用
  8. 如何让新网站快速被百度收录
  9. 宇视交换机监控模式用途与使用方式
  10. Flow Chart Maker Online Diagram Software | Lucidchart