AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss笔记
文章目录
- 网络结构
- 说话人编码器
- 内容编码器
- 解码器
- 声码器
- 实验
论文: AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss
代码:github地址
AutoVC在传统的非平行数据的多对多语音转换任务中表现较好,而且可以实现Zero-shot语音转换(转换为没有听过的语音风格)。
整个转换过程分为三步(1)音频->Mel谱图(2)使用AutoVC模型转换Mel谱图(3)使用WaveNet将Mel谱图转换为音频
网络结构
转换时,将原语音Mel图送入Ec,将目标说话人的任一语音Mel图送入Es,从D中即可得到转换后的语音Mel图
说话人编码器
实验中Es是在VoxCeleb1和Librispeech数据集上预训练好的。
内容编码器
解码器
U→(:,t)=C1→(:,⌊/32⌋)U←(:,t)=C1←(:,⌊t/32⌋)U→(:,t)=C1→(:,⌊/32⌋)U←(:,t)=C1←(:,⌊t/32⌋)
声码器
实验
论文中实现了两种AutoVC,一种是由Es产生的说话人风格向量,另一种AutoVC-one-hot,使用的每个说话人的one-hot编码作为说话人风格向量。
AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss笔记相关推荐
- AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss代码调试过程
论文: AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 代码实现参考:https://github.com/peis ...
- 论文阅读 - AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss
文章目录 1 概述 2 模型架构 3 模块解析 3.1 获取梅尔频谱 3.2 speaker encoder 3.3 AutoVC 3.4 Vocoder 4 关键部分 参考资料 1 概述 voice ...
- AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 论文理解
0. Abstract 非并行的多对多语音转换以及零语音转换仍然是未开发的领域.诸如对抗性网络(GAN)和条件变量自动编码器(CVAE)之类的深度样式转换算法已被用作该领域的新解决方案.但是,GAN训 ...
- AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 论文代码复现
0. 说明 https://github.com/auspicious3000/autovc 但是听Demo中, 涉及到unseen的情况, 合成音色确实像, 但是质量不满足商用 复现Git的代码, ...
- 简单快速的Style Transfer(利用VGG19)-笔记
What is Style Transfer Style Transfer, 风格转移,即把图片A变成图片B的风格,但保持图片A的内容不变,举个栗子,假设下图左是你自己的作品,中图是梵高的星空,右图则 ...
- Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset
会议:icassp 2021 作者:Kun Zhou,lihaizhou 文章目录 abstract 1. introduction 2. Analysis of Deep Emotional Fea ...
- 吴恩达老师深度学习视频课笔记:神经风格迁移(neural style transfer)
什么是神经风格迁移(neural style transfer):如下图,Content为原始拍摄的图像,Style为一种风格图像.如果用Style来重新创造Content照片,神经风 ...
- 深度摄影风格转换--Deep Photo Style Transfer
Deep Photo Style Transfer https://arxiv.org/abs/1703.07511 Code: https://github.com/luanfujun/deep-p ...
- 谈谈图像的style transfer(二)
总说 主要从几个方面来进行说明吧 - 加快transfer的速度 - 让transfer的效果看起来更加visual-pleasing - 其他的一些方面 - 用GAN来做 加快style s ...
最新文章
- INSTALL_FAILED_INVALID_APK
- 输入框设置只能输入数字
- Web框架——Flask系列之json、jsonify模块的使用(十四)
- Leetcode每日一题:376.wiggle-subsequence(摆动的序列)
- Chevereto网站存放图像至相应二级分类文件夹
- 2022年物理学诺奖获主,他们证明爱因斯坦错了
- Vue脚手架安装详解
- 自己写的一个AI输入滤波函数
- 如何将中文转为计算机语言,怎么将中文系统变成英文系统
- 机器人中的DIY,成就满满!
- arXiv每日推荐-5.9:语音/音频每日论文速递
- 真c++ 从二叉树到红黑树(2)之二叉树基类
- c语言程序0xc0000005解决方案,应用程序无法正常启动0xc0000005如何解决
- C语言入门part5
- 乔治亚大学计算机科学,UGA计算机科学排名,明白这个常见最有用
- 【运算放大器】反相放大电路仿真应用
- android 存储卡 合并,安卓手机合并内存卡到内置存储
- 【尚硅谷】Java数据结构与算法详细整理笔记(附代码)更新中…………
- HoloView--Customization
- Linux 文件管理-文件系统-XFS文件存储系统详解
热门文章
- 2.2线性表的数据展示【王道数据结构】
- 计算机应用技术挂科率高吗,大学里“挂科率高”的专业,学霸也觉得吃力,填报志愿要慎重...
- 中国人工智能学会通讯——智能语音技术与产业应用展望 1.2 智能语音产业应用的现状和挑战...
- 能源局再出新招 拟推光伏电站竞价上网
- Vue.js 2.0 学习重点记录
- C# EF 基础操作
- Ubuntu14.04 x64 zabbix 3.0 安装
- ActiveMQ_Linux安装(一)
- 无法在WEB服务器上启动调试,Web 服务器配置不正确
- windowns 8.1 缺少.net3.5解决方案