语音合成论文优选:One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization
本文章是国立台湾大学电气工程与计算机科学学院发表的关于声音转换的工作,本文章是把音频分解为语言特征和说话人特征,然后再进行组合,具体的文章链接
https://arxiv.org/pdf/1904.05742.pdf
demo链接
one-shot-vc-demo
(最近搞VC,前期试验使用ppg效果还算好,但存在的缺点是效果受到ASR的制约,而且刚进入公司不久,跨组让ASR帮忙真的很不便利,因此决定不使用ppg方案,所以尝试该篇文中的方案)
1 研究背景
voice conversion是保留音频的内容而更换音频的音色,以前的VC可以被分为两类:平行数据和非平行数据。平行数据是转换设计的源音频和目标音频的内容一致,这是不容易获得的。非平行数据是源音频和目标音频的内容不一致,甚至可以跨语言,因此受到很多人的关注。目前,非平行数据可以使用GAN进行直接转换或者使用ASR作为辅助来进行转换,但效果受到ASR好坏的制约,而且这些方案不能够转换训练集外的说话人。因此本文提出了支持one-shot的音频转换方案,操作起来更加便捷。
2 详细设计
本文的整体架构如图1所示,该系统包括speaker encoder, content encoder和decoder 三部分模块。speaker encoder进行speaker信息的提取,context encoder提取音频的内容,其中该部分去除speaker 信息没有使用反转网络而是使用IN的结构,该结构我在其它部分找到PPT图片,大家可以直接看图。decoder部分则是把encoder和speaker输出重新生成音频。该三部分的具体网络结构如图2所示,其中训练的LOSS为公式3。
3 实验
看一下实验结果,先说明IN对解耦说话人的信息效果,table 1为解耦效果,可以看出添加IN可以很好的解耦说话人。图3展示了speaker encoder的效果,在训练集内核外的编码,不同性别能够很好的区分开来。接下来看一下转换音频的客观指标,图4和图5可以看出转换后的音频和原始音频特征分布很像。主观测评图6可以看出,转换的音频的相似度和目标说话人很像。
4 总结
VC方案可以被分为两类:平行数据和非平行数据。非平行数据是源音频和目标音频的内容不一致,甚至可以跨语言,因此受到很多人的关注。目前,非平行数据可以使用GAN进行直接转换或者使用ASR作为辅助来进行转换,但效果受到ASR好坏的制约,而且这些方案不能够转换训练集外的说话人。因此本文提出了支持one-shot的音频转换方案,操作起来更加便捷。
语音合成论文优选:One-shot Voice Conversion by Separating Speaker and Content Representations with Instance N相关推荐
- 语音合成论文优选:唇语Speaker disentanglement in video-to-speech conversion
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Speaker disentangle ...
- 语音合成论文优选:M2voc大赛总结The M2voc Challenge 2021
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 The Multi-speaker M ...
- 语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...
- 语音合成论文优选:Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Flavored Tacotron: ...
- 语音合成论文优选:Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Efficiently Trainab ...
- 语音合成论文优选:语音合成综述(2021)
声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...
- 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》
<An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...
- 【20220121】Voice conversion
voice conversion 1. autovc zero-shot 代码复现 retrain Vocoder 划分数据集 Bottleneck维度分析 2. CLSVC 代码复现 3. Spee ...
- 【VC】VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture
VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture Abstract Introduction ...
最新文章
- .Lucky后缀勒索病毒数据解密
- intellij无法输入中文
- PHP陈明忠_《PHP网站开发案例教程》习题答案
- c语言输出行末不得有多于空格,新人提问:如何将输出时每行最后一个空格删除...
- easyui tree设置选中节点的方法
- oracle开启/关闭归档模式
- 加入HA后的完全分布式集群搭建
- win+ubuntu系统引导修复
- Linux修改hosts主机映射文件
- stuxnet震网病毒科普
- 使用python模块 将中文大写汉字转化成阿拉伯数字
- 手机b站封面提取网站_B站视频封面提取网站
- 来一起学习脚本语言吧,简单,高效,解放双手,感受自由!
- Android辅助功能之自动安装apk
- 关于Maven打包Java Web项目以及热部署插件Jrebel的使用
- java 奶牛生子,奶牛镇的小时光npc怎么结婚?结婚生子攻略
- 隔壁老王的iptables防火墙
- c语言写一个简单的小游戏-推箱子
- 一个前端的MONGO救赎--1
- Docker实战笔记
热门文章
- Bootstrap实战 - 评论列表
- html 轮播图左右切换代码,js实现左右轮播图
- Mac-删除自带 ABC 输入法的方法
- 计算机桌面壁纸被锁定,Win10桌面壁纸被锁定无法修改咋办? win10官网
- 手机浏览器一键跳转微信加好友和公众号关注的方法
- 计算机上无开根号功能 怎么计算机,攻略:2019年中级会计师无纸化考试 计算器怎么开根号?...
- CAN网络管理Autosar(入门)
- 直播间卡人气小秘诀,快速增加直播间人气
- netbsd apache php mysql,NetBSD配置aria2的web前端YAAW笔记
- wifi信号桥怎么设置_用手机怎么桥设置桥接无线路由器?(步要祥细)