【论文笔记】Nonparallel Emotional Speech Conversion Using VAE-GAN 基于VAE-GAN的非平行情感语音生成
Nonparallel Emotional Speech Conversion Using VAE-GAN
from INTERSPEECH 2020 - Ping An Technology
关键字:语音生成、语音情感、生成对抗网络、自编码器
摘要
概括: 采用GAN模型生成情感语音
主要内容: 本文采用的是VAE-GAN框架,采用encoder提取内容相关表示,采用监督的方式提取情感相关信息,利用CycleGAN来进行语音情感域间的转换。最后将内容表示和情感表示结合生成目标情感语音。
简介
- 介绍了什么是VC(Voice Conversion)和ESC(Emotional Speech Conversion)
- 有很多ESC的方法,包括两种:基于规则的方法和基于神经网络的方法,但是需要精准对齐的平行语料库
为什么语音生成需要平行语料库,为什么要对齐? 这里有对平行语库的解释知乎-语音转换综述,意思是必须样例和结果说话的内容相同才可以 - VAE(Variational AutoEncoder)将模型的表征分离,过程分为编码和解码过程
- 对抗学习能够使得转换出的语音更加自然,CycleGAN不再使用平行语料
本文的创新点
- 将VAE-GAN结构和CycleGAN结合
- 提出了一个更加可靠提取情感相关特征的监督学习策略
相关工作
- VAE(Variational AutoEncoder)介绍:变分自编码器,具体介绍在:知乎-VAE 知乎-自编码器
- CycleGAN2:相关内容:CycleGAN-知乎李宏毅视频笔记
其中3个LOSS:Adversarial Loss(用于两阶段对抗生成,其中提到oversmoothing,一般发生在图卷积网络中)、Cycle-consistency Loss(用于提升生成语音的连续性)、Identity Mapping Loss(保留身份信息) - VAE-GAN:将VAE和GAN进行结合,AVE产生的是正常但是模糊的样本,GAN产生的是怪异但是清晰的样本,将两者结合能够取其优点、去其糟粕
- 本文中采用F0基音频率、aperiodicity与频谱特征作为转换模型所需的特征
方法
采用WORLD提取F0、Spectral Features和Aperiodicity特征,这三个特征采用不同模型进行转换,F0采用logarithm Gaussian Normalized Transformation:
ftrg=exp((logfsrc−μsrc)∗δtrgδsrc+μtrg)f_{trg}=exp((log{f_{src}-\mu_{src}})*\frac{\delta_{trg}}{\delta_{src}}+\mu_{trg})ftrg=exp((logfsrc−μsrc)∗δsrcδtrg+μtrg)
其中aperiodity并没有改变,因为其对语音情感转换影响不大。
对于频谱特征采用VAE-GAN进行转换,其核心思想是通过非监督方式提取内容特征,通过监督方法提取情感特征。本文在训练和转换的过程中使用了情感标签,如图中所示。转换模型有三部分:编码器、解码器和判别器。编码器将声谱特征转换为内容相关的表征,频谱特征片段的情感标签作为情感相关表征,这两种表征随后进入一个解码器,输出结果再输入到判别器分辨是否为假。解码器和判别器部分可以看作一种CycleGAN2的变形。
LOSS设计部分:
这个部分对于不了解CycleGAN的读者来说并不是很清楚,看不出训练的过程。
实验
数据库: INEMOCAP,4种情感:Happy、Angry、Sad、Neutral
训练集: 随机从每个语者的每种情感中随机抽取30个样本
cycle loss和identity loss的权重分别设为10和5,这里的权重是如何进行选择的?
网络结构: 其中IN(instance normalization)层,用来做归一化去除说话人的情感信息,只关注于内容相关特征的提取。
优化器: Adam
Batch-Size: 1
评估的三个方面是:生成音质、说话人相似度和情感转换能力
- 生成音质和说话人相似度: MOS方法,是一种主观人工评分的方法,每个情感转换为其他情感共4*3=12组实验,30个评判者,180条测试语音。结果显示在95%的置信区间之内,语音质量和说话人相似度都有较好效果,语音质量的提升可能归因于两步的adversarial loss,说话人相似度可能提升较少。
- 情感转换能力: 采用的依然是人工评分的方法,12种情感转换,每种随机抽取10句话作为测试集,结果表明监督学习的方式能够更多提取情感相关表征。
问题
- 文中仅仅提到利用了类似CycleGAN的原理和loss,但未在图中描述训练过程。
- 文中所说的情感相关特征提取是监督学习,意思是采用了情感标签结合模型进行训练,这算监督吗?其实是必须要输入的情感标签作为情感转换信息。
- 人工评分是否不可靠,可以进行修改?一般来说人工评分后会进行显著性测试,以保证结果的分布可靠?
- 情感转换那里用的数据那么少,还是人工标注,结果真的可靠吗?
【论文笔记】Nonparallel Emotional Speech Conversion Using VAE-GAN 基于VAE-GAN的非平行情感语音生成相关推荐
- 论文笔记《Item-based Collaborative Filtering Recommendation Algorithms》基于物品的协同过滤算法
这是一篇很经典的论文,2001年发表的.如果你已经很熟悉基于item的CF,那么这篇论文看起来就很舒适,很简单. 读完这篇论文还是能收获很多实验设计上知识,实验严谨性和论证.值得一读.
- 【虚拟试衣论文笔记】Towards Scalable Unpaired Virtual Try-On via Patch-Routed Spatially-Adaptive GAN
论文地址:https://proceedings.neurips.cc/paper/2021/file/151de84cca69258b17375e2f44239191-Paper.pdf 项目地址: ...
- SER 语音情感识别-论文笔记2
SER 语音情感识别-论文笔记2 <Speech emotion recognition: Emotional models, databases, features, preprocessin ...
- SER 语音情感识别-论文笔记4
SER 语音情感识别-论文笔记4 <SPEECH EMOTION RECOGNITION WITH MULTISCALE AREA ATTENTION AND DATA AUGMENTATION ...
- SER 语音情感识别-论文笔记3
SER 语音情感识别-论文笔记3 <SPEECH EMOTION RECOGNITION USING SEMANTIC INFORMATION> 2021年ICASSP Code avai ...
- Deep Learning论文笔记之(三)单层非监督学习网络分析
Deep Learning论文笔记之(三)单层非监督学习网络分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感 ...
- [论文笔记] Detection of Glottal Closure Instants from Speech Signals: CNN Method
论文下载(带笔记和注释的版本): https://download.csdn.net/download/zongza/10698950 关键词: glottal closure instants (声 ...
- Towards Emotional Support Dialog Systems论文笔记
文章目录 一,基调 二,情感支持框架 (一)情感支持和共情的区别 (二)情感支持的三个阶段 (三)情感支持的范例 (四)情感支持中的八大策略 三,情感支持数据集 四,方法.实验和结果 (一)方法 (二 ...
- 【论文笔记之 SN-Net】Interactive Speech and Noise Modeling for Speech Enhancement
本文对 Chengyu Zheng 于 2021 年在 AAAI 上发表的论文进行简单地翻译.如有表述不当之处欢迎批评指正.欢迎任何形式的转载,但请务必注明出处. 论文链接:https://ojs.a ...
最新文章
- 涌现:21世纪科学的统一主题
- jvm四:常量的本质含义以及助记符基本认识
- Windows程序设计之创建窗口示例
- 理解Promise规范
- Autodesk招聘开发咨询顾问(北京或上海),需要内推的扔简历过来啊
- 你都怎样看知乎日报?
- 机器学习基石笔记-Lecture 14 Regularization
- Python3实现两个Excel文件内容比对
- 【Python脚本进阶】2.4、conficker蠕虫(上):Metasploit攻击Windows SMB服务
- 【ROM制作工具】线刷包转卡刷包制作教程
- donet 微服务开发 学习-AOP框架基础
- Matlab|模拟电动汽车的充放电【充电顺序,波动发电,电池缓冲】
- 计算机网络素质拓展心得体会范文,计算机网络培训心得体会范文(通用4篇)...
- 如何选择适合你的兴趣爱好(十五),油画
- 2022-04-07 西安 javaSE(04) 方法可变参数、重载、递归,数组、冒泡排序、二分查找、动态操作,二维数组、jvm内存区域划分
- 免费计算机论文 阅读,计算机方面的论文
- COMP3055 Machine Learning Coursework
- SpringCloud Feign参数传递问题
- 测试 软通动力软件测试机试_软通动力软件测试面试经验
- Presto 系列之 (一)初识 Presto
热门文章
- 使用IDEA-创建java项目
- 滤波算法 | 无迹卡尔曼滤波(UKF)算法及其Python实现
- 10.13(129. 求根到叶子节点数字之和 130. 被围绕的区域)
- GaussDB数据库安装详解
- 微信摇一摇php,微信“摇一摇”功能是怎么实现的?
- Computer:字符编码(ASCII编码/GBK编码/BASE64编码/UTF-8编码)的简介、案例应用(python中的编码格式及常见编码问题详解)之详细攻略
- 学习前端比较好的网站
- java 数据容器 有序_java容器-全览
- 在Unity上实现目标识别
- swfobject.js for flash 的使用(for swfobject 2.0)