Nonparallel Emotional Speech Conversion Using VAE-GAN

from INTERSPEECH 2020 - Ping An Technology

关键字:语音生成、语音情感、生成对抗网络、自编码器


摘要

概括: 采用GAN模型生成情感语音
主要内容: 本文采用的是VAE-GAN框架,采用encoder提取内容相关表示,采用监督的方式提取情感相关信息,利用CycleGAN来进行语音情感域间的转换。最后将内容表示和情感表示结合生成目标情感语音。


简介

  1. 介绍了什么是VC(Voice Conversion)和ESC(Emotional Speech Conversion)
  2. 有很多ESC的方法,包括两种:基于规则的方法和基于神经网络的方法,但是需要精准对齐的平行语料库
    为什么语音生成需要平行语料库,为什么要对齐? 这里有对平行语库的解释知乎-语音转换综述,意思是必须样例和结果说话的内容相同才可以
  3. VAE(Variational AutoEncoder)将模型的表征分离,过程分为编码和解码过程
  4. 对抗学习能够使得转换出的语音更加自然,CycleGAN不再使用平行语料
本文的创新点
  1. 将VAE-GAN结构和CycleGAN结合
  2. 提出了一个更加可靠提取情感相关特征的监督学习策略

相关工作

  • VAE(Variational AutoEncoder)介绍:变分自编码器,具体介绍在:知乎-VAE 知乎-自编码器
  • CycleGAN2:相关内容:CycleGAN-知乎李宏毅视频笔记
    其中3个LOSS:Adversarial Loss(用于两阶段对抗生成,其中提到oversmoothing,一般发生在图卷积网络中)、Cycle-consistency Loss(用于提升生成语音的连续性)、Identity Mapping Loss(保留身份信息)
  • VAE-GAN:将VAE和GAN进行结合,AVE产生的是正常但是模糊的样本,GAN产生的是怪异但是清晰的样本,将两者结合能够取其优点、去其糟粕
  • 本文中采用F0基音频率、aperiodicity与频谱特征作为转换模型所需的特征

方法

采用WORLD提取F0、Spectral Features和Aperiodicity特征,这三个特征采用不同模型进行转换,F0采用logarithm Gaussian Normalized Transformation:
ftrg=exp((logfsrc−μsrc)∗δtrgδsrc+μtrg)f_{trg}=exp((log{f_{src}-\mu_{src}})*\frac{\delta_{trg}}{\delta_{src}}+\mu_{trg})ftrg​=exp((logfsrc​−μsrc​)∗δsrc​δtrg​​+μtrg​)
其中aperiodity并没有改变,因为其对语音情感转换影响不大。
对于频谱特征采用VAE-GAN进行转换,其核心思想是通过非监督方式提取内容特征,通过监督方法提取情感特征。本文在训练和转换的过程中使用了情感标签,如图中所示。转换模型有三部分:编码器、解码器和判别器。编码器将声谱特征转换为内容相关的表征,频谱特征片段的情感标签作为情感相关表征,这两种表征随后进入一个解码器,输出结果再输入到判别器分辨是否为假。解码器和判别器部分可以看作一种CycleGAN2的变形。
LOSS设计部分:

这个部分对于不了解CycleGAN的读者来说并不是很清楚,看不出训练的过程。


实验

数据库: INEMOCAP,4种情感:Happy、Angry、Sad、Neutral
训练集: 随机从每个语者的每种情感中随机抽取30个样本
cycle loss和identity loss的权重分别设为10和5,这里的权重是如何进行选择的?
网络结构: 其中IN(instance normalization)层,用来做归一化去除说话人的情感信息,只关注于内容相关特征的提取。
优化器: Adam
Batch-Size: 1
评估的三个方面是:生成音质说话人相似度情感转换能力

  • 生成音质和说话人相似度: MOS方法,是一种主观人工评分的方法,每个情感转换为其他情感共4*3=12组实验,30个评判者,180条测试语音。结果显示在95%的置信区间之内,语音质量和说话人相似度都有较好效果,语音质量的提升可能归因于两步的adversarial loss,说话人相似度可能提升较少。
  • 情感转换能力: 采用的依然是人工评分的方法,12种情感转换,每种随机抽取10句话作为测试集,结果表明监督学习的方式能够更多提取情感相关表征。

问题

  1. 文中仅仅提到利用了类似CycleGAN的原理和loss,但未在图中描述训练过程。
  2. 文中所说的情感相关特征提取是监督学习,意思是采用了情感标签结合模型进行训练,这算监督吗?其实是必须要输入的情感标签作为情感转换信息。
  3. 人工评分是否不可靠,可以进行修改?一般来说人工评分后会进行显著性测试,以保证结果的分布可靠?
  4. 情感转换那里用的数据那么少,还是人工标注,结果真的可靠吗?

【论文笔记】Nonparallel Emotional Speech Conversion Using VAE-GAN 基于VAE-GAN的非平行情感语音生成相关推荐

  1. 论文笔记《Item-based Collaborative Filtering Recommendation Algorithms》基于物品的协同过滤算法

    这是一篇很经典的论文,2001年发表的.如果你已经很熟悉基于item的CF,那么这篇论文看起来就很舒适,很简单. 读完这篇论文还是能收获很多实验设计上知识,实验严谨性和论证.值得一读.

  2. 【虚拟试衣论文笔记】Towards Scalable Unpaired Virtual Try-On via Patch-Routed Spatially-Adaptive GAN

    论文地址:https://proceedings.neurips.cc/paper/2021/file/151de84cca69258b17375e2f44239191-Paper.pdf 项目地址: ...

  3. SER 语音情感识别-论文笔记2

    SER 语音情感识别-论文笔记2 <Speech emotion recognition: Emotional models, databases, features, preprocessin ...

  4. SER 语音情感识别-论文笔记4

    SER 语音情感识别-论文笔记4 <SPEECH EMOTION RECOGNITION WITH MULTISCALE AREA ATTENTION AND DATA AUGMENTATION ...

  5. SER 语音情感识别-论文笔记3

    SER 语音情感识别-论文笔记3 <SPEECH EMOTION RECOGNITION USING SEMANTIC INFORMATION> 2021年ICASSP Code avai ...

  6. Deep Learning论文笔记之(三)单层非监督学习网络分析

    Deep Learning论文笔记之(三)单层非监督学习网络分析 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感 ...

  7. [论文笔记] Detection of Glottal Closure Instants from Speech Signals: CNN Method

    论文下载(带笔记和注释的版本): https://download.csdn.net/download/zongza/10698950 关键词: glottal closure instants (声 ...

  8. Towards Emotional Support Dialog Systems论文笔记

    文章目录 一,基调 二,情感支持框架 (一)情感支持和共情的区别 (二)情感支持的三个阶段 (三)情感支持的范例 (四)情感支持中的八大策略 三,情感支持数据集 四,方法.实验和结果 (一)方法 (二 ...

  9. 【论文笔记之 SN-Net】Interactive Speech and Noise Modeling for Speech Enhancement

    本文对 Chengyu Zheng 于 2021 年在 AAAI 上发表的论文进行简单地翻译.如有表述不当之处欢迎批评指正.欢迎任何形式的转载,但请务必注明出处. 论文链接:https://ojs.a ...

最新文章

  1. 涌现:21世纪科学的统一主题
  2. jvm四:常量的本质含义以及助记符基本认识
  3. Windows程序设计之创建窗口示例
  4. 理解Promise规范
  5. Autodesk招聘开发咨询顾问(北京或上海),需要内推的扔简历过来啊
  6. 你都怎样看知乎日报?
  7. 机器学习基石笔记-Lecture 14 Regularization
  8. Python3实现两个Excel文件内容比对
  9. 【Python脚本进阶】2.4、conficker蠕虫(上):Metasploit攻击Windows SMB服务
  10. 【ROM制作工具】线刷包转卡刷包制作教程
  11. donet 微服务开发 学习-AOP框架基础
  12. Matlab|模拟电动汽车的充放电【充电顺序,波动发电,电池缓冲】
  13. 计算机网络素质拓展心得体会范文,计算机网络培训心得体会范文(通用4篇)...
  14. 如何选择适合你的兴趣爱好(十五),油画
  15. 2022-04-07 西安 javaSE(04) 方法可变参数、重载、递归,数组、冒泡排序、二分查找、动态操作,二维数组、jvm内存区域划分
  16. 免费计算机论文 阅读,计算机方面的论文
  17. COMP3055 Machine Learning Coursework
  18. SpringCloud Feign参数传递问题
  19. 测试 软通动力软件测试机试_软通动力软件测试面试经验
  20. Presto 系列之 (一)初识 Presto

热门文章

  1. 使用IDEA-创建java项目
  2. 滤波算法 | 无迹卡尔曼滤波(UKF)算法及其Python实现
  3. 10.13(129. 求根到叶子节点数字之和 130. 被围绕的区域)
  4. GaussDB数据库安装详解
  5. 微信摇一摇php,微信“摇一摇”功能是怎么实现的?
  6. Computer:字符编码(ASCII编码/GBK编码/BASE64编码/UTF-8编码)的简介、案例应用(python中的编码格式及常见编码问题详解)之详细攻略
  7. 学习前端比较好的网站
  8. java 数据容器 有序_java容器-全览
  9. 在Unity上实现目标识别
  10. swfobject.js for flash 的使用(for swfobject 2.0)