声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Accent and Speaker Disentanglement in Many-to-many Voice Conversion

本文章是2020.11.17西北工业大学,爱奇艺和标贝联合发表的文章,主要做many-to-many的带口音的VC(声音转换),具体的文章链接如下

https://arxiv.org/pdf/2011.08609.pdf (我听了demo,还算可以,但总感觉音质方面不太高)

1 研究背景

VC(voice conversion)是保持语言内容但音色转换成另外一个人的声音(比如柯南的变声器),AC(accent conversion)是保持语言内容和说话人的音色,但口音发生变化(如把标准普通话转成天津话,四川话等发音方式)。目前通用的流程,是先通过ASR模型把语音转成与说话者无关的中间表现形式,比如PPG(phonetic posteriorgram)或者BN(bottleneck feature)等(目前这两种表现形式我也正在进行,因为我做跨语言,所以重新训模型很慢)。然后,使用encoder-decoder的模型把中间变现形式转换成目标发音人的声学特征。最后,使用声码器合成音频。本文把VC和AC两个任务同时进行,提出了可以转换音色和口音的many-to-many 的声音转化器。

2 详细的系统设计

本文的系统如图1所示,主要分为三步骤:ASR for BN feature extracting, VC model training和conversion。

第一个步骤是训练ASR模型,该模型用来获取BN特征,该特征与speaker 无关。第二步骤是使用训练好的ASR模型获取的BN特征训练VC模型。本文使用tacotron模型,但去掉了attention模块。为了使模型支持many-to-many,该模型添加了spk-id和accent-id用来控制音色和口音,具体结构如图2。为了解除speaker和语言特征的绑定,本文添加了auxiliary speaker classifier 模块,该模块常使用adversarial training strategy(ADV)策略。训练该模型主要的loss如图3表示。第三步,是使用训练的ASR和VC模型进行声音转换。

3 实验结果

本文的实验先验证VC模型的每个模块的影响力,然后验证合成音频的质量。

本文把系统分为BL,P1,P2。其中BL是图2结构但没有独立的口音ASR和ADV,P1有独立的口音ASR但没有ADV模块,P2全部具备。图4主要对比P1,P2主要区别的ADV的影响力,由结果可知,采用ADV的句子聚集越紧密,说明语言特征与说话者解绑越好。

图5验证说话者的相似性,由结果可知,每个spk id合成的语句聚集在一起,说明spk-id学习的很好。

最后比较了合成的音质,由table 1可知,因为BL无法合成口音因此只能测试普通话的MOS。结果显示添加ADV使普通话的MOS稍微降低,但可以合成带口音的语句。同时图6的AB test显示,P2在带口音的具有明显优势。

4 总结

本文主要做many-to-many的VC,同时也进行accent的迁移,比较有趣,给的demo还算不错。(目前也会只正在挂着实验,主要做cross-lingual,其实道理一样)

语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion相关推荐

  1. 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...

  2. 语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language  Model

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 End-to-End Cod ...

  3. 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...

  4. 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...

  5. 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...

  6. 语音合成 | 精选论文汇总(197篇)

    ​语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...

  7. 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...

  8. 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》

    <An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...

  9. 语音合成论文优选:唇语Speaker disentanglement in video-to-speech conversion

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Speaker disentangle ...

最新文章

  1. 关于百度编辑器UEditor在asp.net中的使用方法!
  2. 混合深度卷积,更少参数下的轻量级网络
  3. python 图片对比文件夹_初学Python-找出文件夹下的所有图片
  4. python基础代码事例-学习笔记:python3,代码。小例子习作(2017)
  5. Linux 文本界面转到图形界面
  6. android蓝牙开启后会尝试自动连接,以编程方式配对后,Android会自动连接蓝牙设备...
  7. redis List的用途及常用命令
  8. 用SMTP,POP3访问Exchange邮箱:Exchange2003系列之六
  9. 核心动画与UIView
  10. 无限级分类及生成json数据
  11. Linux中Vim基本用法
  12. 枚举与常量需要注意的一个问题
  13. 123.PHP 周边性能优化
  14. SqlPlus中退格键和方向键的设置
  15. 【android】apk在线升级
  16. 松下电视机服务器未响应,松下等离子电视机通病有哪些 教你如何解决
  17. Linux下RTL8723BE无线网卡驱动问题解决方法
  18. Microsoft Teams网络慢,卡顿,怎么办?
  19. Win11彻底卸载WSL2系统(去除导航窗格Linux图标)
  20. 论文阅读 | Bringing a Blurry Frame Alive at High Frame-Rate with an Event Camera

热门文章

  1. [共享工具] 一套鼠标键盘控制两台不同系统的主机
  2. 趣谈云计算:孙悟空脚踏七彩云,靠的就是云计算
  3. 企业如何解决供应商管理难题?
  4. Excel如何只保存筛选后的结果
  5. 在uniAPP中使用使用低功耗蓝牙通讯
  6. 教大家如何在官网下载不同版本的postgresql包含之前历史版本--适合linux系统
  7. android 播放网络电视,HDP直播tv版 V2.0.5 for android (网络电视)
  8. 云计算助力智慧民航腾“云”而起
  9. Wireshark提取RTP包中的H264码流
  10. 可以编译运行python的软件_能够编译运行python的软件有哪些