【VC】accent conversion 口音转换论文
文章目录
- 1. Audio Style Transfer for Accents
- 2. END-TO-END ACCENT CONVERSION WITHOUT USING NATIVE UTTERANCES
- 3. Accent and Speaker Disentanglement in Many-to-many Voice Conversion
- 4. Improving Accent Conversion with Reference Encoder and End-To-End Text-To-Speech
- 5. Converting Foreign Accent Speech Without a Reference
1. Audio Style Transfer for Accents
来源:NeurIPS 2019
生成了30000句平行语料库,实现了英音美音英语的转换。采用GAN架构,如下图:
音频samples界面失效了,根据文中给出的信息推测,英音美音分别分别是两个male说话人,因此在转换过程中,音色和口音一起被转换了;且只能转换单词,不能整句整句转。
2. END-TO-END ACCENT CONVERSION WITHOUT USING NATIVE UTTERANCES
来源:ICASSP 2020
demo:https://liusongxiang.github.io/end2endAC/
在转换的时候,无需提供native speaker的音频,即可以实现non-native accent 到native accent的转换,应用平行语料。
训练阶段如图所示:
训练阶段,应用speaker encoder提取speaker信息,实现speaker信息的解耦。根据文本信息和speaker的embedding生成native的音频。HlH^lHl这里表示的是linguistic information,因为是平行语料,所以上下图中linguistic information是一致的,LTTSEL_{TTSE}LTTSE用于计算两个linguistic information之间的loss。
转换阶段如下图所示,
3. Accent and Speaker Disentanglement in Many-to-many Voice Conversion
来源:ISCSLP 2021
demo:https://kerwinchao.github.io/AccentVoicejointConversion.github.io/
口音和说话人耦合比较严重,一般一个说话人只会用一种口音说话。口音转换任务是想要target speaker的音色,但是用source speaker的accent,因此需要对口音和说话人信息进行解耦;本文用了两个trick实行解耦,首先是训练了一个包括了不同口音,不同说话人的ASR(说明ASR提取的feature与speaker和accent无关),为conversion模型的训练提供 BN feature; 其次用了一个 adversarial speaker loss,确保转换模型的encoder的输出不含有说话人相关的信息。
4. Improving Accent Conversion with Reference Encoder and End-To-End Text-To-Speech
来源:arxiv
demo: https://kal009l.github.io/ac-demo/
引入reference encoder引入更多信息,想通过reference encoder 对重音和语调进行控制,这里应该是把音色和口音一起转换了。
5. Converting Foreign Accent Speech Without a Reference
来源:TASLP 2021
demo:https://guanlongzhao.github.io/demo/reference-free-ac/
L2表示non-native speaker,L1表示native speaker。 首先需要一个SI acoustic model生成语言特征,用于训练L2的合成模型,然后讲L1句子的语言特征输入L2合成模型,就能生成L2说话人特征的和L1内容相同的句子,称作L1-GS,认为语言特征里就包含了accent,L1-GS口音是native,说话人是L2,因此L1-GS+L2可以用于 pronunciation correction model的训练,因为二者只是口音不同,说话人相同。这里用的也是平行语料。
【VC】accent conversion 口音转换论文相关推荐
- VC常用数据类型使用转换详解
VC常用数据类型使用转换详解 出 处:PCVC.NET 作 者:程佩君 刚接触VC编程的朋友往往对许多数据类型的转换感到迷惑不解,本文将介绍一些常用数据类型的使用. 我们先定义一些常见类型变量借以 ...
- python:实现Length conversion长度转换算法(附完整源码)
python:实现Length conversion长度转换算法 from collections import namedtuplefrom_to = namedtuple("from_t ...
- currency conversion/ 货币转换 / currency translation
文章目录 为啥要搞货币转换 怎么来搞货币转换 货币转换类型 currency conversion type 汇率类型 exchange rate type time reference 时间参数 T ...
- VC++ VS2010 error LNK1123 转换到 COFF 期间失败 怎么办
1 无法输出Hello world 2 点击项目-属性,打开属性页 3 配置属性-清单工具-输入和输出-嵌入清单改成否 4 找出计算机中的所有cvtres.exe,删掉早期的,只留最新版的(下图中红色 ...
- 专注于速度的公司对混乱一无所知
重点(Top highlight) Most companies using Scrum spend a lot of time discussing velocity and devising wa ...
- 李宏毅DLHLP.09.Voice Conversion.1/2. Feature Disentangle
文章目录 介绍 什么是VC 应用 实操 分类 Feature Disentangle Using Speaker Information Pre-training Encoders Content E ...
- 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...
- 【VC/AC论文】Any-to-Many Voice Conversion withLocation-Relative Sequence-to-Sequence Modeling
文章目录 Abstract Introduction Related Work Attention mechanisms in seq2seq model | seq2seq模型中的注意机制 A se ...
- 【VC】Converting Foreign Accent Speech Without a Reference
文章目录 1. INTRODUCTION 2. RELATED WORK A. 传统FAC方法 B. 基于sequence-to-sequence模型的FAC C. 之前的reference-free ...
最新文章
- 云原生时代,Java还有优势么?
- 源代码安全加密系统对软件开发企业的重要性
- Orchard之模版开发
- 蓝桥杯java第五届决赛第三题--格子放鸡蛋
- 我用Python分析了“青你2”漂亮小姐姐的颜值,结果真香了!
- 什么是事务、事务特性、事务隔离级别、spring事务传播特性
- java beanutil 工具类_实现BeanFactoryAware来达到Spring静态方法获取Bean对象的BeanUtil工具类...
- 操作系统之文件管理:7、文件共享与文件保护(软连接、硬链接、口令保护、加密保护、访问控制)
- 算法可以申请专利么_Ta 在假笑么?这个识别算法可以鉴定
- AD采样的平均值滤波
- STL之stack容器
- 【架构】浅谈web网站架构演变过程
- Solidity常见问题
- linux redis集群工具,Redis集群部署及常用的操作命令
- 【超图+CESIUM】【基础API使用示例】40、超图|CESIUM - 特效-雨景设置
- 程序员要实现财富自由,“出海”这条路该怎么走?
- 万物智联下,腾讯云IoT的差异化发展之路“新”在何处?
- 语音智能时代,我选择这个浪尖
- linux 如何让程序后台执行
- 有道云笔记迁移到为知笔记