CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit 数据理解
0. 说明 (README)
感谢作者~
此CSTR VCTK语料库包含109英文说出的语音数据 具有各种口音的扬声器。 每个扬声器读出约400 从报纸上选出的句子,彩虹段落 还有一个用于语音口音档案的启发段落。 报纸文字经格拉斯哥先驱报许可 来自《先驱报》和时代集团。 每个演讲者都有不同的 报纸文本的选择基于贪婪算法,该算法增加了 上下文和语音覆盖。
彩虹的段落和启发段落对于所有人都是相同的
- 彩虹段落可以在国际方言中找到 英文档案馆: (http://web.ku.edu/~idea/readings/rainbow.htm)
- 启发 该段与用于语音口音存档的段相同 (http://accent.gmu.edu)。 语音口音档案的细节 可以在找到 http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf
所有语音数据均使用相同的录音设置进行录音: 全向麦克风(DPA 4035),24时96kHz采样频率 钻头和在大学的半消声室中 爱丁堡。 所有录音均转换为16位,并进行了下采样 最高可达48 kHz(基于STPK),并且已手动设定端点
该语料库适用于基于HMM的文本到语音合成系统, 尤其适用于使用基于说话者的基于HMM的语音合成 在多个扬声器和扬声器上训练的平均语音模型 适应技术
1. wav16和wav48
一共106个说话人
前面的sil有点长
2. txt
3. indian
印度人说英语~
口音比较大, 正常情况下不用
4. vctk_metadata.tsv
去掉了一些(如印度)说话人, 平时使用这个即可
5. speaker-info.txt
109个说话人, 不过一般不用这个
6. sil_threshold_dict.pkl
(应该是)实验室做的sil的阈值, 不过目前AutoVC代码没有去掉sil, 可以讨论下TODO...
import picklef = open('sil_threshold_dict.pkl', 'rb')
t = pickle.load(f)
7. 其他
NOTE, COPY, lab略
8. 统计信息
- VCTK语料库(Veaux等人,2016)进行的,该语料库包含来自109位演讲者的44个小时话语
- 一个人400句, 一共大约4w句, 也就是40小时左右, 很合理
- 没有统计去掉静默段后句子时长的平均值和方差TODO...
CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit 数据理解相关推荐
- 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...
- [English] (1) on, off, in, out, at 介词的深度理解
0. 声明:今天开始持续更新50个英语介词.做为IT工程师,英语技能决定今后的路是否宽敞.举个信息论中信息熵的例子:之前我做过一个实验,结论是中文的信息熵大于英文的信息熵,说明中文信息传递过程比起英文 ...
- 语音合成 | 精选论文汇总(197篇)
语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...
- 语音合成(speech synthesis)方向四:开源中文和英文训练语料库open speech corpus
声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进 ...
- 【论文学习】《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》
<Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis>论文学习 文章目 ...
- 声音克隆_论文翻译:2019_Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
论文:2019_Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 翻译总结:只需 ...
- 【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》
<"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World>论文 ...
- 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》
<An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...
- 论文翻译:2021_Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss
论文地址:使用感知动机目标和损失的低延迟语音增强 引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Per ...
最新文章
- 2018.10.22-dtoi1443奶牛逃亡(cowrun)
- 1.1.3 以Self Host方式寄宿Web API
- foreach循环怎么获取全部返回值_JavaScript中For循环的3种版本和使用场景
- LoRaWAN的四大优势及适用领域
- RHCS集群原理概述
- 20162303 队列加分项-杨辉三角
- QByteArray与char、int、float(及其数组)之间的互相转化
- 大龄程序员怎样渡过中年危机?很多思考,挺有意思的。
- Visual Studio各组件说明
- Python项目实战-----科比数据集分析
- 电脑重装系统误删重要数据了怎么办
- 安装sql2000提示html,安装sql2000数据库提示:command line option syntax error
- 分享:Tuts4you社区,脱壳教程全集.1.5G
- 使用Pr给视频添加字幕
- 搜索及代码在GitHub上查重小技巧
- 计算机鼠标双击怎么,电脑鼠标双击没反应怎么办
- Linux的strings命令_拔剑-浆糊的传说_新浪博客
- Html和Markdown中的空格, nbsp; ensp; emsp; 以及 thinsp; zwnj; zwj;三种Unicode空格
- NB-Iot烟感04:BC26模块原理图设计
- SpringBoot——什么是SpringBoot、SpringBoot入门、创建SpringBoot