0. 说明 (README)

感谢作者~

此CSTR VCTK语料库包含109英文说出的语音数据具有各种口音的扬声器。每个扬声器读出约400 从报纸上选出的句子，彩虹段落还有一个用于语音口音档案的启发段落。报纸文字经格拉斯哥先驱报许可来自《先驱报》和时代集团。每个演讲者都有不同的报纸文本的选择基于贪婪算法，该算法增加了上下文和语音覆盖。

彩虹的段落和启发段落对于所有人都是相同的

彩虹段落可以在国际方言中找到英文档案馆：（http://web.ku.edu/~idea/readings/rainbow.htm）
启发该段与用于语音口音存档的段相同（http://accent.gmu.edu）。语音口音档案的细节可以在找到 http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf

所有语音数据均使用相同的录音设置进行录音：全向麦克风（DPA 4035），24时96kHz采样频率钻头和在大学的半消声室中爱丁堡。所有录音均转换为16位，并进行了下采样最高可达48 kHz（基于STPK），并且已手动设定端点

该语料库适用于基于HMM的文本到语音合成系统，尤其适用于使用基于说话者的基于HMM的语音合成在多个扬声器和扬声器上训练的平均语音模型适应技术

1. wav16和wav48

一共106个说话人

前面的sil有点长

2. txt

3. indian

印度人说英语~

口音比较大, 正常情况下不用

4. vctk_metadata.tsv

去掉了一些(如印度)说话人, 平时使用这个即可

5. speaker-info.txt

109个说话人, 不过一般不用这个

6. sil_threshold_dict.pkl

(应该是)实验室做的sil的阈值, 不过目前AutoVC代码没有去掉sil, 可以讨论下TODO...

import picklef = open('sil_threshold_dict.pkl', 'rb')
t = pickle.load(f)

7. 其他

NOTE, COPY, lab略

8. 统计信息

VCTK语料库（Veaux等人，2016）进行的，该语料库包含来自109位演讲者的44个小时话语
一个人400句, 一共大约4w句, 也就是40小时左右, 很合理
没有统计去掉静默段后句子时长的平均值和方差TODO...

CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit 数据理解相关推荐

语音合成（TTS)论文优选：Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...
[English] (1) on, off, in, out, at 介词的深度理解
0. 声明:今天开始持续更新50个英语介词.做为IT工程师,英语技能决定今后的路是否宽敞.举个信息论中信息熵的例子:之前我做过一个实验,结论是中文的信息熵大于英文的信息熵,说明中文信息传递过程比起英文 ...
语音合成 | 精选论文汇总（197篇）
语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...
语音合成（speech synthesis）方向四：开源中文和英文训练语料库open speech corpus
声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表低调奋进 TTS 开源数据低调奋进 ...
【论文学习】《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》
<Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis>论文学习文章目 ...
声音克隆_论文翻译：2019_Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
论文:2019_Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 翻译总结:只需 ...
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》
<"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World>论文 ...
【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》
<An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...
论文翻译：2021_Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss
论文地址:使用感知动机目标和损失的低延迟语音增强引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Per ...

CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit 数据理解