0. 说明 (README)

感谢作者~

此CSTR VCTK语料库包含109英文说出的语音数据 具有各种口音的扬声器。 每个扬声器读出约400 从报纸上选出的句子,彩虹段落 还有一个用于语音口音档案的启发段落。 报纸文字经格拉斯哥先驱报许可 来自《先驱报》和时代集团。 每个演讲者都有不同的 报纸文本的选择基于贪婪算法,该算法增加了 上下文和语音覆盖。

彩虹的段落和启发段落对于所有人都是相同的

  • 彩虹段落可以在国际方言中找到 英文档案馆: (http://web.ku.edu/~idea/readings/rainbow.htm)
  • 启发 该段与用于语音口音存档的段相同 (http://accent.gmu.edu)。 语音口音档案的细节 可以在找到 http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf

所有语音数据均使用相同的录音设置进行录音: 全向麦克风(DPA 4035),24时96kHz采样频率 钻头和在大学的半消声室中 爱丁堡。 所有录音均转换为16位,并进行了下采样 最高可达48 kHz(基于STPK),并且已手动设定端点

该语料库适用于基于HMM的文本到语音合成系统, 尤其适用于使用基于说话者的基于HMM的语音合成 在多个扬声器和扬声器上训练的平均语音模型 适应技术

1. wav16和wav48

一共106个说话人

前面的sil有点长

2. txt

3. indian

印度人说英语~

口音比较大, 正常情况下不用

4. vctk_metadata.tsv

去掉了一些(如印度)说话人, 平时使用这个即可

5. speaker-info.txt

109个说话人, 不过一般不用这个

6. sil_threshold_dict.pkl

(应该是)实验室做的sil的阈值, 不过目前AutoVC代码没有去掉sil, 可以讨论下TODO...

import picklef = open('sil_threshold_dict.pkl', 'rb')
t = pickle.load(f)

7. 其他

NOTE, COPY, lab略

8. 统计信息

  • VCTK语料库(Veaux等人,2016)进行的,该语料库包含来自109位演讲者的44个小时话语
  • 一个人400句, 一共大约4w句, 也就是40小时左右, 很合理
  • 没有统计去掉静默段后句子时长的平均值和方差TODO...

CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit 数据理解相关推荐

  1. 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...

  2. [English] (1) on, off, in, out, at 介词的深度理解

    0. 声明:今天开始持续更新50个英语介词.做为IT工程师,英语技能决定今后的路是否宽敞.举个信息论中信息熵的例子:之前我做过一个实验,结论是中文的信息熵大于英文的信息熵,说明中文信息传递过程比起英文 ...

  3. 语音合成 | 精选论文汇总(197篇)

    ​语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...

  4. 语音合成(speech synthesis)方向四:开源中文和英文训练语料库open speech corpus

    声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进 ...

  5. 【论文学习】《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》

    <Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis>论文学习 文章目 ...

  6. 声音克隆_论文翻译:2019_Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

    论文:2019_Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 翻译总结:只需 ...

  7. 【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》

    <"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World>论文 ...

  8. 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》

    <An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...

  9. 论文翻译:2021_Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss

    论文地址:使用感知动机目标和损失的低延迟语音增强 引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Per ...

最新文章

  1. 2018.10.22-dtoi1443奶牛逃亡(cowrun)
  2. 1.1.3 以Self Host方式寄宿Web API
  3. foreach循环怎么获取全部返回值_JavaScript中For循环的3种版本和使用场景
  4. LoRaWAN的四大优势及适用领域
  5. RHCS集群原理概述
  6. 20162303 队列加分项-杨辉三角
  7. QByteArray与char、int、float(及其数组)之间的互相转化
  8. 大龄程序员怎样渡过中年危机?很多思考,挺有意思的。
  9. Visual Studio各组件说明
  10. Python项目实战-----科比数据集分析
  11. 电脑重装系统误删重要数据了怎么办
  12. 安装sql2000提示html,安装sql2000数据库提示:command line option syntax error
  13. 分享:Tuts4you社区,脱壳教程全集.1.5G
  14. 使用Pr给视频添加字幕
  15. 搜索及代码在GitHub上查重小技巧
  16. 计算机鼠标双击怎么,电脑鼠标双击没反应怎么办
  17. Linux的strings命令_拔剑-浆糊的传说_新浪博客
  18. Html和Markdown中的空格, nbsp; ensp; emsp; 以及 thinsp; zwnj; zwj;三种Unicode空格
  19. NB-Iot烟感04:BC26模块原理图设计
  20. SpringBoot——什么是SpringBoot、SpringBoot入门、创建SpringBoot

热门文章

  1. 2022-2027年中国益智玩具行业市场深度分析及投资战略规划报告
  2. 问道五周年服务器维护公告,礼包送不停 《问道》五周年普天同庆
  3. winphone7.5使用
  4. 【Unity】Text行首标点符号处理
  5. Winscp连接openwrt路由器失败问题解决
  6. 物理学在现代科技中的应用有哪些?
  7. 基于垂直领域语料,使用MaskLM任务预训练Bert模型
  8. win10如何设置休眠选项
  9. 电缆线材命名2010
  10. 一键复制工具下载,好用的复制器