前言

VoxCeleb1 是广泛使用的 说话人识别、验证 数据集。由于是从 YouTube 视频中提取,有比较丰富的噪声。(有空补介绍)

如果可以使用谷歌表单和翻译软件应该就可以顺利下载,私下分发数据集有侵权风险。

正文

官网如下:

VoxCelebhttps://www.robots.ox.ac.uk/~vgg/data/voxceleb/

但是很神奇的是现在(2022-7-12),这个网站所有的下载链接被取消了。

VoxCelebhttps://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html

可以看到,只能下载到 Metadata,音频文件暂时不可用。

搜了好久后发现在下面的链接可以下载,一开始担心不是官网,后面发现这是一个韩国的实验室,承接了第四次的 VoxCeleb Speaker Recognition Challenge (VoxSRC)

VoxCelebhttps://mm.kaist.ac.kr/datasets/voxceleb/下载前需要填个 Google Form,填入单位姓名等。由于是自动流程,所以填完不久就可以检查邮箱收件箱了,会看到一个邮件给出了 用户名和口令。

https://docs.google.com/forms/d/e/1FAIpQLSdQhpq2Be2CktaPhuadUMU7ZDJoQuRlFlzNO45xO-drWQ0AXA/viewform?fbzx=7440236747203254000

这里有说明,给出的身份只能使用 1 个月。

获得用户名和口令之后就好办了,使用 Windows 和浏览器的可以直接在下面的链接找到对应的数据集下载,因为过大所以官方做了分片,具体的操作官网有详细说明,下载的时候点击链接,会弹出需要填入用户名和口令,输入即可开始下载。VoxCelebhttps://mm.kaist.ac.kr/datasets/voxceleb/

额外补充一下,Linux 环境的下载命令。

wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wav.zip  --http-user=username--http-passwd=password

将 链接 `http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wavip` 切换为你需要下载的文件,然后 username 和 password 做替换即可。

官网给出了 md5,可以顺手校验一下。

 md5sum vox1_dev_wav.zip

然后是解压,用 unzip 命令。

unzip -d vox1_dev_wav vox1_dev_wav.zip

然后就大工搞成了,数据集的使用可以参照 GitHub 找 voxceleb trainer,此外用 Pytorch 的用户可以参照  torchaudio.datasets.voxceleb1 — Torchaudio nightly documentation。这个 API 比较新,比较古早的版本可能没有。

补充

对于将要使用这个数据集 Train 模型的同学补充说明一下,Identification 任务的训练也是要下载 Test 数据的。

直接用 https://mm.kaist.ac.kr/datasets/voxceleb/meta/iden_split.txt 这个文件读取数据集,会报错,id10270-id10309 的数据是缺失的,但是 iden_split 这个文件却标注了一些 id 在这个范围的说话人的数据为 Training,我本以为只用 Training Data (因为不是做 ASV)所以没有下载 Test……结果就报错了,找不到音频文件。

VoxCeleb1 数据集下载相关推荐

  1. mnist等常用数据集下载地址,现成的.mat文件

    推荐一个机器学习常用数据集下载网址,LIIBSVM 数据集已经处理好的,可以直接用.

  2. Flickr30k图像标注数据集下载及使用方法(转载的,备忘)

    Flickr30k图像标注数据集下载及使用方法 这是该博主贴的链接:Flickr30k图像标注数据集下载及使用方法 直接从百度云盘中下载 链接:https://pan.baidu.com/s/1r0R ...

  3. Understanding Clouds from Satellite Images比赛的discussion调研与colab数据集下载配置

    colab数据集下载配置代码: %%time !pip install -U -q kaggle !mkdir -p ~/.kaggle!echo '{"username":&qu ...

  4. 【机器学习】 - 各种人脸数据集下载地址及说明汇总

    1. Olivetti Faces人脸数据集 由40个人组成,共计400张人脸: 每人的人脸图片为10张,包含正脸.侧脸以及不同的表情: 整个数据集就是一张大的人脸组合图片,下载地址:https:// ...

  5. MNIST数据集下载及可视化

    MNIST数据集介绍 MNIST数据集官网:http://yann.lecun.com/exdb/mnist/ MNIST数据库是非常经典的一个数据集,就像你学编程起初写一个"Hello W ...

  6. 深度学习 - MPII Human Pose Database数据集下载

    原数据集下载网页:http://human-pose.mpi-inf.mpg.de/#download 转载于:https://blog.51cto.com/396732/2072239

  7. 数据集下载OTB,VOT,UAV,鸢尾花

    OTB数据集下载百度网盘链接 链接:https://pan.baidu.com/s/1snsJF_7Sw_EbKtzdvLO1nw 提取码:ls23 VOT数据集下载百度网盘链接 链接:https:/ ...

  8. VOC2007数据集 VOC2012数据集下载 百度云

    VOC2007数据集 VOC2007数据集下载 百度云 Download VOC2007 trainval & test 链接:https://pan.baidu.com/s/1_uTFp4_ ...

  9. 视线估计14个常见数据集下载

    数据集1:Columbia Gaze 在网页填写一下自己的邮箱就可以获得下载地址(2.2G) wget 下载地址 unzip columbia_gaze_data_set.zip 数据集2:UTMul ...

最新文章

  1. 如何在微信中增加附件?
  2. 在线网上打字系统_在线网上打字比赛软件_打字练习_中英文打字系统
  3. 5.由键盘任意输入1个整形数据(小于10亿,位数不限),将其倒置,如:输入12345,则输出54321。
  4. ExecutorService – 10个提示和技巧
  5. hbase 导入mysql_HBase导入SQL Server数据库数据
  6. python字符画太小_python小项目(-)图片转字符画
  7. Netty是如何解决粘包和拆包问题的
  8. (零)ubuntu下制作最小deb包
  9. 学生成绩abcde怎样划分_同等教育下,学生成绩差距较大,怎样避免学习中的“马太效应”?...
  10. kettle转换JavaScript获取命令行参数
  11. atlas怎么看日志_[系列文章] Gin框架 - 使用logrus日志记录
  12. 【电源芯片】TPS63020升降压芯片-电池放电
  13. 1.3.1 互联网的边缘部分(资源子网)
  14. 博客怎么写出好的文章吸引读者,只有7个基本的写作技巧
  15. cocos 添加遮罩后白屏_Cocos2dx3.2 Crazy Tetris 由于遮罩引起的部分手机白屏
  16. 内外兼修 高阶游戏鼠标达尔优A970黑武士评测
  17. 04穿越功耗墙_怎么提升性能笔记
  18. 记录 - Dubbo使用Zookeeper为注册中心添加认证口令时,连接失败的故障
  19. 小米路由器mini刷老毛子固件遇到的问题
  20. quick-cocos2d-x 飞机大战(打飞机)小demo教程------主角飞机类

热门文章

  1. excel vba 根据颜色查询单元格
  2. 【金九银十】docker删除所有容器
  3. 「前端基础」阮一峰JavaScript教程笔记(一)
  4. VS2013 + WDK7.6搭建驱动开发环境
  5. 公众号如何接入查题功能
  6. LEACH路由协议仿真(基于MATLAB)
  7. 如何快速在企业网盘中找到想要的文件
  8. np.dot 与 np.multiply 的不同
  9. 汇编语言指令及七种寻址方式指令实现
  10. 不要使用PeekChar()判断EOF_.net framework编程