炼丹师最重要的是什么?丹啊!!!!没有丹锅烧坏了也炼不出啥来。

为了下载Kinetics-400数据集,我煞费苦心,国内搜了好久都没有搜到资源,用ActivityNet提供的下载程序需要下载原视频一个一个自动剪辑,速度特别慢,很多视频都找不到。终于,一个师兄给了我一丝光明,给我一个dropbox的链接,我费尽千辛万苦下载了下来,解压到服务器里,最终发现要是训练完一个模型一个月都不一定够用/(ㄒoㄒ)/~~ 数据集就一直静静地躺在硬盘上,也没程序理他。

想到自己当时找数据集经历的苦难,我觉得能有资源还是分享一下吧,这样就可以让更多跟我似的以为有了大数据集就能训练的炼丹小作坊死心了哈哈哈。

数据集链接放在了我上传的资源里https://download.csdn.net/download/zugexiaodui/12038398,博客内不能粘贴其他链接,被认为是广告了。

-------------------------------------------------------------------------------------------------------------

希望热心人可以把每个小压缩包的md5计算出来(linux命令即可实现)并评论或私信我,粘贴到博客上能够帮助更多人检查下载数据!谢谢!

-------------------------------------------------------------------------------------------------------------

这个数据集不全,尤其是测试集,丢了很多,不过做预训练还是足够的,也可以选一些数据弄个mini-Kinetics。原文件是一百多GB的压缩包,我一开始拆分成了每个4GB左右的小文件,后来发现百度云不能上传,所以又把每个4GB的小文件拆分成了每个大约1GB的小小文件,总共132个。文件下载下来之后需要合并,自己写个程序,把文件按顺序合并起来就可以,大致思路就是用'wb'模式打开一个merged_file,逐个读取('rb')小小文件,写到merged_file里。我试过对电影、文本文件和压缩文件这么拆分合并,都能还原文件。不过这个数据集特别大,这样合并是不是需要特别大的内存才可以我没有研究过……炼丹顺利,早日成仙!

下载数据集之前数数数据个数是不是全的!!!!不知道百度云搞什么把我文件夹里的文件弄少了几个,如果不行请评论或者私信我。

更新:这是一个将所有文件进行合并的程序(随便写的变量名没那么严谨),文件夹路径需要改成自己的实际路径,应该有132个文件,合并完之后使用 tar xvf **.tar.gz(文件名)解压就行,亲测可用。

import osf_dir = r'/mnt/data/source/kinetics-400/'
f_list = os.listdir(f_dir)
f_basename = 'kinetics-400.tar.gz.part{}-{}'
print(len(f_list))
nn=0
dst_fname = '/mnt/data/source/kinetics-400-source.tar.gz'
dst_f = open(dst_fname,'wb')
for N in range(1,len(f_list)//4+1):for i in range(4):f_dstname = f_basename.format(N,i)print(f_dstname,os.path.exists(f_dir+f_dstname))src_f = open(f_dir+f_dstname,'rb')dst_f.write(src_f.read())dst_f.flush()src_f.close()nn+=1
dst_f.close()
print(nn)

------------------------------------------------------------ 更新 ----------------------------------------------------

测试集文件其实并不是少,前几天才发现,直接解压后的测试视频文件,有很多后缀不是.mp4,而是.mp4.webm或者.mp4.mkv,大约有5000多个,带mkv的占了绝大部分。最开始我是用os.listdir()获取的文件名,没有这个问题,后来我一直用视频id+.mp4寻找视频,结果很多视频找不到,无意中发现了这个问题。解压数据后写个程序把所有测试视频的后缀名检测一下,不是.mp4的重命名成.mp4就可以了,训练视频里全都是.mp4后缀,不用担心这个问题。这样加起来测试视频和训练视频数量跟原本的kinetics-400差不多了,甚至还多了一些好像。

另外,这里边没有测试集,只有训练集和验证集。

----------------------------------------------------------- 更新 ----------------------------------------------------

132个文件都合并后的md5值为:aeb19ec9cfd65d0e53b793ac4881003c。文件比较大,计算md5耐心等待结果。

Kinetics-400数据集下载相关推荐

  1. 【机器学习】 - 各种人脸数据集下载地址及说明汇总

    1. Olivetti Faces人脸数据集 由40个人组成,共计400张人脸: 每人的人脸图片为10张,包含正脸.侧脸以及不同的表情: 整个数据集就是一张大的人脸组合图片,下载地址:https:// ...

  2. AVA时空检测数据集下载—AVA_ActionsAVA_Kinetics

    AVA_Actions&AVA_Kinetics AVA系列 AVA-Actions AVA-Kinetics AVA标注规范 标签类别 标注方式 CSV格式 旧版 视频下载 AVA-Acti ...

  3. Matplotlib空气质量数据分析(附数据集下载)

    使用JupyterLab进行的数据分析 数据集下载 import pandas as pd import numpy as np from pandas import Series, DataFram ...

  4. 国内外深度学习开放数据集下载集合(值得收藏,不断更新)

    国内外深度学习开放数据集下载集合(值得收藏,不断更新) 一.Image processing data set 1.MNIST ,是最流行的深度学习数据集之一.这是一个手写数字数据集,包含一个有着 6 ...

  5. 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载...

    人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的 ...

  6. 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载

    人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的 ...

  7. mnist等常用数据集下载地址,现成的.mat文件

    推荐一个机器学习常用数据集下载网址,LIIBSVM 数据集已经处理好的,可以直接用.

  8. Flickr30k图像标注数据集下载及使用方法(转载的,备忘)

    Flickr30k图像标注数据集下载及使用方法 这是该博主贴的链接:Flickr30k图像标注数据集下载及使用方法 直接从百度云盘中下载 链接:https://pan.baidu.com/s/1r0R ...

  9. Understanding Clouds from Satellite Images比赛的discussion调研与colab数据集下载配置

    colab数据集下载配置代码: %%time !pip install -U -q kaggle !mkdir -p ~/.kaggle!echo '{"username":&qu ...

  10. MNIST数据集下载及可视化

    MNIST数据集介绍 MNIST数据集官网:http://yann.lecun.com/exdb/mnist/ MNIST数据库是非常经典的一个数据集,就像你学编程起初写一个"Hello W ...

最新文章

  1. 二叉树非递归遍历的经典求解
  2. 机器学习--Gradient Boosting Machine(GBM)调参方法详解 转 面试问到的
  3. 012_Spring Data Redis
  4. 30天敏捷结果(19):你在为谁做事?
  5. [置顶]       ibatis做分页
  6. python3.8文档_python 3.8的新功能
  7. CSS选择器的权重详解
  8. java指的是什么_java什么是实例意思指的是
  9. Caffe机器学习框架
  10. mysql关联表分页查询_MySQL一对多分页查询-主表关联表条件查询问题
  11. Citrix Xendesktop5中创建虚拟机失败的2个案例分析
  12. linux内存手动释放
  13. POJ_3273_Monthly_Expense_(二分,最小化最大值)
  14. CCSP认证考试大纲 2022版
  15. PPT 设置幻灯片母版
  16. 计算机am3代表,拨开重重迷雾 AMD处理器历代接口解谜
  17. Java内存马-Instrument
  18. 解决:Mac下的Mounty卷不能在读/写模式下重新挂载.可能是因为先前没有完全卸载(安全删除)
  19. 三大框架整合开发的时候,出现红色双箭头,advised by org.springframework.transaction.interceptor.TransactionInterceptor.in
  20. 倾囊相授:小编是如何从阿里云转战达摩院并成功上岸de?

热门文章

  1. 09、IO流—File类与IO流
  2. 关于sessions.ser文件的一些思考
  3. 水印watermark
  4. Astah Professional安装
  5. 备份iphoneXR手机照片
  6. Android出现没有资源包问题,Android打包出现的小问题汇总
  7. 定义一个圆类(Circle)
  8. Android GoogleMap接入
  9. 【安全测试】什么是安全测试
  10. BLDC-坐标变换(Clark,Park,反Park)