机器学习需要用 ImageNet2012 数据集生成一下预训练文件,这里记录一下ImageNet2012的下载和处理。(需要linux环境)

1 数据集下载

使用的是ImageNet(ISLVRC2012)数据集。直接从官网下载需要注册(使用edu邮箱),参考了这一篇帖子ImageNet ISLVRC2012数据集下载和使用 (帖子里也提供了磁力链接这种下载方式)和这一篇ImageNet(ISLVRC2012)数据集 - 知乎 (zhihu.com)ImageNet ISLVRC2012数据集下载和使用

但是我注册的时候验证信息一直加载不出来,就直接从其他人分享的迅雷链接下载了(特别感谢)。

批量解压ImageNet ISLVRC2012数据集的下载并按标准布局解压 (在这个帖子里有分享迅雷链接,用超级会员下载起来还是比较快的)

需要下载3个文件,我也将帖子中的迅雷链接贴在这里:

#训练集
http://academictorrents.com/download/a306397ccf9c2ead27155983c254227c0fd938e2.torrent
​
#验证集:
http://academictorrents.com/download/5d6d0df7ed81efd49ca99ea4737e0ae5e3a5f2e5.torrent#用于处理验证集的bash文件:
链接:https://pan.xunlei.com/s/VMkus56ePQ4LMJUIXheBkhXSA1 提取码:k9ej

复制链接到迅雷里,下载到本地是这三个文件,数据很大,用超级会员下载大概一共需要5个小时左右,可以在空闲时间下载:

2 处理数据集

下载下来的压缩包需要进行一些解压处理的工作。

先解压训练集,因为训练集内部有很多压缩包(每一个分类文件都是压缩包格式),采用命令行的形式对其进行解压。我是使用linux子系统进行操作的,后两步需要很长时间。

#先在一个合适的目录下创建一个train文件用来放置后续解压的文件
mkdir train && mv ILSVRC2012_img_train.tar train/ && cd train
#然后将训练集解压到train文件夹中并删除压缩包
#最后将1000个分类的压缩包解压成对应的文件夹并删除压缩包
#后两步需要占用很长的时间
tar -xvf ILSVRC2012_img_train.tar && rm -f ILSVRC2012_img_train.tar
find . -name "*.tar" | while read NAME ; do mkdir -p "${NAME%.tar}"; tar -xvf "${NAME}" -C "${NAME%.tar}"; rm -f "${NAME}"; done
cd ..

然后处理验证集,将验证集解压到val文件夹(此时val文件夹内是5万张图片),然后需要运行valprep.sh文件,将验证集整理成与训练集相同的结构。

#创建val文件夹,将训练集压缩包解压到val文件夹中
mkdir val && mv ILSVRC2012_img_val.tar val/ && cd val && tar -xvf ILSVRC2012_img_val.tar
cd ..
#运行bash文件,整理训练集图片
mv valprep.sh val && cd val && bash valprep.sh

处理后数据集的结构如下:

imagenet
+--train+--n01440764+--n01440764_18.JPEG+-- *.JPEG+-- ...(各类文件夹)
+--val+--n01440764+--n01440764_18.JPEG+-- *.JPEG+-- ...(各类文件夹)

至此imagenet2012数据集整理完成,可以加载用于训练了。

ImageNet2012 数据集下载相关推荐

  1. ImageNet2012数据集下载

    下载imagenet2012数据集 摸索了一下,imagenet2012下载,跟大家分享一下 用迅雷会员加速都可以下载,有的用百度云也可以离线下载 http://www.image-net.org/c ...

  2. Imagenet2012数据集下载、介绍

    最近研究可能会用到该数据集,发现过去好多分享的官网下载链接已经失效,找了很久才找到了网盘的数据集. 1.下载 链接1:https://pan.baidu.com/s/1sRbEZ8imECJu8ER0 ...

  3. ImageNet2012数据集完整版百度云下载

    ImageNet2012数据集完整版百度云下载 (欢迎关注"我爱计算机视觉",一个有价值有深度的公众号~) ImageNet2012的图像分类数据,在计算机视觉领域非常重要,它是深 ...

  4. mnist等常用数据集下载地址,现成的.mat文件

    推荐一个机器学习常用数据集下载网址,LIIBSVM 数据集已经处理好的,可以直接用.

  5. Flickr30k图像标注数据集下载及使用方法(转载的,备忘)

    Flickr30k图像标注数据集下载及使用方法 这是该博主贴的链接:Flickr30k图像标注数据集下载及使用方法 直接从百度云盘中下载 链接:https://pan.baidu.com/s/1r0R ...

  6. Understanding Clouds from Satellite Images比赛的discussion调研与colab数据集下载配置

    colab数据集下载配置代码: %%time !pip install -U -q kaggle !mkdir -p ~/.kaggle!echo '{"username":&qu ...

  7. 【机器学习】 - 各种人脸数据集下载地址及说明汇总

    1. Olivetti Faces人脸数据集 由40个人组成,共计400张人脸: 每人的人脸图片为10张,包含正脸.侧脸以及不同的表情: 整个数据集就是一张大的人脸组合图片,下载地址:https:// ...

  8. MNIST数据集下载及可视化

    MNIST数据集介绍 MNIST数据集官网:http://yann.lecun.com/exdb/mnist/ MNIST数据库是非常经典的一个数据集,就像你学编程起初写一个"Hello W ...

  9. 深度学习 - MPII Human Pose Database数据集下载

    原数据集下载网页:http://human-pose.mpi-inf.mpg.de/#download 转载于:https://blog.51cto.com/396732/2072239

最新文章

  1. mysql5.5.28安装详最后一个步骤时为啥一直转_mysql5.7.28下载、安装、登陆步骤详解...
  2. OpenGL之常见的专业名词解析
  3. python数据框常用操作_转载:python数据框的操作
  4. session 中对象实例在不同事务中的状态
  5. 【Pytorch神经网络实战案例】18 最大化深度互信信息模型DIM实现搜索最相关与最不相关的图片
  6. CentOS7 Mysql5.7.22 源码安装
  7. tkinter显示mysql表_Python(Tkinter)如何只显示Mysql记录而不显示列表?
  8. 安卓 开源 挣钱_在开源中赚钱并享受乐趣
  9. macos vmware 镜像_苹果电脑用vMware安装Windows系统
  10. redis 数据结构笔记
  11. 基于Wiremock创建Mock Service平台
  12. Scrapy 调用讯代理动态转发BUG 解决
  13. 城市按首字母分类,各城市对应的县和区
  14. 关于spark-evn.sh的配置(里面有worker的设置)
  15. 区块链指南 第2章 区块链基础
  16. Java面向对象三大特征---继承
  17. Unity批量替换文字字体自制工具
  18. matlab xpc target的论坛,一个Matlab关于XPC Target的问题
  19. 溺水舆情管控工作总结
  20. AHB与VPB的区别

热门文章

  1. 《内网安全攻防:渗透测试实战指南》读书笔记(五):域内横向移动分析及防御
  2. 全球网络拓扑测绘系统--擎天神
  3. 关于UIWebView和PhoneGap的总结
  4. -模块化布局方法(d)
  5. 【最新版下载】Android studio教程与问题汇总
  6. Excel如何提取汉字拼音首字母
  7. 我校百日誓师大会宣言
  8. 居家打工年入800多万,一共五份全职工作,他还有时间打游戏
  9. 使用计算机开机按啥建,电脑开机按TAB键有什么作用?
  10. RHCSA--Vim 文件查看和查找文件