ILSVRC2012下载并使用

  • 0 前言
    • 数据集简介
  • 1 下载数据集
    • 1.1 官网下载
      • 1.1.1 账号注册
      • 1.1.2 登录账号
      • 1.1.3 更新信息
      • 1.1.4 获得授权
      • 1.1.5 下载数据集
    • 1.2 迅雷种子下载(推荐)
      • 1.2.1 题外话
  • 2 处理数据集
    • 2.1 验证下载的数据集
    • 2.2 解压数据集并划分分类
      • 2.2.1 下载并执行sh脚本
      • 2.2.2 可能遇到的问题
  • 3 训练模型

0 前言

数据集简介

  ImageNet2012数据集(又说ILSVRC2012)分类部分,共有1000个分类;常用训练集和验证集作为论文研究,训练集137G左右,验证集6G左右。训练集每个类大概1300张图片,共计约130万张图片。验证集每个类50张图片,共5万张图片。官方网址。

1 下载数据集

  参考此文章下载数据集:ILSVRC2012下载+训练

  提到的这个文章给出了几个下载方式,本博文将具体描述下其中两种方式。(推荐使用第二种方式迅雷下载,速度较快)

1.1 官网下载

  这个方法是最正规的方法,ILSVRC2012的官方下载地址:ILSVRC2012数据集下载地址
  没有登录的话,看到的画面将是这样的。这是因为官方限制原始的数据集图片资源只能由获得了授权的账号下载(也就是经过教育邮箱认证的账号)。

  如果你有带有.edu结尾的高校邮箱账号(博主本人是使用的导师的邮箱账号授权的),并且有意愿得到授权的话,请继续观看1.1.1小节的内容。否则使用迅雷下载数据集。

1.1.1 账号注册

  首先进入ImageNet账号注册界面,按照图示填写内容,其中Full Name里我填的是导师名字的拼音,然后进行人机身份验证,然后点击下面的按钮Sign Up进行注册。

1.1.2 登录账号

  注册成功后,还是在刚才的那个界面,点击Login登录账号。

1.1.3 更新信息

  然后更新自己的账号信息,当然如果你在注册阶段,就把图中的所有信息都填写完毕的话,这一步可以跳过。

1.1.4 获得授权

还是在刚才的那个界面,点击Access Permission Status请求授权。

  跳转到如下界面,这串英文是说你现在还没有获得授权,并且在这个界面ImageNet官方给自己来了个免责声明,说这里的图片ImageNet也没有所有权,所以猜测这就是ImageNet官方不把下载地址直接放出来的原因。

  然后点击蓝色链接Click here 跳转到授权请求授权界面。确认信息无误后点击Submit Request提交。

  然后就会给你的教育邮箱发送一个确认链接,点击后,还需要你同意各种条款,那时才真正授权了(由于没有截图,所以无图)。

1.1.5 下载数据集

  有了授权后,再次回到刚开始说到的下载界面:ILSVRC2012数据集下载地址就可以看到可以正常下载ImageNet2012数据集了。由于博主本人只是为了做分类,所以只下载方框圈中的两部分数据集,一个是训练集,一个是验证集。点击蓝色链接下载它们(不过温馨提示,下载速度过慢,在30M的宽带下可能是1-3M左右,需要下载可能半天到一天左右,请做好心理准备,追求速度的可以使用下文的迅雷下载的方式下载)。

1.2 迅雷种子下载(推荐)

  在此章节,使用ILSVRC2012下载+训练中提供的迅雷种子下载训练集和测试集。

训练集
训练集种子:http://academictorrents.com/download/a306397ccf9c2ead27155983c254227c0fd938e2.torrent
验证集
验证集种子:http://academictorrents.com/download/5d6d0df7ed81efd49ca99ea4737e0ae5e3a5f2e5.torren
————————————————
版权声明:本文为CSDN博主「微醺的老虎」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_41214610/article/details/109372321

1.2.1 题外话

  即使不开通会员,速度也非常快,有5M左右(用的学校的垃圾校园网30M的宽带),开了会员后有6M左右。训练集+验证集有150G左右,6个小时左右结束下载任务。

  2022年3月27日,值得吐槽的是这个迅雷的试用超级会员下载,今天在博主自己家里下载这个文件时(开了迅雷会员,非超会,200M宽带),如果不点它给你那个试用超会下载的选项,可以跑满20M-30M,下载速度很快。但是点了之后就会给降到14M以下,并且试用结束后,速度也上不去了(看来是软件层面加了限制doge)。

  另外通过此种子的链接发现,此种子的来源于http://academictorrents.com/,进入后发现其可以搜索各种数据集的下载种子,如目标检测种常用的COCO数据集。具体用途有待研究。

2 处理数据集

2.1 验证下载的数据集

  在真正使用前,需要验证一下数据集的完整性,使用命令验证下载得到的MD5值(温馨提示,如果是win10系统,建议下载一个Git,然后在压缩包所在文件夹中鼠标右键选择Git Bash Here):

md5sum ILSVRC2012_img_val.tar ILSVRC2012_img_train.tar

  如上图所示得到两串字符串,然后去对应是不是与官网提供的MD5值相同。官网提供的MD5值如下所示:

Training images (Task 1 & 2). 138GB.
MD5:1d675b47d978889d74fa0da5fadfb00e

Validation images (all tasks). 6.3GB.
MD5: 29b22e2961454d5413ddabcf34fc5622

2.2 解压数据集并划分分类


  使用pytorch官方提供的教程解压数据集,里面给了一个sh脚本用来一键完成解压分类操作。

2.2.1 下载并执行sh脚本

  ① 一个简单的方法是,点进上述提到的链接:sh脚本,进入后复制粘贴到一个txt文档,然后重命名为.sh后缀;或者使用博主本人提供的百度网盘链接下载。
  ② 然后将sh脚本移动到与数据集压缩包同目录下
  ③ 右键打开终端,Ubuntu使用命令

chmod 755 extract_ILSVRC.sh
./extract_ILSVRC.sh

win10右键选择Git Bash Here然后命令./extract_ILSVRC.sh执行脚本。
  完成后得到的训练集目录是如下图所示。

2.2.2 可能遇到的问题

  在win10中运行上述脚本过程中,遇到了如下错误提示。

./extract_ILSVRC.sh: line 63: wget: command not found

  这是因为win10中没有wget操作,而观察extract_ILSVRC.sh脚本的第63行是一个通过wget下载sh脚本并执行的命令。

wget -qO- https://raw.githubusercontent.com/soumith/imagenetloader.torch/master/valprep.sh | bash

  我们只需要手动下载下来并执行就可以了。点进valprep.sh链接,按Ctrl + S保存到imagenet/val中,接着在此目录中鼠标右键选择Git Bash Here输入./*.sh即可。
  valprep.sh这个脚本是用来给验证集中的一张张图片分进一个个目录中的。

  对于这些目录的名称具体对应哪些类别,可以参考博文,不过知道其具体含义对于训练模型是没有必要的。

3 训练模型

未完待续,正在研究
暂时可以先参考pytorch官方的代码。
等过一段时间,会更新这个代码的解释。

手把手教你下载ILSVRC2012(ImageNet2012)分类部分数据集以及使用Pytorch训练相关推荐

  1. 手把手教你下载在线地图?!再也不用下了

    头疼之源 作为一个地理信息的工作小白,常常在项目上或者一些方案汇报上要用一些离线地图,然后就开始网络各类下载神器.公众号关于手把手教你下载在线地图 这种 还有这种 原因反思 真实想了想,我为啥要把数据 ...

  2. 【玩转华为云】手把手教你用Modelarts实现猫狗数据集的智能标注

    本篇推文共计2000个字,阅读时间约3分钟. 华为云-华为公司倾力打造的云战略品牌,2011年成立,致力于为全球客户提供领先的公有云服务,包含弹性云服务器.云数据库.云安全等云计算服务,软件开发服务, ...

  3. 转:Python处理音频信号实战 : 手把手教你实现音乐流派分类和特征提取

    参考链接: https://www.jiqizhixin.com/articles/2019-01-11-25 1986年出版的<音乐心理学>一书中说到"人类和音乐遵循共同的规律 ...

  4. Python处理音频信号实战 : 手把手教你实现音乐流派分类和特征提取

    原文:https://flashgene.com/archives/17964.html Posted on 2019年1月12日by Sanda 1986年出版的<音乐心理学>一书中说到 ...

  5. 手把手教你用深度学习做物体检测(三):模型训练

    本篇文章旨在快速试验使用yolov3算法训练出自己的物体检测模型,所以会重过程而轻原理,当然,原理是非常重要的,只是原理会安排在后续文章中专门进行介绍.所以如果本文中有些地方你有原理方面的疑惑,也没关 ...

  6. 手把手教你下载安装配置Fiddler 和 Fiddler Everywhere

    下载 下载地址: 官网 https://www.telerik.com/download/fiddler 进入下载页面后,会要求你填个邮箱,貌似我填别的你也不知道吧 哎呦,我用来干嘛你岂能知道,随便选 ...

  7. 手把手教你下载XShell免费版(超详细)

    一.登录网址 1.官方地址:NetSarang Homepage CN - NetSarang Website 2.输入邮箱,接收免费版的XShell下载链接地址 3.登录邮箱,查看链接地址 4.安装 ...

  8. 2023年最新Kali安装教程(超详细,手把手教你下载安装kali虚拟机)

    一.镜像下载 镜像链接:https://mirrors.tuna.tsinghua.edu.cn/kali-images/kali-2022.3/kali-linux-2022.3-installer ...

  9. 手把手教你搭建Bert文本分类模型,快点看过来吧!

    1 赛题名称 基于文本挖掘的企业隐患排查质量分析模型 2 赛题背景 企业自主填报安全生产隐患,对于将风险消除在事故萌芽阶段具有重要意义.企业在填报隐患时,往往存在不认真填报的情况,"虚报.假 ...

  10. 手把手教你下载一个VSN

    1,第一步 点击下面链接进入官网 https://tortoisesvn.net/downloads.html 根据自己电脑版本下载所需版本 2,第二步 下载完成点击Next> 在这点击 Ins ...

最新文章

  1. ReentrantReadWriteLock读写锁的使用
  2. 机器学习已能翻译失传已久的语言
  3. pytorch 维度变化的时候应该使用什么方法permute
  4. 高斯-勒让德公式 求积分
  5. http headers详解
  6. 阿里巴巴开源 Dragonwell JDK 最新版本 8.1.1-GA 发布
  7. 数学教师计算机能力提升,数学教师信息技术应用能力提升培训总结.doc
  8. C#遍历指定文件夹中的所有文件
  9. Python网络数据采集系列-------概述
  10. qtdesigner 组件全吗_显示屏种类这么多,你知道怎么分类吗?
  11. java 前台商品展示模块_SSH框架网上商城项目第10战之搭建商品类基本模块
  12. 用树莓派控制WS2812圣诞树灯饰
  13. 【转】GBK编码表和GBK编码规范
  14. css去掉原生input框的border属性
  15. centos安装Docker与使用构建业务镜像挂载卷harbor仓库的高可用及网络模式和资源限制介绍...
  16. 树莓派开启SSH、VNC远程桌面、开启root账号以及换国内镜像源码等
  17. 大文件异步分片上传到Seaweed服务器
  18. 七参数坐标转换 matlab,利用三点法求解空间坐标系转换所需的七参数
  19. Clickhouse基本函数( 转载)
  20. 一、量子信息基本概念

热门文章

  1. python实现广义线性模型
  2. diskgenius创建efi分区_找不到引导分区 启动分区不存在 怎么创建efi系统分区
  3. VOCALOID5学习笔记——界面篇
  4. 某计算机配置的内存为2GB,实测告诉你为APU分配64MB和2GB显存性能差距多大
  5. 三维浮雕软件 linux,立体浮雕工具下载 Type3(立体浮雕软件) v4.6.0.0 免费安装版 下载-脚本之家...
  6. 安装Mysql5.7(64位)安装包及教程全
  7. oracle hcm cloud价格,Oracle HCM
  8. python调用鼠标驱动_python_selenium_鼠标操作
  9. UE4 蓝图教程(三) 材质
  10. Tuxera2022Mac系统读写NTFS磁盘工具装机必备