Mnist数据集已经是一个被"嚼烂"了的数据集了,很多关于神经网络的教程都会对它下手。因此在开始深度学习之前,先对这个数据集介绍一下。

Mnist数据集图片格式介绍

Mnist数据集分为两部分,分别含有60000张训练图片和10000张测试图片。

每一张图片包含28*28个像素。Mnist数据集把代表一张图片的二维数据转开成一个向量,长度为28*28=784。因此在Mnist的训练数据集中mnist.train.images是一个形状为[60000, 784]的张量,第一个维度数字用来索引图片,第二个维度数字用来索引每张图片中的像素点,图片里的某个像素的强度值介于0-1之间。

Mnist数据集标签格式介绍--------独热编码

Mnist数据集中的标签是介于0~9的数字,Mnist中的标签是用独热编码(one-hot-vectors)表示的,一个one-hot向量除了某一位数字是1以外,其余维度的数组都是0,比如标签0用独热编码表示为([1, 0, 0, 0, 0, 0, 0, 0, 0, 0]),标签3用独热编码表示为([0, 0, 0, 1, 0, 0, 0, 0, 0, 0])。所以,Mnist数据集中所有的标签mnist.train.labels是一个[60000, 10]的数字矩阵。

手动提取Mnist数据集图片

如果直接下载该数据集的话,下载下来的是.gz格式的数据,如下图所示:

使用tensorflow是可以直接加载该数据的,但是是按照张量的格式加载的,就是说你看不到这些图片到底是长什么样子的。下面就要介绍一下如何手动提取Mnist数据集中的图片,并把它按照常用的格式存储。

在代码中用到了两个第三方的包,分别为tensorflow、PIL。如何你是用的我之前推荐的Anaconda来管理你的Python环境的话,那么安装这两个包就非常的简单了。使用下面的命令即可安装:

conda install tensorflow-gpu
conda install Pillow

提取的代码写成了函数def的形式,可以非常简单的调用。下面是提取训练数据的代码:

#coding: utf-8
import os
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
from PIL import Image'''
函数功能:按照bmp格式提取mnist数据集中的图片
参数介绍:mnist_dir   mnist数据集存储的路径save_dir    提取结果存储的目录
'''
def extract_mnist(mnist_dir, save_dir):rows = 28cols = 28# 加载mnist数据集# one_hot = True为默认打开"独热编码"mnist = input_data.read_data_sets(mnist_dir, one_hot=False)# 获取训练图片数量shape = mnist.train.images.shapeimages_train_count = shape[0]pixels_count_per_image = shape[1]# 获取训练标签数量=训练图片数量# 关闭"独热编码"后,labels的类型为[7 3 4 ... 5 6 8]labels = mnist.train.labelslabels_train_count = labels.shape[0]if (images_train_count == labels_train_count):print("训练集共包含%d张图片,%d个标签" % (images_train_count, labels_train_count))print("每张图片包含%d个像素" % (pixels_count_per_image))print("数据类型为", mnist.train.images.dtype)# mnist图像数值的范围为[0,1], 需将其转换为[0,255]for current_image_id in range(images_train_count):for i in range(pixels_count_per_image):if mnist.train.images[current_image_id][i] != 0:mnist.train.images[current_image_id][i] = 255if ((current_image_id + 1) % 50) == 0:print("已转换%d张,共需转换%d张" %(current_image_id + 1, images_train_count))# 创建train images的保存目录, 按标签保存for i in range(10):dir = "%s/%s" % (save_dir, i)print(dir)if not os.path.exists(dir):os.mkdir(dir)# indices = [0, 0, 0, ..., 0]用来记录每个标签对应的图片数量indices = [0 for x in range(0, 10)]for i in range(images_train_count):new_image = Image.new("L", (cols, rows))# 遍历new_image 进行赋值for r in range(rows):for c in range(cols):new_image.putpixel((r, c), int(mnist.train.images[i][c + r * cols]))# 获取第i张训练图片对应的标签label = labels[i]image_save_path = "%s/%s/%s.bmp" % (save_dir, label,indices[label])indices[label] += 1new_image.save(image_save_path)# 打印保存进度if ((i + 1) % 50) == 0:print("图片保存进度: 已保存%d张,共需保存%d张" % (i + 1, images_train_count))else:print("图片数量与标签数量不一致!")if __name__ == '__main__':mnist_dir = "E:/PythonSourceCode/TensorflowLearning/Mnist_Data"save_dir = "E:/PythonSourceCode/TensorflowLearning/Mnist_Data_TrainImages"extract_mnist(mnist_dir, save_dir)

最终提取出来的结果如下:

文件夹0下对应的图片为:

可以看到,各种形状的’0’都有。提取出来的图片在后面学习的卷积神经网络的时候会用到,所以有兴趣的可以run一下上面的代码。


如果对我的推文有兴趣,欢迎转载分享。也可以推荐给朋友关注哦。只推干货,宁缺毋滥。

Mnist数据集介绍相关推荐

  1. MNIST数据集下载及可视化

    MNIST数据集介绍 MNIST数据集官网:http://yann.lecun.com/exdb/mnist/ MNIST数据库是非常经典的一个数据集,就像你学编程起初写一个"Hello W ...

  2. MNIST数据集的gist特征提取(含全部实例代码下载地址)

    这些天处理图像检索的一些benchmark数据集,今天处理了MNIST数据集,并对其进行了特征的提取.我的方法可能不一定是最优,但是按照这样的步骤来做,得到了我最后想要的特征数据结果.需要的朋友可以参 ...

  3. [Pytorch系列-33]:数据集 - torchvision与MNIST数据集

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

  4. (Windows,ten2.0)python0-9数字识别系统搭建(MNIST数据集)

    一.MNIST数据集介绍:是由0〜9手写数字图片和数字标签所组成的,由60000个训练样本和10000个测试组成. 二.tf2.0.0导入MNIST数据集的方法: from tensorflow.ex ...

  5. 上海交大:我们做了一个医疗版MNIST数据集,发现常见AutoML算法没那么好用

    机器之心报道 作者:魔王.张倩 上海交大研究人员创建新型开放医疗图像数据集 MedMNIST,并设计「MedMNIST 分类十项全能」,旨在促进 AutoML 算法在医疗图像分析领域的研究. 项目地址 ...

  6. MNIST数据集实现手写数字识别(基于tensorflow)

    ------------先看看别人的博客--------------------- Tensorflow 实现 MNIST 手写数字识别         用这个的代码跑通了 使用Tensorflow和 ...

  7. matlab朴素贝叶斯手写数字识别_基于MNIST数据集实现手写数字识别

    介绍 在TensorFlow的官方入门课程中,多次用到mnist数据集.mnist数据集是一个数字手写体图片库,但它的存储格式并非常见的图片格式,所有的图片都集中保存在四个扩展名为idx*-ubyte ...

  8. 深度学习4:使用MNIST数据集(tensorflow)

    本文将介绍MNIST数据集的数据格式和使用方法,使用到的是tensorflow中封装的类,包含代码. MNIST数据集来源于这里, 如果希望下载原始格式的数据集,可以从这里下载.而本文中讲解的是已经使 ...

  9. 深度学习常用数据集介绍

    数据集大全 数据集大全 介绍 目前接触到的数据集 1. [MNIST](http://yann.lecun.com/exdb/mnist/) 2. [CIFAR-10 / CIFAR-100](htt ...

  10. 使用libsvm对MNIST数据集进行实验

    在学SVM中的实验环节,老师介绍了libsvm的使用.当时看完之后感觉简单的说不出话来. 1. libsvm介绍 虽然原理要求很高的数学知识等,但是libsvm中,完全就是一个工具包,拿来就能用.当时 ...

最新文章

  1. Java栈 Stack
  2. java获取当前分钟_分别获取当前年月日 小时 分钟 秒 毫秒
  3. 使用Cloud Studio写python
  4. 被忽略的TraceId,可以用起来了
  5. 4个万无一失的技巧让您开始使用JBoss BRMS 6.0.3
  6. 监控管理平台 OpenNMS
  7. radio默认选中并显示相应信息 php,php实现select、radio、checkbox默认选择示例
  8. div 中的i标签如何点击事件_前端优化:语义标签进化史
  9. [渝粤教育] 西南科技大学 供用电网络及变电所设备 在线考试复习资料
  10. geoda权重矩阵导入matlab,空间计量 用geoda创建空间权重矩阵
  11. 从autotool迁移到cmake
  12. 论文笔记——多源融合SLAM的现状与挑战
  13. LLVM的源码目录结构
  14. 数据库入门之字符匹配
  15. 我也是一只IT小小鸟
  16. cmd imp导入dmp文件_导入Oracle的dmp备份的dmp文件报错“IMP-00002:无法打开c:/Documents.DMP进行读取”...
  17. 【信息系统项目管理师】2019年上半年信息系统项目管理师上午综合知识真题
  18. vue 中常见的时间格式转换
  19. 金华职称计算机考试中心,郑金华
  20. 华为metro1000描述,optix metro1000参数-华讯佳科技

热门文章

  1. 海康威视4路播放封装----安卓开发
  2. xp系统下如何安装windows phone 7的软件xap文件
  3. HTML5期末大作业:家具家居网站设计——智能家居(10页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 学生静态网页制作...
  4. 李践《高效人士的五项管理-行动日志》 表格
  5. OpenCV-利用其它widthStep方法把interest——img的所有像素值增加200
  6. timer计时 wpf_『WPF』Timer的使用
  7. 在android系统中制作系统签名jks
  8. mathematica7.0 汉下载及汉化
  9. 从无线安全到内网渗透(转)
  10. Linux无盘工作站