cifar10 c语言,Python3读取深度学习CIFAR-10数据集出现的若干问题解决

今天在看网上的视频学习深度学习的时候，用到了CIFAR-10数据集。当我兴高采烈的运行代码时，却发现了一些错误：

# -*- coding: utf-8 -*-

import pickle as p

import numpy as np import os def load_CIFAR_batch(filename): """ 载入cifar数据集的一个batch """ with open(filename, 'r') as f: datadict = p.load(f) X = datadict['data'] Y = datadict['labels'] X = X.reshape(10000, 3, 32, 32).transpose(0, 2, 3, 1).astype("float") Y = np.array(Y) return X, Y def load_CIFAR10(ROOT): """ 载入cifar全部数据 """ xs = [] ys = [] for b in range(1, 6): f = os.path.join(ROOT, 'data_batch_%d' % (b,)) X, Y = load_CIFAR_batch(f) xs.append(X) ys.append(Y) Xtr = np.concatenate(xs) Ytr = np.concatenate(ys) del X, Y Xte, Yte = load_CIFAR_batch(os.path.join(ROOT, 'test_batch')) return Xtr, Ytr, Xte, Yte

错误代码如下：

'gbk' codec can't decode byte 0x80 in position 0: illegal multibyte sequence

于是乎开始各种搜索问题，问大佬，网上的答案都是类似：

然而并没有解决问题！还是错误的！(我大概搜索了一下午吧，都是上面的答案)

哇，就当我很绝望的时候，我终于发现了一个新奇的答案，抱着试一试的态度，尝试了一下：

def load_CIFAR_batch(filename):

""" 载入cifar数据集的一个batch """ with open(filename, 'rb') as f: datadict = p.load(f, encoding='latin1') X = datadict['data'] Y = datadict['labels'] X = X.reshape(10000, 3, 32, 32).transpose(0, 2, 3, 1).astype("float") Y = np.array(Y) return X, Y

竟然成功了，这里没有报错了！欣喜之余，我就很好奇，encoding=’latin1’到底是啥玩意呢，以前没有见过啊？于是，我搜索了一下，了解到：

Latin1是ISO-8859-1的别名，有些环境下写作Latin-1。ISO-8859-1编码是单字节编码，向下兼容ASCII，其编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号。

因为ISO-8859-1编码范围使用了单字节内的所有空间，在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之，把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。这是个很重要的特性，MySQL数据库默认编码是Latin1就是利用了这个特性。ASCII编码是一个7位的容器，ISO-8859-1编码是一个8位的容器。

还没等我高兴起来，运行后，又发现了一个问题：

memory error

什么鬼？内存错误！哇，原来是数据大小的问题。

X = X.reshape(10000, 3, 32, 32).transpose(0,2,3,1).astype("float")

这告诉我们每批数据都是10000 * 3 * 32 * 32，相当于超过3000万个浮点数。 float数据类型实际上与float64相同，意味着每个数字大小占8个字节。这意味着每个批次占用至少240 MB。你加载6这些(5训练+ 1测试)在总产量接近1.4 GB的数据。

for b in range(1,2):

f = os.path.join(ROOT, 'data_batch_%d' % (b,)) X, Y = load_CIFAR_batch(f) xs.append(X) ys.append(Y)

所以如有可能，如上代码所示只能一次运行一批。

到此为止，错误基本搞定，下面贴出正确代码：

# -*- coding: utf-8 -*-

import pickle as p

import numpy as np import os def load_CIFAR_batch(filename): """ 载入cifar数据集的一个batch """ with open(filename, 'rb') as f: datadict = p.load(f, encoding='latin1') X = datadict['data'] Y = datadict['labels'] X = X.reshape(10000, 3, 32, 32).transpose(0, 2, 3, 1).astype("float") Y = np.array(Y) return X, Y def load_CIFAR10(ROOT): """ 载入cifar全部数据 """ xs = [] ys = [] for b in range(1, 2): f = os.path.join(ROOT, 'data_batch_%d' % (b,)) X, Y = load_CIFAR_batch(f) xs.append(X) #将所有batch整合起来 ys.append(Y) Xtr = np.concatenate(xs) #使变成行向量,最终Xtr的尺寸为(50000,32,32,3) Ytr = np.concatenate(ys) del X, Y Xte, Yte = load_CIFAR_batch(os.path.join(ROOT, 'test_batch')) return Xtr, Ytr, Xte, Yte

import numpy as np

from julyedu.data_utils import load_CIFAR10

import matplotlib.pyplot as plt plt.rcParams['figure.figsize'] = (10.0, 8.0) plt.rcParams['image.interpolation'] = 'nearest' plt.rcParams['image.cmap'] = 'gray' # 载入CIFAR-10数据集 cifar10_dir = 'julyedu/datasets/cifar-10-batches-py' X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir) # 看看数据集中的一些样本：每个类别展示一些 print('Training data shape: ', X_train.shape) print('Training labels shape: ', y_train.shape) print('Test data shape: ', X_test.shape) print('Test labels shape: ', y_test.shape)

顺便看一下CIFAR-10数据组成：

cifar10 c语言,Python3读取深度学习CIFAR-10数据集出现的若干问题解决相关推荐

R语言神经网络与深度学习（一）
#R语言神经网络与深度学习(一) #画出ReLU函数 x=seq(-1,1,0.1) #生成x变量,赋值-1~1等差数列 relu=function(x) ifelse(x>0,x,0) ...
【CIPS 2016】(4-5章)语言认知模型、语言表示以及深度学习(研究进展、现状趋势)
CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文信息 ...
结合语言知识和深度学习的中文文本情感分析方法
结合语言知识和深度学习的中文文本情感分析方法徐康庭, 宋威北方工业大学信息学院摘要:在目前的中文文本情感分析研究中,基于语义规则和情感词典的方法通常需要人工设置情感阈值:而基于深度学习的方法由于 ...
转载【数据集】计算机视觉，深度学习，数据挖掘数据集整理
金融美国劳工部统计局官方发布数据上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票深证A股日线数据,1999.12.09 至 2016.06.08,前复权, ...
二十五个深度学习相关公开数据集
转 [干货]二十五个深度学习相关公开数据集 2018年04月18日 13:42:53 阅读数:758 (选自Analytics Vidhya:作者:Pranav Dar:磐石编译) 目录介绍图像处 ...
深度学习常用的数据集，包括各种数据跟图像数据。
1. 免费数据集下载(持续更新中...) 2.［导读］ "大数据时代",数据为王!无论是数据挖掘还是目前大热的深度学习领域都离不开"大数据".大公司们一般会 ...
数据集大全：25个深度学习的开放数据集
介绍深度学习的关键是训练.无论是从图像处理到语音识别,每个问题都有其独特的细微差别和方法. 但是,你可以从哪里获得这些数据?现在你看到的很多研究论文都使用专有数据集,而这些数据集通常不会向公众发布. ...
【人工智能项目】深度学习实现10类猴子细粒度识别
[人工智能项目]深度学习实现10类猴子细粒度识别任务说明本次比赛需要选手准确识别10种猴子,数据集只有图片,没有boundbox等标注数据. 环境说明 !nvidia-smi Fri Mar 27 ...
25个用于深度学习的开放数据集
25个用于深度学习的开放数据集每个数据科学家必须使用 PRANAV DAR, 2018年3月29日转载自:https://www.analyticsvidhya.com/blog/2018/03/c ...

cifar10 c语言,Python3读取深度学习CIFAR-10数据集出现的若干问题解决

cifar10 c语言,Python3读取深度学习CIFAR-10数据集出现的若干问题解决相关推荐

最新文章

热门文章