一、背景

最近在做CNN分类时,用了一个能够一次性读取文件夹下所有数据并按文件夹制作相应标签的函数。之前做13类别,总计约1000张图片时,用这个函数没有任何问题,但后后来加到约40000张图片的时候,运行就报错。

二、问题描述

用CNN做多类别分类时,往往需要大量数据,由于我自己是没有这么多数据的,所以很多数据需要从网上爬,总计约4万张图,进行CNN分类实验。

进行完数据预处理之后,关键的一个步骤就是需要将图像和标签做好传入到网络中,我使用的函数为:

import os
import glob
from skimage import io, transform
import numpy as npwidth, height = 128, 128# 定义读取图片的函数, 并将其resize成width*height尺寸大小
def read_img(image_path):cate = [image_path+f for f in os.listdir(image_path) if os.path.isdir(image_path+f)]imgs = []labels = []for idx, folder in enumerate(cate):for im in glob.glob(folder+'/*.jpg'):print('reading the images:%s' % im)img = io.imread(im)img = transform.resize(img, (width, height))imgs.append(img)return np.asarray(imgs, np.float32), np.asarray(labels, np.int32)

调用方法:

data, label = read_img('./data/')

实现的功能是读取'data/'文件夹下的所有子文件夹及其相应的数据,按文件夹制作标签。第一次图片比较少的时候,没有任何问题,一次性读取成功,然后将数据传入到了CNN网络中。

然而,第二次增加了很多图片,图片质量参差不齐,甚至有的图片是4维的(我已经删掉了),运行该程序后直接报错:

大致意思就是说,不能把(128,128,3)的图像变成(128,128)。

三、解决方法

网上遇到这个问题的人还蛮多的,看了一下,普遍认为最简单的解决办法就是把RGB变成灰度图进行处理:

来源:https://github.com/carpedm20/DCGAN-tensorflow/issues/162

当然我们需要的是处理彩色影像。那么首先需要搞清楚这个问题的原因。有人提到:

来源:https://github.com/carpedm20/DCGAN-tensorflow/issues/162

所以,这个问题的原因无非就是:大量众多的彩色图中混有个别灰度图,导致channel的数量不统一,自然无法进行broadcast。具体出现问题的细致讲解可以看这里:https://stackoverflow.com/questions/43977463/valueerror-could-not-broadcast-input-array-from-shape-224-224-3-into-shape-2

下面谈一下解决方法,因为原因是出在原始数据上的,所以我们只要对原始数据进行过滤,删选掉不符合要求的图像就可以了,根据这个思路,可以对原代码进行修改,增加一下判断步骤:

# 定义读取图片的函数, 并将其resize成width*height尺寸大小
def read_img(image_path):cate = [path+f for f in os.listdir(image_path) if os.path.isdir(image_path+f)]imgs = []labels = []for idx, folder in enumerate(cate):for im in glob.glob(folder+'/*.jpg'):print('reading the images:%s' % im)img = io.imread(im)try:if img.shape[2] == 3:img = transform.resize(img, (width, height))imgs.append(img)labels.append(idx)except:continuereturn np.asarray(imgs, np.float32), np.asarray(labels, np.int32)

最终的结果:

可以看到,数据已经能顺利读取,并将数据和标签传入到了CNN中了。

CNN分类中批量读取数据及制作标签时报错:could not broadcast input array from shape (128,128,3) into shape (128,128)相关推荐

  1. Clonezilla制作镜像时报错:extfsclone.c:bitmap free count err解决办法

    Clonezilla制作镜像时报错:extfsclone.c:bitmap free count err解决办法: 插上光盘后选第一个(即直接回车) en_US.UTF-8 English Don't ...

  2. 项目中引用NG-ZORRO,在使用nz-form时报错Can't bind to 'formGroup' since it isn't a known property of 'form'的解决方案

    项目中引用NG-ZORRO,在使用nz-form时报错 Can't bind to 'formGroup' since it isn't a known property of 'form' comp ...

  3. vue表单中批量导入功能_spring boot mybatis+ vue 使用POI实现从Excel中批量导入数据

    一.前端vue+element 1.前端使用element的upload组件来实现文件的上传 style="display: inline-flex;margin-right: 8px&qu ...

  4. 网站的检测与批量读取数据

    一.网站的检测 1.https://XXX​​​​​​.com/进行检测 ①采用win+R启动cmd,利用ping读取网址的ip地址. ②利用nmap -v -A -p 0-65535 XXXX进行端 ...

  5. django models中批量导入数据

    在django中普通创建数据: task_details_obj = models.TaskDetails.objects.create( host_to_remote_user_id=host, t ...

  6. python逐行读取txt写入excel_用python从符合一定格式的txt文档中逐行读取数据并按一定规则写入excel(openpyxl支持Excel 2007 .xlsx格式)...

    前几天接到一个任务,从gerrit上通过ssh命令获取一些commit相关的数据到文本文档中,随后将这些数据存入Excel中.数据格式如下图所示 观察上图可知,存在文本文档中的数据符合一定的格式,通过 ...

  7. opencv中批量读取图片并保存

    之前一直在写python,突然要用C++,因为涉及到图像处理,需要批量读取并存储图片,这里对图片的批量处理代码做一下汇总: 方法1:比较简单,唯一的要求就是文件夹下的图片名称是有规律的,比如1,2,3 ...

  8. 从Word中批量提取数据到Excel中,Word导出到Excel的利器

    从Word文件中取值并导出到Excel中,有现成的工具可实现. 不过要通过工具来批量取值,Word文件中的目标字符必须有规律才行,例如都处于表格中,或者都有下划线,只要目标符合指定的规则就可以批量提取 ...

  9. Oracle中批量删除数据

    在一个ORACLE数据库运行过程中,有时候会遇到要批量删除数据的情况,如一个保存历史数据的表中有大量的数据已经不需要保留,要将这部分数据删除.以下就这种情况可以采取的方法进行讨论.   1.使用TRU ...

最新文章

  1. 【ACM】杭电OJ 1181
  2. 165. 小猫爬山【爆搜+剪枝】
  3. 根据用户查进程_【磨叽教程】Android进阶教程之在Android系统下各进程之间的优先级关系...
  4. LInux学习笔记(四)-----实操排雷
  5. python儿童入门书_一款儿童编程入门的理想工具——PythonTurtle
  6. 自由软件不够吸引人?
  7. 库克回应 iPhone 11 系列不支持 5G;哈啰 App 被下架;Flutter 1.9 稳定版发布 | 极客头条...
  8. 使用 ale.js 制作一个小而美的表格编辑器(4)
  9. FPGA中数的表示方法
  10. python3.8安装matplotlib_图文详解python之matplotlib安装与报错解决办法
  11. 安卓开发小程序之美图秀秀
  12. 【SPSS】SPSS学习笔记
  13. C++ access( )函数
  14. excel公式编辑器_动态提取符合多个条件的记录,公式躲远点
  15. docker进入容器中的方法
  16. Multisim基础 交流电源AC的Voltage offset的含义
  17. Window系统中Hosts文件介绍
  18. mysql 查看slave状态_解读show slave status 命令判断MySQL复制同步状态
  19. VASP计算弹性常数
  20. 2022-2028全球2-氨基-5-甲基吡啶行业调研及趋势分析报告

热门文章

  1. 识骨寻踪第十二季/全集Bones迅雷下载
  2. 杰理之AC104N、AD14N、AD15N硬件设计注意事项【篇】
  3. oracle----存储过程
  4. java实现从url路径中下载pdf文档到本地
  5. 如何在Ubuntu Linux上安装Steam游戏平台
  6. Python和numpy下载安装方法
  7. JS来判断客户端是否已安装Adobe Reader软件并提示下载安装
  8. 超大文件下载神器(Internet Download manager) IDM
  9. selenium之DDT:使用DDT模块实现数据驱动测试
  10. Cisco Packet Tracer实验————组建虚拟局域网