【小白学PyTorch】16.TF2读取图片的方法

<<小白学PyTorch>>

扩展之tensorflow2.0 | 15 TF2实现一个简单的服装分类任务

小白学PyTorch | 14 tensorboardX可视化教程

小白学PyTorch | 13 EfficientNet详解及PyTorch实现

小白学PyTorch | 12 SENet详解及PyTorch实现

小白学PyTorch | 11 MobileNet详解及PyTorch实现

小白学PyTorch | 10 pytorch常见运算详解

小白学PyTorch | 9 tensor数据结构与存储结构

小白学PyTorch | 8 实战之MNIST小试牛刀

小白学PyTorch | 7 最新版本torchvision.transforms常用API翻译与讲解

小白学PyTorch | 6 模型的构建访问遍历存储（附代码）

小白学PyTorch | 5 torchvision预训练模型与数据集全览

小白学PyTorch | 4 构建模型三要素与权重初始化

小白学PyTorch | 3 浅谈Dataset和Dataloader

小白学PyTorch | 2 浅谈训练集验证集和测试集

小白学PyTorch | 1 搭建一个超简单的网络

小白学PyTorch | 动态图与静态图的浅显理解

参考目录：

1 PIL读取图片
2 TF读取图片
3 TF构建数据集

本文的代码已经上传，在作者公众号后台回复【PyTorch】获取。

1 PIL读取图片

想要把一个图片，转换成RGB3通道的一个张量，我们怎么做呢？大家第一反应应该是PIL这个库吧

from PIL import Image
import numpy as np
image = Image.open('./bug1.jpg')
image.show()

展示的图片：

然后我们这个image现在是PIL格式的，我们使用numpy.array()来将其转换成numpy的张量的形式：

image = np.array(image)
print(image.shape)
>>>(326, 312, 3)

可以看到，这个第三维度是3。对于pytorch而言，数据的第一维度应该是样本数量，第二维度是通道数，第三四是图像的宽高，因此PIL读入的图片，往往需要把通道数的这个维度移动到第二维度上才能对接上pytorch的形式。（transpose方法来实现这个功能，这里不细说）

2 TF读取图片

下面是重点啦，对于tensorflow，tf中自己带了一个解码函数，先看一下我的文件目录：

import tensorflow as tf
images = tf.io.gfile.glob('./*.jpeg')
print(images，type(images))
> ['.\\bug1.jpeg', '.\\bug2.jpeg'] <class 'list'>

可以看出来：

这个tensorflow.io.gfile.glob()是读取路径下的所有符合条件的文件，并且把路径做成一个list返回；
这个功能也可以用glob库函数实现，我记得是glob.glob()方法；
这里的bug1和bug2其实是同一张图片，都是上面的那个小兔子。

image = tf.io.read_file('./bug1.jpeg')
image = tf.image.decode_jpeg(image,channels=3)
print(image.shape,type(image))
> (326, 312, 3) <class 'tensorflow.python.framework.ops.EagerTensor'>

需要注意的是：

tf.io.read_file()这个得到的返回值是二进制格式，所以需要下面的tf.image.decode_jpeg进行一个解码；
decode_jpeg的第一个参数就是读取的二进制文件，然后channels是输出的图片的通道数，3就是RPB三个通道，如果是1的话，就是灰度图片，ratio是图片大小的一个缩小比例，默认是1，可以是2和4，一会看一下ratio=2的情况；
这个image的type是一个tensorflow特别的Tensor的形式，而不是pytorch的那种tensor的形式了。

image = tf.io.read_file('./bug1.jpeg')
image = tf.image.decode_jpeg(image,channels=1，ratio=2)
print(image.shape,type(image))
> (163, 156, 1) <class 'tensorflow.python.framework.ops.EagerTensor'>

宽高都变成了原来的一半，然后通道数是1，都和预想的一样。使用decode_jpeg等解码函数得到的结果，是uint8的类型的，简单地说就是整数，0到255范围的。在对图片进行操作的时候，我们需要将其标准化到0到1区间的，因此需要将其转换成float32类型的。所以对上述代码进行补充：

image = tf.io.read_file('./bug1.jpeg')
image = tf.image.decode_jpeg(image,channels=1,ratio=2)
print(image.shape,type(image))
image = tf.image.resize(image,[256,256]) # 统一图片大小
image = tf.cast(image,tf.float32) # 转换类型
image = image/255 # 归一化
print(image)

从结果来看，数据类型已经改变：

3 TF构建数据集

下面是dataset更正式的写法，关于TF2的问题，不要百度！百度到的都是TF1的解答，看的我晕死了，TF的API的结构真是不太友好。。。

def read_image(path):image = tf.io.read_file(path)image = tf.image.decode_jpeg(image, channels=3, ratio=1)image = tf.image.resize(image, [256, 256])  # 统一图片大小image = tf.cast(image, tf.float32)  # 转换类型image = image / 255  # 归一化return image
images = tf.io.gfile.glob('./*.jpeg')
dataset = tf.data.Dataset.from_tensor_slices(images)
AUTOTUNE = tf.data.experimental.AUTOTUNE
dataset = dataset.map(read_image,num_parallel_calls=AUTOTUNE)
dataset = dataset.shuffle(1).batch(1)
for a in dataset.take(2):print(a.shape)

代码中需要注意的是：

glob获取一个文件的list，本次就两个文件名字，一个bug1.jpeg,一个bug2.jpeg;
tf.data.Dataset.from_tensor_slices()返回的就是一个tensorflow的dataset类型，可以简单理解为一个可迭代的list,并且有很多其他方法；
dataset.map就是用实现定义好的函数，对处理dataset中每一个元素，在上面代码中是把路径的字符串变成该路径读取的图片张量，对图片的预处理应该也在这部分进行吧；
dataset.shuffle就是乱序，.batch()就是把dataset中的元素组装batch；
在获取dataset中的元素的时候，TF1中有什么迭代器的定义啊，什么iter，但是TF2不用这些，直接.take(num)就行了，这个num就是从dataset中取出来的batch的数量，也就是循环的次数吧。
AUTOTUNE = tf.data.experimental.AUTOTUNE 就是根据你的cpu的情况，自动判断多线程的数量。上面代码的输出结果为：

- END -

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券，复制链接直接打开：https://t.zsxq.com/662nyZF本站qq群704220115。加入微信群请扫码进群（如果是博士或者准备读博士请说明）：