transforms.Compose,transforms.ToTensor(),transforms.Normalize()的含义与原理

1.问题描述

问题来源于pytorch实现CNN神经网络的示例代码读取数据的部分：

transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

作用主要是读取CIFAR10数据集时，归一化操作，它的含义是将图像值都转换到[-1,1]之间，但其中细节并不清楚。以下通过源码解读，简述三个函数的作用及转换原理。

2.transforms.Compose

Composes several transforms together. This transform does not support torchscript.
将几个变换组合在一起。这个转换不支持torchscript。

即组合几个变换方法，按顺序变换相应数据。
其中torchscript为脚本模块，用于封装脚本跨平台使用，若需要支持此情况，需要使用torch.nn.Sequential，而不是compose
对应于问题描述中代码，即先应用ToTensor()使[0-255]变换为[0-1]，再应用Normalize自定义标准化

3.transforms.ToTensor()

Convert a PIL Image or numpy.ndarray to tensor
转换一个PIL库的图片或者numpy的数组为tensor张量类型；转换从[0,255]->[0,1]

实现原理，即针对不同类型进行处理，原理即各值除以255，最后通过torch.from_numpy将PIL Image or numpy.ndarray针对具体数值类型比如Int32,int16,float等转成torch.tensor数据类型
需要注意的是，源码中有一小段内容：

    if isinstance(pic, np.ndarray):# handle numpy arrayif pic.ndim == 2:pic = pic[:, :, None]img = torch.from_numpy(pic.transpose((2, 0, 1))).contiguous()# backward compatibilityif isinstance(img, torch.ByteTensor):return img.float().div(255)else:return img

我们可以看到在转换过程中有一个轴的转置操作pic.transpose((2, 0, 1)) 和contiguous() 函数

pic.transpose((2, 0, 1))将第三维轴换到第一个位置，这样做的原因主要是因为PIEimage与torch和numpy数据类型多维参数位置的区别，以下表说明

参数	含义
torch：(x,y,z)	x个y*z
PIEimage：(x,y,z)	z个x*y

即三维表示的结构顺序有区别，导致numpy与torch多维转换时需要转置

4.transforms.Normalize()

Normalize a tensor image with mean and standard deviation
通过平均值和标准差来标准化一个tensor图像，公式为：
output[channel] = (input[channel] - mean[channel]) / std[channel]

transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))解释：

第一个(0.5,0.5,0.5) 即三个通道的平均值
第二个(0.5,0.5,0.5) 即三个通道的标准差值

由于ToTensor()已经将图像变为[0,1]，我们使其变为[-1,1]，以第一个通道为例，将最大与最小值代入公式

(0-0.5)/0.5=-1
(1-0.5)/0.5=1
其他数值同理操作，即映射到[-1,1]

transforms.Compose,transforms.ToTensor(),transforms.Normalize()的含义与原理相关推荐

transforms.Compose和transforms.ToTensor()
1.图像处理.转不同格式显示 import torch import torchvision import torchvision.transforms as transforms import cv ...
pytorch的图像通道变换，torchvision.transforms.Compose，T.ToTensor
torchvision.transforms.ToTensor 显示的二值化图片如图所示, 将numpy的图片shape是hwc(高,宽,通道)格式的图片矩阵转换为chw格式的torch.tensor ...
Pytorch下transforms.ToTensor(),transforms.Normalize()详解，及代码实现和复原
一.在数据处理时,我们要经常用到transforms.ToTensor(),transforms.Normalize()语句,将图像数据转换为tensor并标准化到[-1,1]之间. 其计算过程为: ...
torchvision 笔记：transforms.Compose()
torchvision.transforms.Compose()类的主要作用是串联多个transforms列表里面的transform操作比如,在torchvision 笔记:transforms. ...
transforms.Compose()函数
torchvision.transforms是pytorch中的图像预处理包.一般用Compose把多个步骤整合到一起: 比如说: transforms.Compose([transforms.Cen ...
Pytorch中transforms.Compose()的使用
torchvision介绍 torchvision是pytorch的一个图形库,它服务于PyTorch深度学习框架的,主要用来构建计算机视觉模型.torchvision.transforms主要是用于 ...
使用transforms.Compose套件做图像数据变换
首先需要安装依赖pip install -i https://mirrors.aliyun.com/pypi/simple/ torchvision 然后使用如下代码: from PIL import ...
Transform的normalize参数含义
注:在此之前transforms.ToTensor()已经把数据落在0.1区间了比如原来的tensor是三个维度的,值在0到1之间,那么经过以下变换之后就到了-1到1区间. transforms.N ...
数据处理中ToTensor紧接着Normalize
transform = transforms.Compose([ transforms.ToTensor(),transforms.Normalize(mean=(0.5, 0.5, 0.5), st ...

transforms.Compose,transforms.ToTensor(),transforms.Normalize()的含义与原理

transforms.Compose,transforms.ToTensor(),transforms.Normalize()的含义与原理

1.问题描述

2.transforms.Compose

3.transforms.ToTensor()

4.transforms.Normalize()

transforms.Compose,transforms.ToTensor(),transforms.Normalize()的含义与原理相关推荐

最新文章

热门文章