Transformer——patch embedding代码

简单版ViT（无attention部分）

主要记录一下Patch Embedding怎么处理和了解一下vit的简单基本框架，下一节写完整的ViT框架

图像上的Transformer怎么处理？如图
图片—>分块patch---->映射（可学习）---->特征

整体网络结构：

实践部分：

Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings
Patch Embedding部分代码：

class PatchEmbedding(nn.Module):def __init__(self,image_size, in_channels,patch_size, embed_dim,dropout=0.):super(PatchEmbedding, self).__init__()#patch_embed相当于做了一个卷积self.patch_embed=nn.Conv2d(in_channels,embed_dim,kernel_size=patch_size,stride=patch_size,bias=False)self.drop=nn.Dropout(dropout)def forward(self,x):# x[4, 3, 224, 224]x=self.patch_embed(x)# x [4, 16, 32, 32]# x:[n,embed_dim,h',w']x = x.flatten(2)  #将x拉直，h'和w'合并   [n,embed,h'*w']   #x [4, 16, 1024]x = x.permute(0,2,1)     # [n,h'*w',embed]      #x [4, 1024, 16]x = self.drop(x)print(x.shape)           #    [4, 1024, 16] 对应[batchsize,num_patch,embed_dim]return x

ViT部分代码：
省略了attention部分

class Vit(nn.Module):def __init__(self):super(Vit, self).__init__()self.patch_embed=PatchEmbedding(224, 3, 7, 16)     #  image tokenslayer_list = [Encoder(16) for i in range(5)]   # 假设有5层encoder,Encoder维度16self.encoders=nn.Sequential(*layer_list)self.head=nn.Linear(16,10)     #做完5层Encoder后的输出维度16，最后做分类num_classes为10self.avg=nn.AdaptiveAvgPool1d(1)       # 所有tensor去平均def forward(self,x):x=self.patch_embed(x)      # #x [4, 1024, 16]for i in self.encoders:x=i(x)# [n,h*w,c]x=x.permute((0,2,1))  # [4, 16, 1024]# [n,c,h*w]x=self.avg(x)  # [n,c,1]  [4, 16, 1]x=x.flatten(1)  # [n,c]  [4,16]x=self.head(x)return x

完整代码：

from PIL import Image
import numpy as np
import torch
import torch.nn as nn# Identity  什么都不做
class Identity(nn.Module):def __init__(self):super().__init__()def forward(self, x):return x#在Mlp中，其实就是两层全连接层，该mlp一般接在attention层后面。首先将16的通道膨胀4倍到64，然后再缩小4倍，最终保持通道数不变。
class Mlp(nn.Module):def __init__(self, embed_dim, mlp_ratio=4.0, dropout=0.):       #  mlp_ratio就是膨胀参数super(Mlp, self).__init__()self.fc1 = nn.Linear(embed_dim, int(embed_dim * mlp_ratio))       # 膨胀self.fc2 = nn.Linear(int(embed_dim * mlp_ratio), embed_dim)      # 尺寸变回去self.act = nn.GELU()self.dropout = nn.Dropout(dropout)def forward(self,x):x = self.fc1(x)x = self.act(x)x = self.dropout(x)x = self.fc2(x)x = self.dropout(x)return xclass PatchEmbedding(nn.Module):def __init__(self,image_size, in_channels,patch_size, embed_dim,dropout=0.):super(PatchEmbedding, self).__init__()#patch_embed相当于做了一个卷积self.patch_embed=nn.Conv2d(in_channels,embed_dim,kernel_size=patch_size,stride=patch_size,bias=False)self.drop=nn.Dropout(dropout)def forward(self,x):# x[4, 3, 224, 224]x=self.patch_embed(x)# x [4, 16, 32, 32]# x:[n,embed_dim,h',w']x = x.flatten(2)  #将x拉直，h'和w'合并   [n,embed,h'*w']   #x [4, 16, 1024]x = x.permute(0,2,1)     # [n,h'*w',embed]      #x [4, 1024, 16]x = self.drop(x)print(x.shape)           #    [4, 1024, 16] 对应[batchsize,num_patch,embed_dim]return xclass Encoder(nn.Module):def __init__(self,embed_dim):super(Encoder, self).__init__()self.atten = Identity()      # self-attention部分先不去实现self.layer_nomer = nn.LayerNorm(embed_dim)   # LN层self.mlp = Mlp(embed_dim)self.mlp_nomer = nn.LayerNorm(embed_dim)def forward(self,x):# 参差结构h = xx = self.atten(x)  # 先做self-attentionx = self.layer_nomer(x)  # 再做LN层x = h+xh = xx = self.mlp(x)  #先做FC层x = self.layer_nomer(x)  # 再做LN层x = h + xreturn xclass Vit(nn.Module):def __init__(self):super(Vit, self).__init__()self.patch_embed=PatchEmbedding(224, 3, 7, 16)     #  image tokenslayer_list = [Encoder(16) for i in range(5)]   # 假设有5层encoder,Encoder维度16self.encoders=nn.Sequential(*layer_list)self.head=nn.Linear(16,10)     #做完5层Encoder后的输出维度16，最后做分类num_classes为10self.avg=nn.AdaptiveAvgPool1d(1)       # 所有tensor去平均def forward(self,x):x=self.patch_embed(x)      # #x [4, 1024, 16]for i in self.encoders:x=i(x)# [n,h*w,c]x=x.permute((0,2,1))  # [4, 16, 1024]# [n,c,h*w]x=self.avg(x)  # [n,c,1]  [4, 16, 1]x=x.flatten(1)  # [n,c]  [4,16]x=self.head(x)return xdef test():# 1. create a imageimg=np.array(Image.open('test.jpg'))   # 224x224t = torch.tensor(img, dtype=torch.float32)print(t.shape)                # [224, 224, 3]sample = t.reshape([4,3,224,224])      # 将[224, 224, 3]reshape成一行print(sample)#print(t.transpose(1,0))# 2. patch embedding--------Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings# patch_size是切分的大小，原始224 ∗ 224 ∗ 3 的图片会首先变成32 ∗ 32 ∗ 16# in_channel rgb图是3# embed_dim是需要映射的dimpatch_embedding = PatchEmbedding(image_size=224, patch_size=7, in_channels=3, embed_dim=1)# 做前向操作out = patch_embedding(sample)print(out)#print(out.shape)mlp=Mlp(embed_dim=1)out = mlp(out)print(out.shape)def main():t = torch.randn([4,3,224,224])model=Vit()out=model(t)print(out.shape)if __name__ == "__main__":main()

最后输出[4,10]
下一节写完整的ViT代码

Transformer——patch embedding代码相关推荐

ViT Patch Embedding理解
ViT(Vision Transformer)中的Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings. 假设输入图像的维度为HxWxC,分别表示高,宽 ...
Swin Transformer原文及其代码的理解
Swin Transformer原文及其代码的理解第一版更好的排版笔记:Notion 名词解释基础知识: 搞懂Vision Transformer 原理和代码,看这篇技术综述就够了(三) tok ...
Swin Transformer原理与代码精讲
课程链接:Swin Transformer原理与代码精讲--计算机视觉视频教程-人工智能-CSDN程序员研修院 Transformer在许多NLP(自然语言处理)任务中取得了最先进的成果. Swin ...
Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding
最近,自监督学习(SSL)在学习图像表示方面取得了巨大的经验进步.然而,我们对表示的理解和知识仍然有限.这项工作表明,siamese-network-based SSL取得SOTA的成功主要基于学习图 ...
【NLP】简单学习一下NLP中的transformer的pytorch代码
经典transformer的学习文章转自微信公众号[机器学习炼丹术] 作者:陈亦新(已授权) 联系方式: 微信cyx645016617 欢迎交流,共同进步代码细讲 transformer Embe ...
【深度学习】搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了
作者丨科技猛兽编辑丨极市平台导读本文对Vision Transformer的原理和代码进行了非常全面详细的解读,一切从Self-attention开始.Transformer的实现和代码以及Tr ...
NLP-生成模型-2017-Transformer（二）：Transformer各模块代码分析
一.WordEmbedding层模块(文本嵌入层) Embedding Layer(文本嵌入层)的作用:无论是源文本嵌入还是目标文本嵌入,都是为了将文本中词汇的数字表示转变为向量表示, 由一维转为多维 ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了
↑ 点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台极市导读本文对Vision Transformer的原理和代码进行了非常全面详细的解读,一切从Self-attention开始.Trans ...
刷爆 AI 圈！基于 Transformer 的 DALL-E 代码刚刚开源了
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达转自 | AI科技评论 OpenAI在1月5日公布DALL-E模型以 ...

Transformer——patch embedding代码

简单版ViT（无attention部分）

实践部分：

Transformer——patch embedding代码相关推荐

最新文章

热门文章