MLP-Mixer简介和一些想法

最近Google Research的Brain Team又发表了重磅文章，纯MLP架构------MLP-Mixer，这个团队即原来的ViT团队，实力强横。作者通过与ViTs模型（包含ViT、HaloNet、BiT）和CNN模型（NFNet、MPL、ALIGN等）做了对比，效果还是不错的。

总体设计思路

整体架构如下图所示：

其整体思路为：先将输入图片拆分成多个patches（每个patche之间不重叠），通过Per-patch Fully-connected层的操作将每个patch转换成feature embedding，然后送入N个Mixer Layer。最后，Mixer 将标准分类头与全局平均池化层配合使用，随后使用Fully-connected进行分类。

Mixer 架构采用两种不同类型的 MLP 层：token-mixing MLP 和 channel-mixing MLP。token-mixing MLP 允许不同空间位置（token）之间进行通信，具有跨patches应用的MLP（即“混合”空间信息）；channel-mixing MLP 允许不同通道之间进行通信，具有独立应用于图像patches的MLP（即“混合”每个位置特征）。token-mixing MLP block作用在每个patche的列上，即先对patches部分进行转置，并且所有列参数共享MLP1，得到的输出再重新转置一下。channel-mixing MLP block作用在每个patche的行上，所有行参数共享MLP2。这两种类型的层交替执行以促进两个维度间的信息交互。具体如下图所示：

上图中，绿色框部分是token-mixing MLP，蓝色框部分是channel-mixing MLP。除了 MLP 层，Mixer 还使用其他标准架构组件：跳跃连接（Skip-connection）和层归一化（Layer Norm）。

实验结果

本文对实验结果不进行太多的分析，可以查看一下原文或是参考一些网站；
如：https://baijiahao.baidu.com/s?id=1698992972535694806&wfr=spider&for=pc

自己的意见

本文的研究验证了MLP结构对分类任务的有效性，但是我对此文章依然有一些看法：

CV领域包含了分类、分割、识别等多个方向，本文的研究为分类做出一定贡献，但是此算法是否可以为分割、识别等方向提供太大的可能呢？我持怀疑态度，因为其进行了patches操作，有效的特征很可能出现大量丢失的情况。当然，我们输入的patches有一定的顺序，根据此顺序理论上可以对特征进行部分拼接或是还原，但是这增加了网络或是后续处理的复杂性；或许有人说可以resize呀，这个方法当然是可以的，但是具体效果那就不知道了，有待验证；
众所周知，研究者是根据图像的局部相关性和空间平稳性提出了conv，其实就是把图像分成多个patch，对每个patch上全连接，而且不同patch之间参数共享，这本质上是跟MLP有一定的相似性，但是conv的空间平稳性应该会比MLP好一些，因为MLP进行patchs操作后patchs之间是不重叠的，这也会造成一定的特征丢失；
我认为这篇文章中的跳跃连接（Skip-connection）和层归一化（Layer Norm）对整个网络的贡献并不比MLP 层小，这也说明了何凯明大神的厉害之处。

总结

本文的研究我认为还是挺有创造性的，至少他提供了CV领域的一种可行方案。但是总体感觉网络结构的发展是被算力牵着走。MLP（Multi-Layer Perceptron，多层感知机）最先出来，由于当时算力跟不上才提出了图像的CNN，想想本文中的Fully-connected。最近又开始从CNN走回头路，先是VIT再是MLP，只要算力和数据够，一切就都有可能。

MLP-Mixer简介和一些想法相关推荐

多层感知机（MLP）简介
一.多层感知机(MLP)原理简介多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间 ...
CV之后，纯MLP架构又来搞NLP了，性能媲美预训练大模型
视学算法报道编辑:陈萍.小舟搞不起大模型,试一下超高性能的纯 MLP 架构? 去年来自谷歌大脑的研究团队在网络架构设计方面挖出新坑,提出 MLP-Mixer ,这是一个纯 MLP 构建的视觉架构. ...
学习笔记 | 多层感知机（MLP）、Transformer
目录多层感知机(MLP) Transformer 1. inputs 输入 2. Transformer的Encoder 2.1 Multi-Head Attention 2.2 Add&N ...
ge-to-Image Translat卡内基梅隆大学新作！基于MLP架构的Imaion
点击下方"AI算法与图像处理",关注一下重磅干货,第一时间送达 CVPR2021 很多成果基于之前大火的transformer,但是由于transformer的计算量太大了,最近基 ...
transformer在视觉检测的应用
transformer在视觉检测的应用 detr简介一些基于detr启发论文目标检测 Deformable DETR Conditional DETR Sparse R-cnn 实例分割/全景分割 ...
图像超分综述:超长文一网打尽图像超分的前世今生 (附核心代码)
文章目录一.目的二.研究背景三.存在的问题四.研究现状五.各算法创新点及核心代码总结 SRCNN ESPCN VDSR DRCN DRRN EDSR SRGAN ESRGAN RDN WDS ...
[论文阅读]（Transformer系列）
文章目录一.Video Transformer Network 摘要引言相关工作:Applying Transformers on long sequences Video Transforme ...
最新FPN | CFPNet即插即用，助力检测涨点，YOLOX/YOLOv5均有效
作者 | 小书童编辑 | 集智书童点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心[目标检测]技术交流群后台回复[2D检测综述] ...
CVPR 2022 | 模型难复现不一定是作者的错，最新研究发现模型架构要背锅
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达丰色发自凹非寺量子位 | 公众号 QbitAI 在不同初始化条 ...
（附链接）CVPR 2022 | 模型难复现不一定是作者的错，最新研究发现模型架构要背锅...
编者荐语在不同初始化条件下,同一神经网络经过两次训练可以得到相同的结果吗? 转载自丨量子位 CVPR 2022的一篇研究通过将决策边界 (Decision Boundary)可视化的方法,给出了答案 ...

MLP-Mixer简介和一些想法

MLP-Mixer简介和一些想法相关推荐

最新文章

热门文章