MLP-Mixer简介和一些想法
最近Google Research的Brain Team又发表了重磅文章,纯MLP架构------MLP-Mixer,这个团队即原来的ViT团队,实力强横。作者通过与ViTs模型(包含ViT、HaloNet、BiT)和CNN模型(NFNet、MPL、ALIGN等)做了对比,效果还是不错的。
总体设计思路
整体架构如下图所示:
其整体思路为:先将输入图片拆分成多个patches(每个patche之间不重叠),通过Per-patch Fully-connected层的操作将每个patch转换成feature embedding,然后送入N个Mixer Layer。最后,Mixer 将标准分类头与全局平均池化层配合使用,随后使用Fully-connected进行分类。
Mixer 架构采用两种不同类型的 MLP 层:token-mixing MLP 和 channel-mixing MLP。token-mixing MLP 允许不同空间位置(token)之间进行通信,具有跨patches应用的MLP(即“混合”空间信息);channel-mixing MLP 允许不同通道之间进行通信,具有独立应用于图像patches的MLP(即“混合”每个位置特征)。token-mixing MLP block作用在每个patche的列上,即先对patches部分进行转置,并且所有列参数共享MLP1,得到的输出再重新转置一下。channel-mixing MLP block作用在每个patche的行上,所有行参数共享MLP2。这两种类型的层交替执行以促进两个维度间的信息交互。具体如下图所示:
上图中,绿色框部分是token-mixing MLP,蓝色框部分是channel-mixing MLP。除了 MLP 层,Mixer 还使用其他标准架构组件:跳跃连接(Skip-connection)和层归一化(Layer Norm)。
实验结果
本文对实验结果不进行太多的分析,可以查看一下原文或是参考一些网站;
如:https://baijiahao.baidu.com/s?id=1698992972535694806&wfr=spider&for=pc
自己的意见
本文的研究验证了MLP结构对分类任务的有效性,但是我对此文章依然有一些看法:
- CV领域包含了分类、分割、识别等多个方向,本文的研究为分类做出一定贡献,但是此算法是否可以为分割、识别等方向提供太大的可能呢?我持怀疑态度,因为其进行了patches操作,有效的特征很可能出现大量丢失的情况。当然,我们输入的patches有一定的顺序,根据此顺序理论上可以对特征进行部分拼接或是还原,但是这增加了网络或是后续处理的复杂性;或许有人说可以resize呀,这个方法当然是可以的,但是具体效果那就不知道了,有待验证;
- 众所周知,研究者是根据图像的局部相关性和空间平稳性提出了conv,其实就是把图像分成多个patch,对每个patch上全连接,而且不同patch之间参数共享,这本质上是跟MLP有一定的相似性,但是conv的空间平稳性应该会比MLP好一些,因为MLP进行patchs操作后patchs之间是不重叠的,这也会造成一定的特征丢失;
- 我认为这篇文章中的跳跃连接(Skip-connection)和层归一化(Layer Norm)对整个网络的贡献并不比MLP 层小,这也说明了何凯明大神的厉害之处。
总结
本文的研究我认为还是挺有创造性的,至少他提供了CV领域的一种可行方案。但是总体感觉网络结构的发展是被算力牵着走。MLP(Multi-Layer Perceptron,多层感知机)最先出来,由于当时算力跟不上才提出了图像的CNN,想想本文中的Fully-connected。最近又开始从CNN走回头路,先是VIT再是MLP,只要算力和数据够,一切就都有可能。
MLP-Mixer简介和一些想法相关推荐
- 多层感知机(MLP)简介
一.多层感知机(MLP)原理简介 多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间 ...
- CV之后,纯MLP架构又来搞NLP了,性能媲美预训练大模型
视学算法报道 编辑:陈萍.小舟 搞不起大模型,试一下超高性能的纯 MLP 架构? 去年来自谷歌大脑的研究团队在网络架构设计方面挖出新坑,提出 MLP-Mixer ,这是一个纯 MLP 构建的视觉架构. ...
- 学习笔记 | 多层感知机(MLP)、Transformer
目录 多层感知机(MLP) Transformer 1. inputs 输入 2. Transformer的Encoder 2.1 Multi-Head Attention 2.2 Add&N ...
- ge-to-Image Translat卡内基梅隆大学新作!基于MLP架构的Imaion
点击下方"AI算法与图像处理",关注一下重磅干货,第一时间送达 CVPR2021 很多成果基于之前大火的transformer,但是由于transformer的计算量太大了,最近基 ...
- transformer在视觉检测的应用
transformer在视觉检测的应用 detr简介 一些基于detr启发论文 目标检测 Deformable DETR Conditional DETR Sparse R-cnn 实例分割/全景分割 ...
- 图像超分综述:超长文一网打尽图像超分的前世今生 (附核心代码)
文章目录 一.目的 二.研究背景 三.存在的问题 四.研究现状 五.各算法创新点及核心代码总结 SRCNN ESPCN VDSR DRCN DRRN EDSR SRGAN ESRGAN RDN WDS ...
- [论文阅读](Transformer系列)
文章目录 一.Video Transformer Network 摘要 引言 相关工作:Applying Transformers on long sequences Video Transforme ...
- 最新FPN | CFPNet即插即用,助力检测涨点,YOLOX/YOLOv5均有效
作者 | 小书童 编辑 | 集智书童 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[目标检测]技术交流群 后台回复[2D检测综述] ...
- CVPR 2022 | 模型难复现不一定是作者的错,最新研究发现模型架构要背锅
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 在不同初始化条 ...
- (附链接)CVPR 2022 | 模型难复现不一定是作者的错,最新研究发现模型架构要背锅...
编者荐语 在不同初始化条件下,同一神经网络经过两次训练可以得到相同的结果吗? 转载自丨量子位 CVPR 2022的一篇研究通过将决策边界 (Decision Boundary)可视化的方法,给出了答案 ...
最新文章
- 如何使用区块链技术进行项目开发
- React state和props使用场景
- Failure to find com.oracle:ojdbc6:jar:11.2.0.1.0
- 【dfs+理解题意+构造】【待重做】codeforces E. Ice cream coloring
- AD16修改规则加宽电源线与地线
- SharePoint2010探索日志
- Visual Stdio fopen错误
- AD14,原理图绘制引脚以及引脚名称的修改
- 网络爬虫之手机号测吉凶(纯属娱乐)
- Windows超级管理器,堪比火绒管家
- 小米笔记本pro版bios经常找不到硬盘
- 99行拓扑优化matlab程序解读,99行拓扑优化 代码解析
- 达索系统SPDM面向管理者的企业级仿真流程管理平台
- 用python写一个PDF翻译软件
- 高级数据库三:浅谈数据库事务(transaction)
- 【ZDNS分享】广电行业(四)DHCP解决方案
- SAP 系统组织结构
- 电商网站秒杀和抢购的高并发技术实现和优化
- 百度地图api卫星地球模式的调用
- 2017-4-14校内训练
热门文章
- linux启动盘恢复成普通U盘,u盘启动盘还原普通u盘win10 制作
- 把视频文件放在服务器上,生成链接供外部访问
- 小白入门级的视频剪辑软件
- ABP module-zero +AdminLTE+Bootstrap Table+jQuery权限管理系统第十二节--小结,Bootstrap Table之角色管理
- windows server 2012 AD 活动目录部署系列(三)加入域并创建域用户
- stylelint规则大全
- 项目配置多Redis数据源(Redis分片)
- 小米路由器4刷机说明(openwrt-21.02.1)
- java限时抢购_Java生鲜电商平台-生鲜电商限时抢购功能设计与代码实战(小程序/APP)...
- oracle数据库imp命令,数据库imp导入命令