最近Google Research的Brain Team又发表了重磅文章,纯MLP架构------MLP-Mixer,这个团队即原来的ViT团队,实力强横。作者通过与ViTs模型(包含ViT、HaloNet、BiT)和CNN模型(NFNet、MPL、ALIGN等)做了对比,效果还是不错的。

总体设计思路

    整体架构如下图所示:

    其整体思路为:先将输入图片拆分成多个patches(每个patche之间不重叠),通过Per-patch Fully-connected层的操作将每个patch转换成feature embedding,然后送入N个Mixer Layer。最后,Mixer 将标准分类头与全局平均池化层配合使用,随后使用Fully-connected进行分类。

    Mixer 架构采用两种不同类型的 MLP 层:token-mixing MLP 和 channel-mixing MLP。token-mixing MLP 允许不同空间位置(token)之间进行通信,具有跨patches应用的MLP(即“混合”空间信息);channel-mixing MLP 允许不同通道之间进行通信,具有独立应用于图像patches的MLP(即“混合”每个位置特征)。token-mixing MLP block作用在每个patche的列上,即先对patches部分进行转置,并且所有列参数共享MLP1,得到的输出再重新转置一下。channel-mixing MLP block作用在每个patche的行上,所有行参数共享MLP2。这两种类型的层交替执行以促进两个维度间的信息交互。具体如下图所示:

    上图中,绿色框部分是token-mixing MLP,蓝色框部分是channel-mixing MLP。除了 MLP 层,Mixer 还使用其他标准架构组件:跳跃连接(Skip-connection)和层归一化(Layer Norm)。

实验结果

    本文对实验结果不进行太多的分析,可以查看一下原文或是参考一些网站;
    如:https://baijiahao.baidu.com/s?id=1698992972535694806&wfr=spider&for=pc

自己的意见

    本文的研究验证了MLP结构对分类任务的有效性,但是我对此文章依然有一些看法:

  1. CV领域包含了分类、分割、识别等多个方向,本文的研究为分类做出一定贡献,但是此算法是否可以为分割、识别等方向提供太大的可能呢?我持怀疑态度,因为其进行了patches操作,有效的特征很可能出现大量丢失的情况。当然,我们输入的patches有一定的顺序,根据此顺序理论上可以对特征进行部分拼接或是还原,但是这增加了网络或是后续处理的复杂性;或许有人说可以resize呀,这个方法当然是可以的,但是具体效果那就不知道了,有待验证;
  2. 众所周知,研究者是根据图像的局部相关性和空间平稳性提出了conv,其实就是把图像分成多个patch,对每个patch上全连接,而且不同patch之间参数共享,这本质上是跟MLP有一定的相似性,但是conv的空间平稳性应该会比MLP好一些,因为MLP进行patchs操作后patchs之间是不重叠的,这也会造成一定的特征丢失;
  3. 我认为这篇文章中的跳跃连接(Skip-connection)和层归一化(Layer Norm)对整个网络的贡献并不比MLP 层小,这也说明了何凯明大神的厉害之处。

总结

    本文的研究我认为还是挺有创造性的,至少他提供了CV领域的一种可行方案。但是总体感觉网络结构的发展是被算力牵着走。MLP(Multi-Layer Perceptron,多层感知机)最先出来,由于当时算力跟不上才提出了图像的CNN,想想本文中的Fully-connected。最近又开始从CNN走回头路,先是VIT再是MLP,只要算力和数据够,一切就都有可能。

MLP-Mixer简介和一些想法相关推荐

  1. 多层感知机(MLP)简介

    一.多层感知机(MLP)原理简介 多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间 ...

  2. CV之后,纯MLP架构又来搞NLP了,性能媲美预训练大模型

    视学算法报道 编辑:陈萍.小舟 搞不起大模型,试一下超高性能的纯 MLP 架构? 去年来自谷歌大脑的研究团队在网络架构设计方面挖出新坑,提出 MLP-Mixer ,这是一个纯 MLP 构建的视觉架构. ...

  3. 学习笔记 | 多层感知机(MLP)、Transformer

    目录 多层感知机(MLP) Transformer 1. inputs 输入 2. Transformer的Encoder 2.1 Multi-Head Attention 2.2 Add&N ...

  4. ge-to-Image Translat卡内基梅隆大学新作!基于MLP架构的Imaion

    点击下方"AI算法与图像处理",关注一下重磅干货,第一时间送达 CVPR2021 很多成果基于之前大火的transformer,但是由于transformer的计算量太大了,最近基 ...

  5. transformer在视觉检测的应用

    transformer在视觉检测的应用 detr简介 一些基于detr启发论文 目标检测 Deformable DETR Conditional DETR Sparse R-cnn 实例分割/全景分割 ...

  6. 图像超分综述:超长文一网打尽图像超分的前世今生 (附核心代码)

    文章目录 一.目的 二.研究背景 三.存在的问题 四.研究现状 五.各算法创新点及核心代码总结 SRCNN ESPCN VDSR DRCN DRRN EDSR SRGAN ESRGAN RDN WDS ...

  7. [论文阅读](Transformer系列)

    文章目录 一.Video Transformer Network 摘要 引言 相关工作:Applying Transformers on long sequences Video Transforme ...

  8. 最新FPN | CFPNet即插即用,助力检测涨点,YOLOX/YOLOv5均有效

    作者 | 小书童  编辑 | 集智书童 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[目标检测]技术交流群 后台回复[2D检测综述] ...

  9. CVPR 2022 | 模型难复现不一定是作者的错,最新研究发现模型架构要背锅

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 在不同初始化条 ...

  10. (附链接)CVPR 2022 | 模型难复现不一定是作者的错,最新研究发现模型架构要背锅...

    编者荐语 在不同初始化条件下,同一神经网络经过两次训练可以得到相同的结果吗? 转载自丨量子位 CVPR 2022的一篇研究通过将决策边界 (Decision Boundary)可视化的方法,给出了答案 ...

最新文章

  1. 如何使用区块链技术进行项目开发
  2. React state和props使用场景
  3. Failure to find com.oracle:ojdbc6:jar:11.2.0.1.0
  4. 【dfs+理解题意+构造】【待重做】codeforces E. Ice cream coloring
  5. AD16修改规则加宽电源线与地线
  6. SharePoint2010探索日志
  7. Visual Stdio fopen错误
  8. AD14,原理图绘制引脚以及引脚名称的修改
  9. 网络爬虫之手机号测吉凶(纯属娱乐)
  10. Windows超级管理器,堪比火绒管家
  11. 小米笔记本pro版bios经常找不到硬盘
  12. 99行拓扑优化matlab程序解读,99行拓扑优化 代码解析
  13. 达索系统SPDM面向管理者的企业级仿真流程管理平台
  14. 用python写一个PDF翻译软件
  15. 高级数据库三:浅谈数据库事务(transaction)
  16. 【ZDNS分享】广电行业(四)DHCP解决方案
  17. SAP 系统组织结构
  18. 电商网站秒杀和抢购的高并发技术实现和优化
  19. 百度地图api卫星地球模式的调用
  20. 2017-4-14校内训练

热门文章

  1. linux启动盘恢复成普通U盘,u盘启动盘还原普通u盘win10 制作
  2. 把视频文件放在服务器上,生成链接供外部访问
  3. 小白入门级的视频剪辑软件
  4. ABP module-zero +AdminLTE+Bootstrap Table+jQuery权限管理系统第十二节--小结,Bootstrap Table之角色管理
  5. windows server 2012 AD 活动目录部署系列(三)加入域并创建域用户
  6. stylelint规则大全
  7. 项目配置多Redis数据源(Redis分片)
  8. 小米路由器4刷机说明(openwrt-21.02.1)
  9. java限时抢购_Java生鲜电商平台-生鲜电商限时抢购功能设计与代码实战(小程序/APP)...
  10. oracle数据库imp命令,数据库imp导入命令