来源:新智元

【导读】顶会投稿竟只写4页?拳打ViT,脚踢MLP,Patch到底能不能成为ALL YOU NEED?

金秋十月,又到了ICLR截稿的季节!

一篇「Patches are all you need」横空出世。

堪称ICLR 2022的爆款论文,从国外一路火到国内。

509个赞,3269个转发

知乎热搜

这篇标题里不仅有「划掉」还有「表情」的论文,正文只有4页!

https://openreview.net/pdf?id=TVHS5Y4dNvM

此外,作者还特地在文末写了个100多字的小论文表示:「期待更多内容?并没有。我们提出了一个非常简单的架构和观点:patches在卷积架构中很好用。四页的篇幅已经足够了。」

这……莫非又是「xx is all you need」的噱头论文?

你只需要PATCHES

这个特立独行的论文在一开篇的时候,作者就发出了灵魂拷问:「ViT的性能是由于更强大的Transformer架构,还是因为使用了patch作为输入表征?」

众所周知,卷积网络架构常年来占据着CV的主流,不过最近ViT(Vision Transformer)架构则在许多任务中的表现出优于经典卷积网络的性能,尤其是在大型数据集上。

然而,Transformer中自注意力层的应用,将导致计算成本将与每张图像的像素数成二次方扩展。因此想要在CV任务中使用Transformer架构,则需要把图像分成多个patch,再将它们线性嵌入 ,最后把Transformer直接应用于patch集合。

在本文中作者提出了一个极其简单的模型:ConvMixer,其结构与ViT和更基本的MLP-Mixer相似,直接以patch作为输入,分离了空间和通道维度的混合,并在整个网络中保持同等大小和分辨率。不同的是,ConvMixer只使用标准的卷积来实现混合步骤。

作者表示,通过结果可以证明ConvMixer在类似的参数量和数据集大小方面优于ViT、MLP-Mixer和部分变种,此外还优于经典的视觉模型,如ResNet。

ConvMixer模型

ConvMixer由一个patch嵌入层和一个简单的完全卷积块的重复应用组成。

大小为p和维度为h的patch嵌入可以实现输入通道为c、输出通道为h、核大小为p和跨度为p的卷积。

ConvMixer模块包括depthwise卷积(组数等于通道数h的分组卷积)以及pointwise卷积(核大小为1×1)。每个卷积之后都有一个激活函数和激活后的BatchNorm:

在多次应用ConvMixer模块后,执行全局池化可以得到一个大小为h的特征向量,并在之后将其传递给softmax分类器。

ConvMixer的实例化取决于四个参数:

  1. 「宽度」或隐藏维度h(即patch嵌入的维度)

  2. 「深度」或ConvMixer层的重复次数d

  3. 控制模型内部分辨率的patch大小p

  4. 深度卷积层的核大小k

作者将原始输入大小n除以patch大小p作为内部分辨率。此外,ConvMixers支持可变大小的输入。

实验结果

在CIFAR-10上较小规模的实验表明,ConvMixers在只有0.7M参数的情况下达到了96%以上的准确率,证明了卷积归纳偏差的数据有效性。

不使用任何预训练或额外数据的情况下,在ImageNet-1k中评估对ConvMixers。将ConvMixer添加到timm框架中,并使用几乎标准的设置进行训练:默认的timm增强、RandAugment、mixup、CutMix、随机删除和梯度标准裁剪。此外,还使用了AdamW优化器和一个简单的triangular学习率时间表。

由于算力有限,模型没有在ImageNet上进行超参数调整,而且训练的epochs比竞争对手少。因此,作者表示,论文中提出的准确率可能低估了模型的能力。(是的没看错,原文就是underestimate)

结果表明,具有52M参数的ConvMixer-1536/20可以在ImageNet上达到81.4%的最高精确度,具有21M参数的ConvMixer-768/32可以达到80.2%。

此外,ConvMixer-768/32使用的参数仅为ResNet-152的三分之一,但其准确度与之类似。

在224×224的ImageNet-1k上训练和评估

更宽的ConvMixer可以在更少的epochs下就实现收敛,但对内存和计算的要求更加苛刻。当ConvMixer的卷积核更大时,效果也更好。ConvMixer-1536/20在将核大小从k=9减少到k=3时,准确性下降了≈1%。

在实验中,拥有更小patch的ConvMixers的性能更好,作者表示这是因为较大的patch需要更深的ConvMixers。

ConvMixer-1536/20的性能优于ResNet-152和ResMLP-B24,而且参数要少得多,并且与DeiT-B的性能接近。

然而,ConvMixer的推理速度大大低于竞争对手,这可能是由于其较小的patch;超参数的调整和优化可以缩小这一差距。

算法实现

网友评论

对着标题玩梗肯定是少不了的。

Chinese philosophy is all you need

Money is all you need

对此,来自华科的网友@小小将认为这篇论文实在是「名不副实」。

一位网友疯狂拆穿,认为这篇论文「吹水」得过于明显了。

甚至表示:「任何一个ViT、MLP、ResNet模型通过增大输入的patch分辨率,在把计算量提到这么大之后,性能都能比这更好。」

@陈小小表示,通篇只比参数量,不比计算量。与同精度的ResNet相比,吞吐量差得离谱。

当然了,该论文提到的ConvMixer如此简洁优雅,还是有一队网友轮番夸赞的。

@殷卓文表示,这是一篇「漂亮得不讲道理」的论文,堪称完美。

结构是常规的结构,不用调参,效果又好,怎能不香呢?

此外,也回答了之前一位网友指出的问题:「这篇论文减小patchsize,相当于增大输入token size,与vit等方法是不公平的比较。同时这篇文章的方法实际运行速度慢(throughput)。」

特斯拉AI高级总监Andrej Karpathy也赞叹道:「我被新的 ConvMixer 架构震撼了。」

对于网上这些争论,@陀飞轮表示,主要是「深度学习的控制变量都不是严格的控制变量」这个问题所造成的。

参考资料:

https://www.zhihu.com/question/492712118

https://openreview.net/pdf?id=TVHS5Y4dNvM

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 一文总结微软研究院Transformer霸榜模型三部曲!

  • Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源

  • 加性注意力机制!清华和MSRA提出Fastformer:又快又好的Transformer新变体!

  • MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展!

  • 周志华教授:如何做研究与写论文?(附完整的PPT全文)

  • 都2021 年了,AI大牛纷纷离职!各家大厂的 AI Lab 现状如何?

  • 常用 Normalization 方法的总结与思考:BN、LN、IN、GN

  • 注意力可以使MLP完全替代CNN吗? 未来有哪些研究方向?

欢迎大家加入DLer-计算机视觉&Transformer群!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

火爆全网,却只有4页!ICLR爆款论文「你只需要Patch」到底香不香?相关推荐

  1. 只有4页!ICLR爆款论文「Patches are all you need」

    点击上方"机器学习与生成对抗网络",关注星标 获取有趣.好玩的前沿干货! 转自:新智元 金秋十月,又到了ICLR截稿的季节! 一篇「Patches are all you need ...

  2. 爆笑!「程序员吐槽大会」只有程序员听懂的段子!

    整理 | 伍杏玲 出品 | 程序人生(ID: coder_life) 在刚结束的云栖大会上,众多来自产学研专家对 AI.5G.芯片.IoT.小程序等前沿硬核技术领域的进行分享. 可小编的朋友圈却被它刷 ...

  3. CVPR 2019 爆款论文作者现场解读:视觉语言导航、运动视频深度预测、6D姿态估计...

    2019年计算机视觉顶会CVPR前不久刚在美国长滩闭幕.Robin.ly在大会现场独家采访20多位热点论文作者,为大家解读论文干货.本期三篇爆款文章包括: 1. CVPR满分文章.最佳学生论文奖.结合 ...

  4. 信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公布...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 这篇博士论文在 Tishby 的指导下完成,汇集了师徒二人及其他合著者 ...

  5. 爆款论文提出简单循环单元SRU:像CNN一样快速训练RNN(附开源代码)

    近日,一篇题为<Training RNNs as Fast as CNNs>的 arXiv 论文通过有意简化状态计算并展现更多的并行性而提出了一个替代性的 RNN 实现,这一循环单元的运算 ...

  6. 北大“最丑”数学老师爆红 ,火爆全网,不愧是90后天才 !

    来源:新智元 一瓶矿泉水,三个馒头,就是一餐,一条90后北大数学老师的视频爆红网络.他就是韦东奕,15岁拿下IMO国际数学竞赛金奖,18岁保送北大,哈佛还为争取他不惜打破百年校规. 这位北大数学老师一 ...

  7. 火爆全网的Python数据科学手册,太有用了

    大家好,感谢大家一路以来的关注和支持,今天为大家整理和筛选了大量火爆全网的Python数据科学学习资料,全部资料按需自助免费获取! 火爆全网的Python进阶中文版 推荐一本对Python感兴趣的书籍 ...

  8. 火爆全网!《算法刷题宝典》资源,免费下载!(含代码数据)

    今天给大家推荐一份曾经火爆全网的算法中文小册,据说有不少小伙伴靠这份指南成功掌握了算法的核心技能,成功拿到了 BAT offer. 1. 进入公众号「深度学习技术前沿」: 2. 在消息对话框回复关键词 ...

  9. 【火爆全网,好评如潮】DS100手持示波器现货发售拉,附原子哥发布会详细讲解视频以及宣传视频...

    关注.星标公众号,直达精彩内容 原子哥发布会讲解DS100视频 DS简要介绍视频 正点原子DS100手持示波器,预售一个月火爆全网,咨询者无数.第一批1000套已经售完.现在是第二批现货发售. 我们截 ...

最新文章

  1. 常用数据结构讲解与案例分析
  2. SEGGER RTT STOP/SLEEP 模式下使用
  3. 2021年春季学期-信号与系统-第九次作业参考答案-第六小题
  4. SEO交换链接时需遵循哪些原则?
  5. [HDOJ3652]B-Number(数位dp)
  6. 网上整理的jQuery插件开发教程
  7. Navigation bar - remove recent object
  8. supervisor开机自启动方法
  9. Windows VS c++复制文件到网络共享文件夹的实现
  10. 关于Java和Scala同步的五件事你不知道
  11. linux 按键驱动中断 rockchip_嵌入式linux快速入门(转载)
  12. 微软提供的数据访问组件SqlHelper
  13. 基于matlab模糊pid控制系统,基于MATLAB的模糊自适应PID控制器的设计
  14. UnderWater+SDN论文之六
  15. 解决 Error:No suitable device found: no device found for connection System eth0
  16. Android Studio基于360加固的一键加固gradle脚本配置
  17. java高级架构师年薪,深度集成!
  18. SQL date 格式
  19. Centos7下安装部署Zabbix-server 3.4
  20. 一键解决Windows照片查看器故障

热门文章

  1. 关于JAVA的String类的一些方法
  2. 存储的学习:freenas使用记录
  3. Zend Guard 各版本下载【破解方法】
  4. Dictionary (Of (TKey, TValue)) Class Example
  5. android9多了什么功能,Android 9.0 都增加了什么功能?
  6. Java中传参数--值传递和引用传递
  7. cmake编译安装完成后 执行cmake --version报错 bash: /usr/bin/cmake: 没有那个文件或目录
  8. Linux cuda cudann的安装
  9. sklearn(五)计算acc:使用metrics.accuracy_score()计算分类的准确率
  10. 韦世东:计划 35 岁「退休」的资深爬虫工程师