关注公众号,发现CV技术之美

本文为52CV粉丝投稿。

论文:ConvNets vs. Transformers: Whose Visual Representations are More Transferable?
论文链接:https://arxiv.org/abs/2108.05305

一文献给还在ConvNets和Transformer之间犹豫的小伙伴们:也许是时候倒向Vision Transformer预训练模型了!

文章被 ICCV 2021 workshop  on Multi-Task Learning in Computer Vision 收录。

 Highlights

1)我们通过大量实验发现即使Vision Transformer在ImageNet上的预训练表现略弱于ConvNets,Vision Transformer仍然可以为下游的各种任务提供更有迁移能力(more transferable)的预训练特征。

2)通过在10个数据集上同时进行单任务和多任务评测,我们发现Vision Transformer在ImageNet上的预训练模型经过微调在15个下游任务中的13个任务上取得了较为显著的优势。

这些任务包括但不限于:细粒度分类、场景识别(分类、分割和景深估计)、开放领域图片分类(比如医疗数据和艺术风格识别)、人脸识别、年龄估计等等。

3)传统的观点一般认为Transformer优于ConvNets的原因是在于其更加放松(relaxed)的inductive bias。通过系统的实验,我们认为使得Transformer的迁移性能优于ConvNets的另外一大原因是其在提供相近ImageNet预训练性能的情况下,具有更少的参数量,这有利于降低预训练模型在下游任务上过拟合的风险

 研究背景介绍

最近半年以来(准确来说应该是ViT出现之后),Vision Transformer逐渐开始席卷计算机视觉的各个领域。其中,以Swin Transformer为代表的各类网络在目标检测和分割两大任务上相较于传统的ConvNets取得了较为显著的进步。

这使得我们更加好奇,在其它一些更加通用、更加一般的问题上,Vision Transformer是否还会具有类似的优势。在此背景下,我们第一次尝试较为全面地比较ConvNets和Vision Transformers,从中我们观察到了一些比较有意义的现象,希望可以为以后更加系统性的研究提供一些有益的启发。


如上图所以,该研究由香港大学和上海科技大学合作完成。

@InProceedings{cnn_vs_trans,title={{ConvNets vs. Transformers: Whose Visual Representations are More Transferable?}},author={Zhou, Hong-Yu and Lu, Chixiang and Yang, Sibei and Yu, Yizhou},booktitle={ICCV workshop on Multi-Task Learning in Computer Vision (DeepMTL)},year={2021}
}

 方法


如上图所示,我们的思路其实非常容易理解。在ImageNet预训练阶段,我们分别选择若干在ImageNet上具有相近性能(通常以top-1 error rates来衡量)的ConvNets和Vision Transformers模型。在此基础上,我们在各种下游任务上进行微调以评估预训练模型的迁移性能。

如上图所示,对于卷积网络,我们选择了R-101x3和R-152x4(x3和x4分别表示网络的宽度是正常ResNet-101和ResNet-152的三倍和四倍),以往的研究表明增加ResNet的宽度可以带来更好的迁移能力。

对于Vision Transformer,我们选择了经典的ViT-B/16和ViT-L/16,以及在目标检测和分割上表现优异的Swin Transformer-B(简称Swin-B)。所有的模型都在ImageNet-22k上进行预训练,并在ImageNet-1k上进行测试。

除了IN(acc.),我们还引入了另外一个指标performance rank(上图中的灰色数字)来更好地区分不同网络的性能表现。比如R-152x4在ImageNet-1k上的性能最高,所以它的rank是1。Swin-B和ViT-L/16的性能一样,所以它们并列第二,R-101x3和ViT-B/16以此类推。

我们发现ConvNet组两个模型的平均performance rank是2.5,略高于Vision Transformer组的3.0。按照以往的观点,ConvNet组的模型在各种下游任务上的性能应该至少与Vision Transformer组的模型相当。但是事实却并非如此

 实验结果

下面就到了展示我们实验结果的时候啦。

首先是(a)细粒度分类

我们可以看到Vision Transformer组在细粒度分类上具有较大的优势。具体在Flower102包揽了前三名,在CUB200上包揽了前两名。同时在平均performance rank上领先ConvNet组大约两个身位。

接着是(b)场景识别问题

又是肉眼可见的大幅度领先。在NYU数据集的两个子任务上同时包揽前三名。

下一个是(c)跨领域识别问题

这里我们选择了两个对模型迁移性能比较有挑战性的问题,即艺术风格和新冠肺炎识别。我们发现Vision Transformer组在两个问题上均包揽了前三名,同时平均performance rank大幅度领先ConvNet组。

我们认为这个结果可以在某种程度上有力地说明Vision Transformer组的预训练模型可以提供更有迁移能力的预训练特征

下一个是多任务学习上的评测,

这里我们在NYU数据集上同时进行Segmentation和Depth estimation的多任务学习。显而易见地,Transformer组又又又大幅度领先ConvNet组,同时又又一次包揽了前三名。

我们在多任务学习上的评估结果表明即使Vision Transformer的模型参数量大大低于ConvNet,其model capacity在一些较为简单的多任务上并不会受到影响

最后,给出一个Transformer组失败的例子:无监督图像检索(PS:也许是一个挺好的写paper的出发点 :) )。


我们看到ConvNet组在无监督的图像检索上还是有较大的优势的。对此我们的解释是Vision Transformer在迁移到下游任务时可能更依赖于模型的全局微调操作, 因为在这组实验里我们直接使用了预训练模型的特征,而没有对预训练模型进行微调。感兴趣的小伙伴可以在此问题上继续深挖,相信会有更多的收获!

论文链接:https://arxiv.org/abs/2108.05305

最后的最后,更多的实验结果可以点上方,直接看我们的paper。

END

欢迎加入「Transformer交流群

深入探究ConvNets vs. Transformers,哪种预训练模型的可迁移性更好?相关推荐

  1. 腾讯老照片修复算法开源,细节到头发丝,3种预训练模型可下载 | GitHub热榜

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 还记得这个能将老照片修复到纤毫毕现的GFPGAN吗? 现在,它的代码正式开源了! 官方已经在GitHub上传了3个预训练模型,3个版本的效果区别如 ...

  2. 按照时间线帮你梳理10种预训练模型

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要25分钟 跟随小博主,每天进步一丢丢 作者: 林哲乐 方向: 知识图谱.问答 知乎专栏: https://zhuanlan.zhihu.com/ ...

  3. 【NLP】6种用于文本分类的开源预训练模型

    来源 | PURVA HUILGOL 编译 | VK 作者 | Analytics Vidhya [导读]我们正站在语言和机器的交汇处,这个话题我很感兴趣.机器能像莎士比亚一样写作吗?机器能提高我自己 ...

  4. Pytorch:NLP 迁移学习、NLP中的标准数据集、NLP中的常用预训练模型、加载和使用预训练模型、huggingface的transfomers微调脚本文件

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) run_glue.py微调脚本代码 python命令执行run ...

  5. BERT的通俗理解 预训练模型 微调

    1.预训练模型       BERT是一个预训练的模型,那么什么是预训练呢?举例子进行简单的介绍       假设已有A训练集,先用A对网络进行预训练,在A任务上学会网络参数,然后保存以备后用,当来一 ...

  6. BERT微调效果不佳?不如试试这种大规模预训练模型新范式

    BERT模型自发布至今已整整两年了,但是其余热仍未消减.从一经问世的轰动,简单应用/微调便可达到某个领域或者任务的SOTA效果:到如今的各种『被吊打』,BERT巨人肩膀上的新宠大致可以分为以下这么几类 ...

  7. EMNLP 2021中预训练模型最新研究进展

    © 作者|周昆 机构|中国人民大学信息学院 研究方向|序列表示学习与应用 导读 EMNLP 2021是人工智能领域自然语言处理( Natural Language Processing,NLP)三大顶 ...

  8. 通用模型、全新框架,WavLM语音预训练模型全解

    (本文阅读时间:14分钟) 编者按:深度神经网络模型近年来虽然在各项语音任务上都有所进展,但却仍依赖于大量的标注数据.而自监督训练方法的出现和发展则在一定意义上缓解了该问题.近日,微软亚洲研究院与微软 ...

  9. 深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详细讲解

    [深度学习入门到进阶]必看系列,含激活函数.优化策略.损失函数.模型调优.归一化算法.卷积模型.序列模型.预训练模型.对抗神经网络等 专栏详细介绍:[深度学习入门到进阶]必看系列,含激活函数.优化策略 ...

最新文章

  1. 【转】关于 SELECT /*!40001 SQL_NO_CACHE */ * FROM 的解惑
  2. Gym-101466K Random Numbers(线段树,数学,唯一分解定理)
  3. JS中fori和forEach跳出循环的问题
  4. ICDAR 2019 论文下载
  5. pip安装gluonts
  6. 固定资产拆分比例怎么计算_固定资产加速折旧优惠扩围!怎么计算、申报?这篇说全了...
  7. Codeforces Round #158 (Div. 2) A - Adding Digits
  8. windows进程中的内存结构(转)
  9. 十款最好用的远程桌面工具
  10. 日常消费软件记账项目
  11. android 中通过SimpleDateFormat自定义显示英文的时间格式
  12. Android实现简单日历
  13. 数据分析实战 -- 股票量化交易分析
  14. windows 7 iso镜像刻录到U盘后选择安装的版本
  15. M1 PS2021已更新下载!Photoshop2021 Mac真正完美适配M1芯片!PS21m1直装已解决2019黑屏闪退卡启动界面等所有问题!
  16. 笔记本屏幕给另一台当扩展屏幕_chenjie的博客
  17. QT错误1-error: invalid use of incomplete type ‘class xxx‘
  18. springboot+vue项目合同申报系统java
  19. Web开发技术的演变
  20. oracle rac补丁安装详细步骤,RAC打补丁的步骤

热门文章

  1. 网络爬虫生成代理ip
  2. 数字图像处理--图像梯度算子的本质
  3. Mosquitto 0 15 开源MQTT v3 1 Broker
  4. Wiz Editor md 为知笔记 Markdown 插件
  5. [GPL]GREP - basic - practice -advanced
  6. java bean 工厂模式_通过annotation(注解)实现BeanFactory工厂模式(三)
  7. mysql ip比较大小_MySQL优化/面试,看这一篇就够了
  8. 学计算机的人玩什么游戏,亲戚眼中的大学专业:学的计算机啊,游戏打的肯定贼好吧...
  9. python中文字体怎么设置_python matplotlib 中文字体设置
  10. math库是python语言的数学模块_Python 数学模块(Math)