Emerging Properties in Self-Supervised Vision Transformers阅读笔记

介绍

论文作者提出了一种新的自监督学习方法,self-distillation with no labels(DINO)。并将其应用在了CNN和Vision Transformer(ViT)结构上,均取得了不错的效果,且ViT的效果还要优于CNN。

特点

  • self-supervised ViT的feature包含了图片的语义分割的明确信息,如场景布局(scene layout),对象边界(object boundaries)等(图1),而传统的supervised ViT和CNN没有包含
  • self-supervised ViT(ViT-S)训练后,采用KNN分类器,在ImageNet可以达到78.3%(top-1)的效果
  • 和BYOL自监督学习方法类似,DINO也由两个network构成,一个student(online)和teacher(target),采用momentum encoder结构,multi-crop training

启发(Motivation)

  • 传统ViT的缺陷

    • 需要大量计算,大量的训练数据,feature没有包含独特的性质(unique properties)
  • Transformers先是在NLP中应用,之后才被人们尝试用在了CV中,并得到了可以和CNN竞争的优秀成果
    • 因此,作者受到了Transformer在NLP中的自监督预训练思路的启发,如BERT,GPT,利用句子中word来生成pretext task,可以比监督方法提供更多的学习信息
  • self-supervised方法通常使用相似的结构来避免模型坍塌(collapse)和提高性能,如BYOL,SimSiam

方法与实现

结构

  • 两个结构基本相同,参数不同的network,student和teacher

    • 各由一个encoder(backone,如Resnet,ViT)和一个projection head构成
    • projection head由3层MLP,一层l2 normalization和一层full connection构成
  • teacher网络采用momentum形式更新,后面有一层centering层,实现对teacher输出的centering和sharpening,从而避免模型坍塌(BYOL中的predictor结构也是起到避免吗,模型坍塌的效果)

    • student和teacher最后都接一层temperature softmax,对两个网络输出的K维feature进行归一化
    • 在teacher网络使用stop-gradient,阻止梯度传播,因此teacher通过student采用exponential moving average(EMA)方法更新梯度
  • 采用cross-entropy的损失函数

  • BN-free

    • 没有使用batch normalization结构

训练流程

  • 对输入的图片做两次随机的图像增强,然后分别传入student和teacher网络中,gθsg_{\theta_{s}}gθs​​为student网络操作,gθtg_{\theta_{t}}gθt​​为teacher网络操作
  • 公式PPP是为temperature softmax函数,τ\tauτ参数控制网络输出分布的sharpness
  • 然后计算两个网络的最终输出,cross-entropy loss
  • 将ce loss应用到自监督学习
  • EMA更新teacher参数,λ\lambdaλ随着训练采用cosine schedule方式由0.996更新到1

避免坍塌

作者通过平衡centering和sharpening两种效果,从而避免模型坍塌

坍塌:不论输入什么,模型的输出总是单一维度或者均匀分布

  • centering避免了单一维度,但导致了均匀分布
  • sharpening可以避免均匀分布
  • centering操作:给teacher网络增加一个bias ccc
    • ccc也是采用EMA形式更新:
  • sharpening通过teacher网络中softmax中的τ\tauτ进行控制

实验

性能评估

作者将在ImageNet上训练好的backone提取出来,冻结参数,使用KNN分类器和线性分类器验证其性能

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MbDvrAWW-1629627664284)(Emerging Properties in Self-Supervised Vision Transformers论文阅读/image-20210822175246469.png)]

消融实验

不同结构组成

patch size

patch size越小,性能越高,但是吞吐量也会下降

迁移学习

作者将在ImageNet上用自监督方法训练得到的backone进行微调,在其他数据集上测试,与由监督学习得到的backone微调对比

基本自监督训练得到的backone要优于监督学习得到的

teacher更新

作者测试了不同的teacher更新方法

  • 直接复制student网络参数和上一次迭代的student网络参数,都会导致网络无法收敛
  • 采用复制student上一个epoch参数,可以取得一定效果

student,teacher训练效果

在训练过程中,teacher的效果要好于student,当使用previous epoch更新teacher就没有这种效果,而同样使用momentum的BYOL也没有这样的效果。

作者认为,DINO的momentum teacher更新类似于Polyak-Ruppert averaging

batch size

batch size 的影响不是很敏感

DINO Emerging Properties in Self-Supervised Vision Transformers 论文阅读相关推荐

  1. Intriguing Properties of Vision Transformers论文解析

    Intriguing Properties of Vision Transformers 论文地址 本论文系统研究了基于Transformer和CNN构造的图像分类器一些很多有趣的特性,包括纹理与形状 ...

  2. FAN(Understanding The Robustness in Vision Transformers)论文解读,鲁棒性和高效性超越ConvNeXt、Swin

    FAN(Understanding The Robustness in Vision Transformers)论文解读,鲁棒性和高效性超越ConvNeXt.Swin < center > ...

  3. Deep Knowledge Tracing with Transformers论文阅读

    In book: Artificial Intelligence in Education (pp.252-256) 2020年6月 代码https://github.com/scott-pu-pen ...

  4. [图神经网络]视觉图神经网络ViG(Vision GNN)--论文阅读

    国际惯例: 论文地址https://arxiv.org/pdf/2206.00272.pdfgit地址https://github.com/huawei-noah/Efficient-AI-Backb ...

  5. 【ARXIV2205】EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers

    [ARXIV2205]EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers 论文:https ...

  6. ConvFormer: Closing the Gap Between CNN and Vision Transformers

    ConvFormer: Closing the Gap Between CNN and Vision Transformers 提出一个新颖的注意力机制:MCA,并且在此基础上提出一个神经网络:Con ...

  7. Vision Transformers 大有可为!

    Vision Transformers 相关的研究最近非常的火,这篇文章是最近看到的,个人觉得相对讲解的比较通俗,以及很多图解帮助理解. 因此,我也花了很多时间去翻译(文章内容 6700字左右),如果 ...

  8. 【论文笔记】Combining EfficientNet and Vision Transformers for Video Deepfake Detection

    * Combining EfficientNet and Vision Transformers for Video Deepfake Detection 题目:结合高效网络和视觉变压器进行视频深度虚 ...

  9. 论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)

    一.论文信息 论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection 论文代码:https:/ ...

  10. 【读点论文】EfficientFormer: Vision Transformers at MobileNet Speed,运用纯transformer架构对比卷积模型在终端上部署的推理速度

    EfficientFormer: Vision Transformers at MobileNet Speed Abstract 视觉transformer(ViT)在计算机视觉任务中取得了快速的进展 ...

最新文章

  1. win10分辨率不能调整_图文介绍win10系统使用hdmi连接电视的处理方法
  2. java实现线程间通信的四种方式
  3. Linux下fork()函数
  4. html5-button元素
  5. 1215 - Cannot add foreign key constraint
  6. ASP.NET伪静态-无法读取配置文件,因为它超过了最大文件大小的解决办法
  7. scrapy 工作流程
  8. 1-2:学习shell之导航文件系统
  9. 帝国时代的升级企事业的发展
  10. 你的手机支持5Gwifi吗?5G上网真的很快吗?
  11. html li之间的间隙,求助大神 如让图片展示在li标签里面,不要间隙 谢谢
  12. struts2核心工作流程与原理
  13. 提问的智慧 - How To Ask Questions The Smart Way
  14. 中正平和的机器人学笔记——2. 机械臂逆运动学(附MATAB代码)
  15. 温室大棚物联网系统方案
  16. 什么是自媒体知识付费
  17. 你别不信,安卓机用户才是苹果机涨价的最大受害者
  18. 网站隐藏跳转代码php,域名跳转代码[可隐藏与不隐藏域名转向代码(自动跳转代码) ]...
  19. 家用台式计算机硬件配置清单,台式电脑组装配置清单
  20. java面试(JVM)

热门文章

  1. 科普篇:内存、“运行内存”、外存?傻傻分不清楚。看完这篇就懂了
  2. 方向α与《孙子兵法》的基本原则
  3. 最新国外虚拟主机对比评论国外虚拟主机购买指南
  4. 高考0分作文精选--秋细雨PK叶闲花
  5. STM32F103通过M26实现远程在线IAP
  6. 【技术讨论】从弹弹堂说起,如何用2D物理引擎编写一个游戏lt;一gt;2011-11-05 10:36
  7. 【CV】计算机视觉领域的 GAN 模型综述论文笔记
  8. Linux Ubuntu 初学命令
  9. 面对Google流量红利期,独立站卖家如何借势营销?
  10. 一句话,连上隔壁老王家的 WiFi !