关注公众号,发现CV技术之美

 写在前面

语言Transformer的成功主要归功于masked language modeling(MLM) 的预训练任务,其中文本首先被标记为语义上有意义的片段。在这项工作中,作者研究了masked image modeling(MIM) ,并指出了使用语义上有意义的视觉标记器(visual tokenizer) 的优势和挑战。作者提出了一个自监督的框架iBOT ,它可以通过在线标记器(online tokenizer) 执行mask预测。

具体而言,作者对masked patch tokens进行自蒸馏,并将教师网络作为在线标记器,同时对class token进行自蒸馏以获得视觉语义。在线标记器可与MIM目标共同学习,无需多阶段训练pipeline,其中tokenizer需要事先进行预训练。

作者通过在ImageNet-1K上实现81.6%的linear probing精度和86.3%的微调精度,展示了iBOT的有效性。除了SOTA的图像分类结果外,作者还强调了局部语义模式,这有助于模型获得针对常见损坏的强大鲁棒性,并在密集的下游任务(例如,目标检测、实例分割和语义分割)上取得SOTA的结果。

 1. 论文和代码地址

iBOT: Image BERT Pre-Training with Online Tokenizer

论文地址:https://arxiv.org/abs/2111.07832

代码地址:未开源

 2. Motivation

Masked Language Modeling(MLM) 是一种流行的语言模型预训练范式,它首先随机mask然后重建一组输入token。MLM预训练的Transformer已证明了其可扩展到大容量模型和数据集,目前成为语言任务的有效方法。

然而,视觉Transformer(ViT)的潜力最近开始彻底改变计算机视觉研究,但在很大程度上还没有得到充分的开发。目前视觉任务中的大多数无监督训练都是基于全局视图,忽略了图像的内部结构,这与MLM的局部建模是不同的

在本文中,作者探索了与MLM相似的Masked Image Modeling(MIM)来进行实现更好的视觉Transformer。

MLM中最关键的组成部分之一是语言标记器(lingual tokenizer) ,它将语言拆分为语义上有意义的token,如BERT中的WordPiece。类似地,MIM的关键在于视觉标记器的正确设计,该标记器将mask patch转换为监督目标模型的信号(如上图所示)。

然而,与词频统计分析自然产生的语言语义不同,由于图像的连续性,视觉语义无法如此容易地提取。视觉语义是通过引导在线表示逐渐出现的,它强制执行损坏图像视图的相似性。

该属性直观地表示一个多阶段的训练pipeline,在训练目标模型之前,需要首先训练一个现成的语义丰富的标记器。然而,由于获取视觉语义是标记器和目标模型的共同目的,因此,可以联合优化标记器和目标模型的单阶段训练pipeline有待进一步探索。

为此,作者提出了一个新的框架iBOT(image BERT pre-training with Online Tokenizer) ,通过标记器很好地处理上述挑战来执行MIM。作者通过将MIM表述为知识提取(KD)来激励iBOT,学习从标记器中提取知识,并进一步在作为在线标记器的twin教师的帮助下为MIM执行self-distillation。

目标网络接收一个mask图像,而在线标记器接收到原始图像。目标是让目标网络将每个mask patch token恢复到其相应的tokenizer输出

online tokenizer主要解决了两大挑战。一方面,tokenizer通过在class token上强制执行交叉视图图像的相似性来捕获高级视觉语义 。另一方面,本文的tokenizer不需要额外的训练阶段作为预处理设置,因为它通过动量更新与MIM联合优化

online tokenizer使iBOT能够在特征表示方面获得优异的性能。具体而言,iBOT将k-NN、linear probing和微fine-tuning设置下的ImageNet-1K分类基准分别提高到77.1%、79.5%和83.8%(使用ViT Base/16),比之前的最佳结果高出1.0%、1.3%和0.2%。

当使用ImageNet-22K进行预训练时,使用ViT-L/16的iBOT可实现81.6%的linear probing精度和86.3%的微调精度,两者均比以前的最佳结果高0.3%。除此之外,当迁移到其他数据集或在半监督和非监督分类设置下时,这种提升也是有效的。

本文提出的方法可以帮助模型在全局和局部尺度上进行图像识别。作者发现,patch token中学习到的语义模式有助于该模型在线性分类和抗常见图像损坏的鲁棒性方面得到提升。

当它被迁移到下游任务时,在与图像分类、目标检测、实例分割和语义分割相关的下游任务中,iBOT超过了以前的方法。实验结果表明,iBOT在很大程度上弥补了masked modeling预训练在语言和视觉Transformer之间的差距。

 3. 方法

在本节中,作者提出了iBOT,将自蒸馏作为token生成的自监督目标,并通过自蒸馏执行MIM。在上图中说明了iBOT的框架,下图中展示了伪代码。

3.1 Framework

首先,作者对两个增强视图u和v进行mask,得到他们的mask视图和。以为例,学生网络输出mask视图的结果,教师网络输出没有mask视图的结果。MIM在iBOT的训练目标为:

对于,作者也采用来对称的方式来计算和的CE loss。

由主干网络加投影头组成的教师网络是一个visual tokenizer,它为每个mask patch token生成在线token分布。iBOT中使用的tokenizer可以联合学习MIM目标,而无需在额外阶段进行预训练。

为了确保online tokenizer在语义上有意义,作者对交叉视图图像的[CLS] token执行自蒸馏,这样就可以通过引导获得视觉语义,就像大多数自监督方法所实现的那样。

为了进一步利用从[CLS] token上的self-distillatin获得的语义抽象能力,作者共享[CLS] token和patch token的投影头参数,即,。根据实验结果,作者发现它比使用单独的head产生更好的结果。

与语义几乎确定的tokenized words不同,图像patch的语义是模糊的。因此,tokenization作为一种one-hot discretization对于图像来说可能是次优的。在iBOT中,作者使用softmax之后的token分布,而不是一个one-hot id作为监督信号,这在iBOT预训练中起着重要作用。

3.2 Implementation

作者使用具有不同参数量的Vision Transformer和Swin Transformer,ViT-S/16、ViT-B/16、ViT-L/16和SwinT/ {7,14} 作为主干网络f。默认情况下,作者使用AdamW优化器和1024的batch size在ImageNet-1K训练集上预训练iBOT。作者预训练了ViT-S/16 800个epoch,ViT-B/16 400个epoch,Swin-T/ { 7,14 }  300个epoch。

 4.实验

4.1 ImageNet-1K上的分类

k-NN and Linear Probing

为了评估预训练特征的质量,作者在冻结表示上使用k-近邻分类器(k-NN)或线性分类器。上表展示了ImageNet1K上KNN和Linear Probing的结果。

Fine-Tuning

上表展示了ImageNet-1K上微调的结果,iBOT通过ViT-S/16和ViTB/16分别达到82.3%和83.8%的Top-1精度。

上表展示了ImageNet-22K上预训练之后,在ImageNet-1K上的微调实验结果。使用ImageNet-22K预训练的iBOT使用ViT-B/16和ViT-L/16分别达到84.4%和86.3%的top-1精度。

Semi-Supervised and Unsupervised Learning

上表展示了ImageNet-1K上的半监督学习的实验结果。

上表展示了ImageNet-1K上的无监督学习的实验结果。

4.2 下游任务

Object Detection and Instance Segmentation on COCO & Semantic Segmentation on ADE20K

上表展示了COCO目标检测,实例分割和ADE20K数据集上语义分割的实验结果。

Transfer Learning

上表展示了不同数据集上分类的迁移结果。

4.3 实验分析

上图展示了patch token的模式布局。两幅左图展示了汽车前照灯和狗耳朵的图案,它们共享部分语义。两幅右图展示了共享纹理的图片。

上图展示了部分linear probing的实验结果。

上图展示了自注意力map的可视化,来自多个head的自注意map以不同的颜色显示。

 5. 总结

在这项工作中,作者研究了视觉Transformer的类似BERT的预训练,并强调了语义上有意义的visual tokenizer的重要性。

作者提出了一个自监督的框架iBOT,该框架通过online tokenizer的自蒸馏来执行masked image modeling,在与分类、目标检测、实例分割和语义分割相关的下游任务上实现SOTA的结果。

此外,作者为MIM训练的模型确定了一种局部级语义,它不仅有助于识别精度,而且有助于抵抗常见图像损坏。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「自监督交流群

字节约翰斯·霍普金斯上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!...相关推荐

  1. 美国约翰斯·霍普金斯大学全球新冠疫情统计数据网址

    新华网和央视经常提到美国约翰斯·霍普金斯大学发布的新冠疫情最新统计数据,下面就公布一下网址,不过墙内访问速度很慢很慢,小伙伴们要有思想准备~~~ 约翰斯·霍普金斯大学全球新冠疫情统计数据网址:http ...

  2. 约翰斯·霍普金斯大学全球新冠疫情统计数据

    新华网和央视经常提到美国约翰斯·霍普金斯大学发布的新冠疫情最新统计数据,下面就公布一下网址: 约翰斯·霍普金斯大学全球新冠疫情统计数据网址: 约翰斯·霍普金斯大学全球新冠疫情统计 比较难受的就是加载的 ...

  3. Johns Hopkins University Coronavirus COVID-19 Dashboard(约翰斯·霍普金斯大学疫情地图实时大屏网站)

    每天都在新闻里面听:"根据美国约翰斯·霍普金斯大学疫情实时统计数据,xx日,全球范围内新增新冠--" 今天找了找资料,找到了Johns Hopkins University的官方数 ...

  4. 约翰霍普金斯大学诺奖得主涉嫌造假,撤回5篇PNAS论文

    2019年,约翰霍普金斯大学的著名基因医学科学家Gregg L. Semenza博士因为"发现细胞如何感知和适应氧气供应",和另外两名科学家( William Kaelin Jr. ...

  5. 科研实习 | 约翰霍普金斯大学Alan Yuille教授招收计算机视觉暑期科研实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 约翰霍普金斯大学 约翰霍普金斯大学(JHU)位于美国马里兰州巴尔的摩,18 ...

  6. 博士申请 | 约翰霍普金斯大学招收2022年入学trustworthy AI方向博士生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 约翰霍普金斯大学 约翰霍普金斯大学 JHU 位于美国马里兰州巴尔的摩,18 ...

  7. 约翰霍普金斯大学Alan Yuille教授招收计算机视觉暑期科研实习生

    来源:AI求职 约翰霍普金斯大学 约翰霍普金斯大学(JHU)位于美国马里兰州巴尔的摩,1876 年建立,被认为是美国第一所研究型大学,NSF 连续 31 年将该校列为全美科研经费开支最高的大学.约翰霍 ...

  8. 全息物体也能触摸到!约翰·霍普金斯大学研究者使用脑机接口让患者感受到全息物体...

    作为探索神经复用(neural multiplexing)和脑机接口(BCI)实现的新感知模式研究的一部分,约翰·霍普金斯大学(Johns Hopkins University)的研究人员展示了通过在 ...

  9. 啥都不如烂笔头,约翰霍普金斯大学新研究:学外语还得用手写

    荣伟 发自 凹非寺 报道 | 公众号 QbitAI "数字时代,也别丢了纸和笔!" 一位约翰霍普金斯大学教授如是呼吁. 之所以会有这样的忠告,是因为他在最近一项研究中发现: 在学习 ...

最新文章

  1. chart.Correlation绘制相关性热图
  2. Dockerfile创建自定义Docker镜像以及CMD与ENTRYPOINT指令的比较
  3. boost::fusion::convert用法的测试程序
  4. 计算机动漫设计VR主要学什么,动漫设计专业学什么 要学什么软件
  5. 插入排序和冒泡排序算法JAVA实现
  6. 历史重现,德国海关突袭IFA大展
  7. 支持向量机——深度AI科普团队
  8. 为什么越来越多的人都不喜欢用信用卡?
  9. [Go] 函数/方法 的 变参
  10. C# 禁止用户关掉对话框的方法
  11. pygame下载 + 安装 + 为什么安装时会报错解答
  12. shopex4.8.5 php5.6,ShopEx(网上商店系统)
  13. IT 女生对未来职业的一点思考
  14. 牛年第一瓜!阿里女员工被初中文化男子骗走 500 多万元。。。
  15. vb.net 教程 3-4 窗体编程 公共控件6 PictureBox ProgressBar
  16. elasticsearch从入门到入门系列(二)---快速入门B
  17. 判断手机屏幕是否旋转
  18. 100毫秒过滤一百万字文本的停用词
  19. Matlab基础编程知识处理(2)(数学建模中模型的模拟与数据提取,本篇全干货)
  20. uploadifive上传,无需flash插件案列

热门文章

  1. 基于人机交互设备测量用户情绪。
  2. php 显示中文utf,php adodb 从mysql数据库中输出中文显示到utf编码网页乱码问题
  3. Spring Boot的启动器Starter详解
  4. 动态规划——基本思想
  5. Struts标签入门
  6. 【基础问题】微信小程序 - 腾讯云 - 一站式方案 - PHP - wafer 和 wafer2的区别和wafer2的实践
  7. python多线程文件的数据续传_python实现支持并发、断点续传的Ftp程序
  8. 解决方案架构师我需要懂代码吗_“请问需要加汤吗?”火锅店背后隐藏的商业暗示,你都看懂了吗?...
  9. ubuntupython连接数据库_Ubuntu中python的mysql操作
  10. matlab plot 多种颜色_Matlab画图,只需要这几步