收藏 | 自监督视觉Transformer

点上方计算机视觉联盟获取更多干货

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：专知

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源！可打印版本附pdf下载链接

最近，自监督学习方法在计算机视觉领域获得了越来越多的关注。在自然语言处理(NLP)中，自监督学习和transformer已经是选择的方法。最近的文献表明，transformers或某种协同监督(例如在教师网络方面)进行预训练时效果很好。这些监督的预训练的视觉变换器在下游任务获得了了非常好的结果，而只需要较小的模型改变。

在本研究中，我们探讨了自监督学习在图像/视觉变换器的预训练，然后将其用于下游分类任务的优点。我们提出了自监督视觉变形器(SiT)，并讨论了几种自监督训练机制来获得前置模型。SiT的架构灵活性允许我们将其用作自动编码器，并无缝地处理多个自监督任务。我们表明，预训练的SiT可以被微调用于小规模数据集的下游分类任务，这些数据集由几千张而不是几百万张图像组成。

在通用协议的标准数据集上对所提出的方法进行了评估。实验结果证明了该方法的有效性和自监督学习的可行性。我们大大超过了现有的自监督学习方法。我们还观察到，SiT对少样本学习很好，也表明它通过简单地在从SiT学习到的特征之上训练线性分类器来学习有用的表示。预训练、调优和评估代码将在以下链接中提供: https://github.com/Sara-Ahmed/SiT。

https://www.zhuanzhi.ai/paper/c2dffe3a059a3273e1a18de77aaa768b

引言

最近的趋势表明，自监督预训练可以显著提高下游任务[4]、[5]的表现性能。在语音识别[6]和计算机视觉应用[7]、[8]、[9]、[10]中也观察到类似的趋势。如BERT[4]、[5]所示，自监督预训练，特别是结合transformers [11]，是自然语言处理(NLP)的选择模型。自监督学习的成功是以大量数据集和大容量模型为代价的，例如，基于NLP的变换器是根据数千亿单词组成的带有数十亿参数[5]的模型进行训练的。最近在图像分类中取得成功的transformers[1]引起了计算机视觉界的极大兴趣。然而，视觉transformer的预训练主要是针对非常大规模的有监督学习数据集进行研究，例如，由数亿个标记样本[1]组成的数据集。最近，在没有外部数据[2]的情况下，视觉转换器在imagenet上表现良好，但是，它们需要CNNs对等体的蒸馏方法和指导。简而言之，利用大规模监督数据集进行预训练是计算机视觉中的一种规范，用来训练深度神经网络以获得更好的性能。然而，人工标注训练数据是相当昂贵的，尽管在众包创新方面取得了进展。为了解决这一限制，自监督学习方法[7]，[9]，[10]，[12]，[13]，[14]已被用到从未标记数据构建具有语义意义的图像表示。

自监督方法大致可以分为生成式和判别性方法。生成式方法[15]，[16]，[17]学习建模数据的分布。然而，数据建模通常在计算上是昂贵的，并且在所有场景中可能不是表示学习所必需的。另一方面，通常在对比学习框架[8]、[18]、[19]、[20]或使用文本前任务[21]、[22]、[23]中实现的判别方法，证明了在适当的计算需求下获得更好的泛化表示的能力。

对比学习的主要重点是学习对同一图像的不同增广视图不变的图像嵌入，同时对不同的图像进行区分。尽管对比学习方法取得了令人印象深刻的结果，但他们往往忽视了对语境表征的学习，对于这一学习，替代的前置任务，如基于重构的方法，可能更适合。近年来，文献中提出了一系列新颖的前置任务，包括修复斑块[24]、着色[21]、[25]、[26]、相对斑块位置[21]0、拼图解决[27]、[28]、交叉信道预测[29]、噪声预测[30]、图像旋转预测[22]、斑点伪影预测[23]等。

在这项工作中，我们介绍了一个简单的自监督学习框架，利用对比学习和前置方法的优势。本研究的主要贡献和发现总结如下:

我们提出了一种新的视觉表示的自监督学习方法——自监督视觉Transformer(SiT)。
我们赋予SiT体系结构一个解码器，并证明，由于Transformer的内在特性，它基本上可以通过使用一个线性层来实现。这种基于Transformer的自动编码器避免了通常在基于CNN的编码器-解码器架构中出现的对整个解码器块的需要。
利用自编码Transformer支持多任务学习的自然能力，我们开发了一个强大的自监督框架，共同优化重建(图像修复)、旋转分类和收缩损失。
我们在不同的评估协议(包括线性评估、领域转移和微调)下，在标准基准上展示了拟议框架的有效性。
在不同的数据集中，我们比并发的最先进的结果表现更好，在很大的间隔达到+13.53%的改进。

end

我是王博Kings，一名985AI博士，华为云专家/CSDN博客专家，单个AI项目在Github上获得了2000标星，为了方便大家交流，附上了联系方式。

这是我的私人微信，还有少量坑位，可与相关学者研究人员交流学习

目前开设有人工智能、机器学习、计算机视觉、自动驾驶（含SLAM）、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群，备注：CV联盟

王博Kings 的公众号，欢迎关注，干货多多

王博Kings的系列手推笔记（附高清PDF下载）：

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（上）

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（下）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（上）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（下）

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习（上）

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习（下）

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章特征选择与稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论（上）

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论（下）

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点个在看支持一下吧

收藏 | 自监督视觉Transformer相关推荐

最新的一篇视觉Transformer综述！
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达作者:闪闪红星闪闪 | 已授权转载(源:知乎) https://zhuanlan.zhihu.com/p ...
收藏 | 北大华为鹏城联合首次提出视觉 Transformer 后量化算法！
点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:AI科技评论编辑 | 陈大鑫 AI博士笔记系列推荐周志华<机器学习>手推笔记正式开源! ...
3W字长文带你轻松入门视觉Transformer
作者丨深度眸@知乎来源丨https://zhuanlan.zhihu.com/p/308301901 编辑丨极市平台 0 摘要 transformer结构是google在17年的Attention ...
3万字长文带你轻松入门视觉Transformer
0 摘要 transformer结构是google在17年的Attention Is All You Need论文中提出,在NLP的多个任务上取得了非常好的效果,可以说目前NLP发展都离不开trans ...
华为诺亚最新视觉Transformer综述
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来源丨机器之心编辑丨极市平台导读华为诺亚方舟实验室联合北大和悉 ...
只需2040张图片，训练视觉Transformer：南大吴建鑫团队提出IDMM
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来源丨机器之心编辑丨极市平台导读预训练模型是否也能只需要很少的 ...
20亿参数，大型视觉Transformer来了，刷新ImageNet Top1，All you need is money！
视学算法报道转载自:机器之心编辑:杜伟.陈萍 2020 年 10 月,谷歌大脑团队提出将标准 Transformer 应用于图像,提出了视觉 Transformer(ViT)模型,并在多个图像识别 ...
最新视觉Transformer综述（2017-2020年）
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达作者丨坐化@知乎(已授权) 来源丨https://zhuanlan. ...
中国科学院、东南大学等联合发表最新的视觉 Transformer 综述
作者丨闪闪红星闪闪@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/433048484 编辑丨极市平台导读中国科学院.东南大学等单位联合发表最新的视觉 Transf ...

收藏 | 自监督视觉Transformer

收藏 | 自监督视觉Transformer相关推荐

最新文章

热门文章