目录

2022CVPR

UniVIP: A Unified Framework for Self-Supervised Visual Pre-training(自监督学习)

Crafting Better Contrastive Views for Siamese Representation Learning(自监督学习)

HCSC: Hierarchical Contrastive Selective Coding(自监督学习)

DiRA: Discriminative, Restorative, and Adversarial Learning for Self-supervised Medical Image Analysis(自监督学习)

FreeSOLO: Learning to Segment Objects without Annotations(自监督实例分割)

2021CVPR

Domain-Specific Suppression for Adaptive Object Detection

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification

Self-supervised Video Representation Learning by Context and Motion Decoupling

Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning

Spatially Consistent Representation Learning

VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples

Exploring Simple Siamese Representation Learning

Dense Contrastive Learning for Self-Supervised Visual Pre-Training


2022CVPR

UniVIP: A Unified Framework for Self-Supervised Visual Pre-training(自监督学习)

Paper: https://arxiv.org/abs/2203.06965

Code: None

Abstract: 自监督学习(SSL)有望利用大量未标记数据。然而,目前流行的SSL方法的成功仅限于像ImageNet中的单中心对象图像,忽略了场景和实例之间的相关性,以及场景中实例的语义差异。为了解决上述问题,我们提出了统一自监督视觉预训练(UniVIP),这是一种新的自监督框架,用于学习单中心对象或非图标数据集上的通用视觉表示。该框架考虑了场景-场景的相似性、场景-实例的相关性、实例-实例的辨析三个层次的表征学习。在学习过程中,我们采用最优传输算法自动测量实例的区分度。大量实验表明,UniVIP在非标志性COCO上的预训练在各种下游任务上,如图像分类、半监督学习、目标检测和分割上,都达到了最先进的传输性能。此外,我们的方法也可以利用单中心目标数据集,如ImageNet,在线性探测中,在相同的预训练周期下,比BYOL高出2.5%,并且在COCO数据集上超越了现有的自监督目标检测方法,显示了其普遍性和潜力。

Crafting Better Contrastive Views for Siamese Representation Learning(自监督学习)

Paper: https://arxiv.org/abs/2202.03278

Code: https://github.com/xyupeng/ContrastiveCrop

中文解读:CVPR 2022 | 即插即用!助力自监督涨点的ContrastiveCrop开源了!

Abstract: 最近的自我监督对比学习方法极大地受益于旨在最小化正对之间距离的Siamese结构。要实现高性能的Siamese表示学习,关键之一是设计良好的对比对。以往的大多数工作都是简单地采用随机抽样的方法对同一幅图像进行不同的裁剪,忽略了语义信息,这可能会降低视图的质量。在这项工作中,我们提出了compartivecrop,它可以有效地为Siamese表示学习生成更好的裁剪。首先,在训练过程中提出了一种完全无监督的语义感知目标定位策略。这可以引导我们生成对比视图,从而避免大多数误报(即对象与背景)。此外,我们的经验发现,具有相似外观的视图对于Siamese模型训练是微不足道的。因此,进一步设计了一个中心抑制抽样来扩大裁剪的方差。值得注意的是,我们的方法仔细考虑了对比学习的正对,而额外的训练开销可以忽略不计。作为一个即插即用和框架不相关的模块,在CIFAR-10, CIFAR-100, Tiny ImageNet和STL-10上,compartivecrop的SimCLR, MoCo, BYOL, SimSiam的分类精度持续提高0.4% ~ 2.0%。在ImageNet-1K上进行预训练时,在下游检测和分割任务上也取得了优异的结果。

HCSC: Hierarchical Contrastive Selective Coding(自监督学习)

Paper: https://arxiv.org/abs/2202.00455

Code: https://github.com/gyfastas/HCSC

中文解读: CVPR 2022 | CNN自监督预训练新SOTA!上交/Mila/字节联合提出HCSC:具有层级结构的图像表征自学习新框架

Abstract: 分层语义结构自然存在于图像数据集中,其中几个语义相关的图像集群可以进一步集成到一个具有粗粒度语义的更大集群中。使用图像表示捕获此类结构可以极大地促进对各种下游任务的语义理解。现有的对比表征学习方法缺乏这种重要的模型能力。此外,这些方法中使用的负对并不能保证语义上的不同,这可能会进一步阻碍学习图像表示的结构正确性。为了解决这些限制,我们提出了一种新的对比学习框架,称为分层对比选择编码(HCSC)。在该框架中,构造了一组层次原型,并动态更新以表示潜在空间中数据的层次语义结构。为了使图像表示更好地适应这种语义结构,我们通过精心设计的对选择方案采用并进一步改进传统的实例化和原型化对比学习。该方案力求选择语义相似的更多样的正对和语义真正不同的更精确的负对。在广泛的下游任务中,我们验证了HCSC优于最先进的对比方法的性能,并且通过大量的分析研究证明了主要模型组件的有效性。

DiRA: Discriminative, Restorative, and Adversarial Learning for Self-supervised Medical Image Analysis(自监督学习)

Paper: https://arxiv.org/abs/2204.10437

Code: https://github.com/JLiangLab/DiRA

Abstract: 鉴别学习、恢复性学习和对抗性学习已被证明对计算机视觉和医学成像中的自监督学习方案有益。然而,现有的努力忽略了它们在三元结构中相互之间的协同作用,我们设想,这可以显著地有益于深度语义表示学习。为了实现这一愿景,我们开发了DiRA,这是第一个以统一的方式将辨别、恢复和对抗学习结合在一起的框架,用于从未标记的医学图像中协作收集互补的视觉信息,用于细粒度的语义表示学习。我们的大量实验表明,DiRA(1)鼓励三种学习成分之间的协作学习,从而在器官、疾病和模式之间产生更一般化的表示;(2)优于完全监督的ImageNet模型,并在小数据系统中提高鲁棒性,降低多个医学成像应用程序的注释成本;(3)学习细粒度语义表示,只需要图像级的标注就可以实现病灶的准确定位;(4)增强了最先进的恢复方法,揭示了DiRA是一种通用的联合表征学习机制。所有代码和预训练的模型都可以在https: //github.com/JLiangLab/DiRA上找到。

FreeSOLO: Learning to Segment Objects without Annotations(自监督实例分割)

Paper: https://arxiv.org/abs/2202.12181

Code: https://github.com/NVlabs/FreeSOLO

Abstract: 实例分割是一项基本的视觉任务,旨在识别和分割图像中的每个对象。然而,它需要昂贵的注释,如边界框和分割掩码来进行学习。在这项工作中,我们提出了一种完全无监督学习方法,它可以在没有任何注释的情况下学习类不可知的实例分割。我们提出了FreeSOLO,一个建立在简单实例分割方法SOLO之上的自监督实例分割框架。我们的方法还提出了一种新颖的定位感知预训练框架,其中可以以无监督的方式从复杂的场景中发现对象。FreeSOLO在具有挑战性的COCO数据集上实现了9.8%的AP_{50},甚至超过了一些使用手动注释的分割建议方法。我们首次成功地演示了无监督类不可知实例分割。FreeSOLO的盒子定位明显优于最先进的无监督对象检测/发现方法,在COCO AP中有大约100%的相对改进。FreeSOLO进一步证明了作为一种强大的预训练方法的优越性,在仅使用5% COCO mask微调实例分割时,它优于最先进的自监督预训练方法+9.8%的AP。

2021CVPR

Domain-Specific Suppression for Adaptive Object Detection

Paper: https://arxiv.org/abs/2105.03570

Code: None

Abstract: 领域自适应方法在目标检测中面临性能下降的问题,因为任务的复杂性对模型的可移植性要求更高。我们提出了一个关于CNN模型如何获得可转移性的新视角,将模型的权重视为一系列运动模式。权值方向和梯度可以分为域特定方向和域不变方向,域自适应的目标是集中在域不变方向上,同时消除域特定方向的干扰。目前的UDA目标检测方法在优化时将两个方向作为一个整体来看待,即使输出特征完全对齐,也会导致域不变方向不匹配。在本文中,我们提出了域特定抑制,这是对反向传播中原始卷积梯度的一种典型的、可推广的约束,以分离方向的两部分,抑制域特定的方向。我们进一步验证了我们在几个领域自适应目标检测任务上的理论分析和方法,包括天气、相机配置和合成到现实世界的适应。我们的实验结果显示,在UDA目标检测领域,与最先进的方法相比,我们取得了显著的进步,在所有这些域适应场景上都提高了10.2 ~ 12.2%的mAP。

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

Paper: https://arxiv.org/abs/2104.14558

Code: https://github.com/facebookresearch/SlowFast

Abstract:  我们提出了一项从视频中学习无监督时空表示的大规模研究。通过对最近四种基于图像的框架的统一视角,我们研究了一个简单的目标,可以很容易地将所有这些方法推广到时空。我们的目标鼓励在同一视频中使用暂时持久的特征,尽管它很简单,但它在:(i)不同的无监督框架,(ii)预训练数据集,(iii)下游数据集和(iv)骨干架构上的效果令人惊讶。我们从这项研究中得到了一系列有趣的观察结果,例如,我们发现,即使时间跨度为60秒,鼓励长时间的坚持也可以有效。除了在多个基准测试中最先进的结果之外,我们还报告了一些有希望的案例,其中无监督的预训练可以优于有监督的预训练。

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification

Paper: https://arxiv.org/abs/2104.12961

Code: None

Abstract: 无监督域自适应(UDA)人员再识别(re-ID)方法旨在将有标签源数据中的再识别知识转移到无标签目标数据中。虽然取得了很大的成功,但大多数模型只使用单一来源领域的有限数据进行模型预训练,使得丰富的标记数据没有得到充分利用。为了充分利用有价值的标记数据,我们将多源概念引入UDA人再识别领域,在训练过程中使用多源数据集。然而,由于领域的差距,简单地组合不同的数据集只能带来有限的改进。在本文中,我们尝试从\ie{}领域特定视图和领域融合视图两个角度来解决这个问题。提出了两个相互兼容的构造模块。首先,研究了一种整流域特定批量归一化(RDSBN)模块,在减少域特定特征的同时,提高人特征的显著性。其次,提出了一种基于图卷积网络(GCN)的多域信息融合(MDIF)模块,该模块通过融合不同域的特征来最小化域距离;所提出的方法在很大程度上优于最先进的UDA人员重新识别方法,甚至在没有任何后处理技术的情况下达到与监督方法相当的性能。

Self-supervised Video Representation Learning by Context and Motion Decoupling

Paper: https://arxiv.org/abs/2104.00862

Code: None

Abstract: 自监督视频表示学习的一个关键挑战是如何有效地捕获除了上下文偏见之外的运动信息。虽然大多数现有的工作都是通过特定于视频的借口任务(例如,预测剪辑顺序、时间箭头和速度)隐性地实现这一点,但我们开发了一种方法,通过精心设计的借口任务,明确地将运动监督与上下文偏见分离开来。具体而言,我们将压缩视频(如H.264格式)中的关键帧和运动向量分别作为上下文和运动的监督源,在CPU上可以以超过500fps的速度高效提取。然后设计了两个共同优化的借口任务:一个是上下文匹配任务,在视频片段和关键帧特征之间进行成对的对比损失;以及一个运动预测任务,其中剪辑特征,通过编码器-解码器网络,被用来估计在不久的将来的运动特征。这两个任务使用共享的视频主干和单独的MLP头。实验表明,我们的方法提高了学习视频表示的质量,在UCF101和HMDB51上,我们分别获得了16.0%和11.1%的视频检索召回的绝对增益。此外,我们发现运动预测对于视频网络是一种强正则化,将其用作辅助任务可以提高动作识别的准确性,幅度为7.4%~13.8%。

Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning

Homepage: Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning

Paper: https://arxiv.org/abs/2009.05769

Code: https://github.com/FingerRec/BE

Abstract: 自监督学习从数据本身获得监督,在提高深度神经网络的视频表示能力方面显示出巨大潜力。然而,目前的一些方法倾向于从背景中作弊,即预测高度依赖视频背景而不是运动,使得模型容易受到背景变化的影响。为了减轻模型对背景的依赖,我们建议通过添加背景来消除背景的影响。也就是说,给定一个视频,我们随机选择一个静态帧,并将其添加到每一个其他帧中,构建一个分散注意力的视频样本。然后我们强迫模型将分散注意力的视频的特征和原始视频的特征拉得更近,使模型明确地限制抵抗背景的影响,更多地关注运动变化。我们把我们的方法称为\emph{背景擦除}(BE)。值得注意的是,我们的方法的实现非常简单和整洁,可以不费多大力气就添加到大多数SOTA方法中。具体来说,BE带来16.4% and 19.1% improvements with MoCo on the severely biased datasets UCF101 and HMDB51, and 14.5% improvement on the less biased dataset Diving48.

Spatially Consistent Representation Learning

Paper: https://arxiv.org/abs/2103.06122

Code: None

Abstract: 自监督学习已广泛应用于从无标记图像中获得可转移表征。特别是,最近的对比学习方法在下游图像分类任务中表现出了令人印象深刻的表现。虽然这些对比方法主要关注在语义保持变换下在图像级生成不变的全局表示,但它们容易忽略局部表示的空间一致性,因此在进行目标检测和实例分割等本地化任务的预训练时存在局限性。此外,在现有的对比方法中使用的激进裁剪视图可以最小化单个图像的语义不同区域之间的表示距离。
在本文中,我们提出了一种用于多目标和特定位置任务的空间一致表示学习算法(SCRL)。特别是,我们设计了一种新的自我监督目标,试图根据几何平移和缩放操作对随机裁剪的局部区域产生连贯的空间表示。在使用基准数据集的各种下游定位任务上,所提出的SCRL比图像级监督预训练以及最先进的自监督学习方法显示出显著的性能改进。

VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples

Paper: https://arxiv.org/abs/2103.05905

Code: https://github.com/tinapan-pt/VideoMoCo

Abstract: MoCo是一种有效的无监督图像表示学习方法。在本文中,我们提出了用于无监督视频表示学习的VideoMoCo。以视频序列为输入样本,从两个角度改进MoCo的时间特征表示。首先,我们引入一个生成器,从这个示例中暂时删除几个帧。然后学习鉴别器编码相似的特征表示,而不考虑帧移除。通过在对抗性学习的训练迭代中自适应地丢弃不同的帧,我们增加了这个输入样本,以训练一个临时健壮的编码器。其次,在计算对比损耗时,我们使用时间衰减来模拟内存队列中的键衰减。由于动量编码器在键进入队列后更新,当我们使用当前输入样本进行对比学习时,这些键的表示能力下降。这种退化通过时间衰减反映出来,将输入样本处理到队列中最近的键。因此,我们采用MoCo来学习视频表示,而无需经验地设计借口任务。通过增强编码器的时间鲁棒性和对键的时间衰减建模,我们的VideoMoCo基于对比学习在时间上改进了MoCo。在基准数据集(包括UCF101和HMDB51)上的实验表明,VideoMoCo是一种最先进的视频表示学习方法。

Exploring Simple Siamese Representation Learning

Paper(Oral): https://arxiv.org/abs/2011.10566

Code: None

Abstract: Siamese网络已成为近年来各种无监督视觉表示学习模型的常用结构。这些模型最大限度地提高了一个图像的两个增强之间的相似性,以避免崩溃解的某些条件。在本文中,我们报告了令人惊讶的经验结果,简单的Siamese网络即使不使用以下任何一种也可以学习有意义的表示:(i)负样本对,(ii)大批量,(iii)动量编码器。我们的实验表明,对于损失和结构,坍塌解是存在的,但停止梯度操作在防止坍塌中起着至关重要的作用。我们提供了一个关于停止梯度含义的假设,并进一步展示了验证它的概念证明实验。我们的“SimSiam”方法在ImageNet和下游任务上取得了有竞争力的结果。我们希望这个简单的基线能够激励人们重新思考Siamese架构在无监督表示学习中的角色。

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Paper(Oral): https://arxiv.org/abs/2011.09157

Code: https://github.com/WXinlong/DenseCL

Abstract: 迄今为止,大多数现有的自监督学习方法都是针对图像分类进行设计和优化的。由于图像级预测和像素级预测之间的差异,这些预训练的模型对于密集预测任务可能是次优的。为了填补这一空白,我们的目标是设计一种有效的、密集的自监督学习方法,通过考虑局部特征之间的对应关系,直接工作在像素级(或局部特征)。我们提出了密集对比学习,它通过优化输入图像的两个视图之间像素级的成对对比(dis)相似度损失来实现自监督学习。与基准方法MoCo-v2相比,我们的方法引入了可以忽略不计的计算开销(仅慢了<1%),但在转移到下游密集预测任务(包括对象检测、语义分割和实例分割)时表现出始终优越的性能;而且远远超过了最先进的方法。具体而言,在强MoCo-v2基线上,我们的方法在PASCAL VOC对象检测上取得了2.0%的AP,在COCO对象检测上取得了1.1%的AP,在COCO实例分割上取得了0.9%的AP,在PASCAL VOC语义分割上取得了3.0%的mIoU,在城市景观语义分割上取得了1.8%的mIoU。


相关链接:自监督学习论文、代码汇总

CVPR无监督/自监督学习(Un/Self-supervised Learning)方向论文学习(附摘要)相关推荐

  1. Google “推翻”无监督研究成果!斩获 ICML 2019 最佳论文

    作者 | 夕颜.Just 出品 | AI科技大本营(ID:rgznai100) 6 月 11 日,在美国加州长滩举行的 ICML 公布了 2019 年最佳论文奖,来自苏黎世联邦理工大学.谷歌大脑等的团 ...

  2. “用于无监督图像生成解耦的正交雅可比正则化”论文解读

    Tikhonov regularization terms https://blog.csdn.net/jiejinquanil/article/details/50411617 本文是对博客http ...

  3. 谷歌用1.2万个模型“推翻”现有无监督研究成果!斩获ICML 2019最佳论文

    作者 | 夕颜.Just 出品 | AI科技大本营(ID:rgznai100) 6 月 11 日,在美国加州长滩举行的 ICML 公布了 2019 年最佳论文奖,来自苏黎世联邦理工大学.谷歌大脑等的团 ...

  4. 语义分割背景下UDA(无监督域自适应)的三个方向

    一.基于对抗学习 AdaptSegNet是经典的基于对抗学习的域适应方法.这一类方法训练一个判别器来使得目标域的分布在像素空间(output space)或者特征空间(feature map)上进行对 ...

  5. 多示例学习(Multi Instance Learning)和 弱监督学习(Weakly Supervised Learning)

    目录 弱监督: 多示例学习: 弱监督: 1. 弱在缺标签:标签是不完全的,有的有标签,有的无标签 2. 弱在标签不准确:有的标签正确,有的标签错误 3. 弱在标签不精准: 标签不是在样本上,而是在更高 ...

  6. CVPR 2021 | 何恺明等人新作!深入探究无监督时空表征学习

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:Smarter 先看一下阵容,何恺明+Ross Girshick!!! 目前该工作已收录于CVP ...

  7. Supervised learning/ Unsupervised learning监督学习/无监督学习

    [机器学习]两种方法--监督学习和无监督学习(通俗理解) [机器学习] : 监督学习 (框架) 有监督学习与无监督学习的几大区别 目录 Supervised learning 监督学习 Unsuper ...

  8. CVPR2019| 百度17篇CVPR论文学习记录(包含:无人驾驶、神经网络、GAN、无监督学习、目标检测)

    首先感谢现在网上资源丰富,能够获得很多人的总结,结合自身实际进行了学习记录. 并着重标注了其中关键核心 目录 1)Taking A Closer Look at Domain Shift: Categ ...

  9. CVPR 2021 | ShapeInversion: 基于GAN逆映射的无监督点云补全方法

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 摘要 · 看点 在CVPR 2021上,商汤科技-南洋理工大学联合 AI 研究中心 S-Lab 提出了 ...

最新文章

  1. 版权和许可协议的学习
  2. 不要上手就学深度学习!超详细的人工智能专家路线图,GitHub数天获2.1k星
  3. python基础练习(八)
  4. awgn信道中的噪声功率谱密度_从OFC2020看高级算法在光通信中的应用
  5. 【BZOJ4771】七彩树 主席树+树链的并
  6. ldd /usr/bin/mysql_mysql客户端登录时报mysql: relocation error错误
  7. 棒棒糖球球机器人_球球大作战刷棒棒糖_球球大作战刷龙蛋攻略
  8. HomeBrew 更换为国内源--提高brew命令操作速度
  9. 红外传感器型号和参数_浅析温度传感器原理
  10. logrotate日志转储
  11. android translateanimation动画,Android 动画之TranslateAnimation应用详解
  12. d盘不能扩展卷_点读笔小档案:小达人、毛毛虫、卡米、卷之友、外研通...傻傻分不清?...
  13. 用python写一个倒计时器
  14. 【2021年】百度搜索词获取,获取百度搜索的关键词
  15. maven-replacer-plugin的使用
  16. 【Java学习笔记】2023_03_10Java基础
  17. 汉语拼音大全(竖排版)
  18. 433模块-----HCS301芯片烧录器
  19. css3基础知识总结
  20. Xinetd服务的安装与配置详解

热门文章

  1. Pascal 基础算法教案
  2. Apple developer新的的注册方式
  3. JavaScript数据结构与算法 - 树
  4. Tailwind Base
  5. Android IPC机制之IPC概念、Android 多进程和相关基础知识
  6. 读书笔记——社会心理学——关系理论
  7. itext使用模板生成pdf文件
  8. TDS协议和FreeTDS开源实现
  9. 国外注册域名和国内注册有什么不同?
  10. 单选按钮html图片,js实现的 图片单选按钮效果