Unsupervised Feature Learning by Cross-Level Instance-Group Discrimination

作者:Xudong Wang (加州大学伯克利分校&ICSI), Ziwei Liu (南洋理工大学), Stella X. Yu (加州大学伯克利分校&ICSI)

论文: http://people.eecs.berkeley.edu/~xdwang/papers/CLD.pdf

https://github.com/frank-xwang/CLD-UnsupervisedLearning (将开源)

看点

论文内容总结:本文(CLD)主要是通过探究单个实例和群组间关系(instance-group discrimination)来辅助现有的无监督对比学习contrastive learning,并可以与多种主流框架结合(NPID[1], MoCo[2], MoCo v2[3], InfoMin[4]以及 BYOL[5])获得普遍的准确率提升(2%~4%)。

此外,本文还提出了归一化映射层normalized MLP projection head (NormMLP)来取代原先的MLP head,并在多个方法上获得了普遍的准确率提升。

在预训练100 epochs 的情况下,CLD 仅需8块GPU训练即可在ImageNet上超过需要128(512)块 GPU (TPU) 训练的方法SimCLR [ICML 2020][6], BYOL [NeurIPS 2020][5], SwAV [NeurIPS 2020][7]约3.5%,同时超过kaiming的最新方法SimSiam[8]约2%。

To our best knowledge, 本文是第一篇,在batch size(bs=256),短训练时长(#epochs=100),仅使用ResNet50backbone (widen ratio=1)的条件下,获得70%以上ImageNet分类准确率的无监督学习论文。

接下来,本文将详细介绍 Cross-Level Discrimination (CLD)。

Instance Discrimination 有哪些问题

在正式介绍所提出的方法之前,需要先探究以instance discrimination为核心的方法(如 NPID[1], MoCo[2]and SimCLR[6])存在的一些潜在问题。

Instance-discrimination 通过instance-level 的对比学习来得到有意义的表征,该表征可以用于反映实例之间的明显相似性。正如有监督分类学习可以获得具备不同类别之间的明显相似性的表征。

相似地,通过将class数量扩展为instance数量,我们最终可以用无监督方法得到表示instance之间明显相似性的表征。因而,instance discrimination本身成立的假设是建立在:每一个样例均与其他样例存在显著不同,可以将每一样例当作单独类别看待的基础上。

但是在由video frames 或者 multi-view images 所构成的dataset中,video相邻frames之间以及multi-view dataset 中 相同instance 的不同 viewing angle 之间均存在非常高的相似度。

这也就导致如果训练数据之间存在较大的相似度,contrastive learning过程中所使用的负样例nagative pairs很可能由高相似度的instances构成,进而导致contrastive learning的训练过程不可靠,出现大量的错误排斥false repulsion。

为了解决上述问题,本文提出了Cross-level Instance Group Discrimination。其核心思想为:首先对instances进行聚类,从而使相似instances被聚类为相同的group,之后进行contrastive learning,从而缓解了对高相似度instance进行错误排斥的情况。

Instance Discrimination (左) vs. Instance-group Discrimination (右). 红色: 吸引Attraction; 蓝色: 排斥Repulsion.

CLD 框架


CLD 框架图

CLD主要包含三个主要模块:
  1. Instance Branch

  2. Instance-group Branch

  3. Normalized Projection Head

Instance Branch的选择取决于CLD与哪种方法结合,可以选择以contrastive learning为基础的 NPID/MoCo/MoCo v2/InfoMin。此外我们发现,CLD也可以与不含负样例的方法BYOL结合,并在ImageNet (ImageNet100)上获得2.6% (4.7%)的top-1准确率提升。

Instance-group Branch与instance branch共享同一个特征提取网络  ,但采用独立的projection head。由于projection head 本身的参数量较少,所以网络的整体参数量只有极小幅度增长。

projection head 部分本文提出了归一化映射层normalized projection head来取代原先的projection head(fc/MLP),后面会进行具体介绍。  由 进行特征提取,之后由归一化映射层将高维信息  转换为低维信息 , 。

随后分别对 和 进行局部聚类(即仅针对mini-batch samples进行聚类),并计算  个cluster centroids  ,之后将每个instance feature 分配给距离最近的cluster centroid。聚类算法可以采用k-means或者spectral clustering,在这里不进行详细叙述,具体内容可以查看论文的对应章节。

我们对实例特征和group centroid  应用跨级对比学习cross-level contrastive learning,即 

如果  可以通过聚类算法将分割为多个cluster,当 被替换为(相同instance,不同augmentation)时,它仍应靠近  所对应的cluster centroid  ,并且远离其它cluster centroids 

因而,CLD鼓励两组经过不同图像增强后的mini-batch samples获得相同的聚类结果,从而促使网络提取出对图像增强具有鲁棒性的信息。

CLD Loss 为: 

其中  在  时为1否则为0,  为  与 的特征相似度。因而,总loss为:

其中  为cld loss的权重,0-1之间。

Normalized Projection Head:为了将最终的特征映射到单位球unit hypersphere上,NPID/MoCo/SimCLR/InfoMin/BYOL 一般通过对输出的特征进行归一化处理。相较于其他方法,本文提出了一种归一化映射层Normalized Projection Head,对特征以及映射层的网络权重均进行归一化处理,即:

其中  为归一化后的特征的第t维,  为卷积层权重的第t维。因而,输出特征的每一维度的信息均为卷积权重和输入特征的正交相似度。这一简单却有效的方法,在不增加任何额外参数的情况下可以对多种方法产生普遍的准确率提升。

实验结果

1. Kitchen-HC (含高相似度样例)

与NPID/MoCo结合可以获得5%-9%的kNN准确率提升,同时收敛速度更快。

含有高相似度样例的数据集Kitchen-HC

与NPID相比,CLD+NPID可以更好地聚类,同时收敛速度更快(以颜色标注不同类)

2. 长尾数据 CIFAR-LT & ImageNet-LT

CIFAR-LT上获得6~11% 的准确率提升。

ImageNet-LT上获得3~5% 的准确率提升。

3. 小规模数据集 STL-10 & CIFAR10 & ImageNet100

CLD 可以与BYOL 结合获得4.7%的top-1 accuracy提升。

STL-10上获得3~4%的准确率提升。

CIFAR-100上获得5~6%的准确率提升。

ImageNet100上获得4~5%的准确率提升。

4. ImageNet

CLD 可以与多个方法结合(NPID/MoCo/MoCo v2/InfoMin/BYOL/...)获得top-1 accuracy提升。

NormMLP/NormLinear 可以在多个框架无痛获得0.6~0.9%的提升。

CLD+InfoMin可以在100/200 epochs预训练情况下取得state-of-the-art performance

在进行线性测试linear evaluation阶段,SwAV/BYOL/SimSiam 均使用了4096 batch size,cosine decay scheduler,LARS optimizer,这一测试方法可以在测试阶段获得额外的1%的准确率提升。而CLD遵循MoCo/NPID/InfoMin的测试方法,即256 batch size,SGD optimizer。

5. 半监督 (1%/10% ImageNet)

6. 迁移学习 (目标检测)

7. 无监督超参学习

目前的无监督学习普遍在有监督情况下进行超参hyperparameters选择,这和无监督学习本身的应用场景是冲突的。本文也尝试探索如何进行无监督超参选择,希望对探究如何在无监督学习领域使用无监督方法进行训练,模型选择,测试有一定的启发。

下图中,蓝线为有监督linear evaluation的top-1准确率,绿线为无监督retrieval准确率,橙线为两个不同数据增强后的data的NMI(归一化互信息)。

retrieval主要衡量网络提取实例级别互信息(instance-level mutual information)的能力,而  主要通过对不同数据增强后的两组data进行聚类,并对聚类结果相似度进行计算来衡量全局互信息global mutual information。

进行实验的超参为CLD的两个主要超参:  和temperature。相较于retrieval 和 NMI, 文中所提出的无监督测试方法  可以获得和有监督方法几乎一致的超参性能排序。

这也说明,单独地衡量  local mutual information以及  global mutual information均无法获得准确的排序结果,需要综合考量local information以及global information来进行无监督超参选择。

这一结果也和CLD的出发点相符合,即不应该单独考虑instance discrimination/instance similarity,而应当将聚类等包含全局信息的方法引入无监督学习过程。

参考资料

【1】Wu, Zhirong, Yuanjun Xiong, Stella X. Yu, and Dahua Lin. "Unsupervised feature learning via non-parametric instance discrimination." CVPR 2018.

【2】He, Kaiming, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. "Momentum contrast for unsupervised visual representation learning." CVPR 2020.

【3】Chen, Xinlei, Haoqi Fan, Ross Girshick, and Kaiming He. "Improved baselines with momentum contrastive learning." arXiv preprint (2020).

【4】Tian, Yonglong, Chen Sun, Ben Poole, Dilip Krishnan, Cordelia Schmid, and Phillip Isola. "What makes for good views for contrastive learning." arXiv preprint arXiv:2005.10243 (2020).

【5】Grill, Jean-Bastien, Florian Strub, Florent Altché, Corentin Tallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch et al. "Bootstrap your own latent-a new approach to self-supervised learning." NeurIPs (2020).

【6】Chen, Ting, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. "A simple framework for contrastive learning of visual representations." arXiv preprint arXiv:2002.05709 (2020).

【7】Caron, Mathilde, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, and Armand Joulin. "Unsupervised learning of visual features by contrasting cluster assignments." NeurIPs (2020).

【8】Chen, Xinlei, and Kaiming He. "Exploring Simple Siamese Representation Learning." arXiv preprint arXiv:2011.10566 (2020).

END

备注:自监督

自监督/无监督学习交流群

关注最新最前沿的自监督、无监督学习技术,

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

CLD: 通过挖掘实例与聚类间关系进行无监督特征学习相关推荐

  1. 无监督学习中的无监督特征学习、聚类和密度估计

    无监督学习概述 无监督学习(Unsupervised Learning)是指从无标签的数据中学习出一些有用的模式,无监督学习一般直接从原始数据进行学习,不借助人工标签和反馈等信息.典型的无监督学习问题 ...

  2. 【论文粗读】(NeurIPS 2020) SwAV:对比聚类结果的无监督视觉特征学习

    题目 <Unsupervised Learning of Visual Features by Contrasting Cluster Assignments> 第一作者:Mathilde ...

  3. 聚类算法(无监督算法)

    一.聚类算法简介 聚类的基本思想:对于给定的M个样本的数据集,给定聚类(簇)的个数K(K<M),初始化每个样本所属的类别,再根据一定的规则不断地迭代并重新划分数据集的类别(改变样本与簇的类别关系 ...

  4. 用聚类方法结合卷积网络,实现无监督端到端图像分类

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中 ...

  5. 机器学习中的无监督学习_无监督机器学习中聚类背后的直觉

    机器学习中的无监督学习 When it comes to analyzing & making sense of the data from the past and understandin ...

  6. 文献记录(part51)--识别聚类间远近关系的双几何体模型

    学习笔记,仅供参考,有错必纠 关键词:双几何体模型:聚类间远近关系:大类数:高维数据:划分聚类算法: 识别聚类间远近关系的双几何体模型 摘要 多实际问题的解决不仅需要聚类算法给出类标, 更依赖于类间远 ...

  7. Django ORM – 多表实例:Django模型Model的定义+模型间关系

    Django 对各种数据库提供了很好的支持,包括:PostgreSQL.MySQL.SQLite.Oracle. Django 为这些数据库提供了统一的调用API. 我们可以根据自己业务需求选择不同的 ...

  8. 论文阅读课2-Inter-sentence Relation Extraction with Document-level (GCNN,句间关系抽取,ACL2019

    文章目录 abstract 1.introduction 2.model 2.1输入层 2.2构造图 2.3 GCNN层 2.4MIL-based Relation Classification 3. ...

  9. 通过引用关系构建药物-症状-疾病三元组挖掘隐含的药物-疾病关系

    概述 作者通过对PubMed上2011年初到2015年底收录的有关大肠癌的文章进行文本挖掘,采用了共现和引用两种方式构建了药物-症状-疾病三元组,从而挖掘出可能存在的药物-疾病关系,并通过CTD和KE ...

最新文章

  1. MyBatis关联查询、多条件查询
  2. 微服务可靠性设计--转
  3. OpenCV启动Viz
  4. Android开发之fragment传递参数的两种方法
  5. LeetCode 880. 索引处的解码字符串(找规律)
  6. LeetCode 876. 链表的中间结点(快慢指针)
  7. Exchange Server 2013多域名证书申请
  8. linux 手动控制cpu转速,Linux 手动计算CPU使用率
  9. ORA-00257 archiver error. 错误的处理方法
  10. 小规模纳税人季度申报流程指导
  11. 编译工具链和交叉编译工具链简易说明
  12. 推荐系统的几种常用算法总结
  13. Java 获取本机IP地址
  14. ArcBlock 博客 | 区块链和数据库:致虚极,守静笃
  15. doodoo.js快速入门教程 1
  16. php msf 环境要求,4.6 配置 · php-msf PHP微服务框架文档 · 看云
  17. jadx重新打包_反编译一款APP然后重新打包(Windows环境)
  18. keras val_categorical_accuracy: 0.0000e+00问题
  19. 1034. 边框着色
  20. 仿慕课网Android端app——慕课Ime(自写服务器接口)

热门文章

  1. 透视变换--基于getPerspectiveTransform()及像素赋值(未涉及插值)
  2. 由摄像机外参矩阵求解像片的外方位线元素
  3. Web MVC模式实现
  4. 程序包java.awt不存在_IDEA解决Java:程序包xxxx不存在的问题
  5. js获取a标签的value值_js逆向 | 某住房网跳转链接生成逻辑分析
  6. 测视力距离5米还是3米_视力表只能看到0.3,相当于近视度数200度?
  7. java混淆工具对比,java-混淆如何在另一个类中键入比较器
  8. postgre 生成数据库html文档_postgresql数据库导入和导出CSV格式
  9. 图书管理系统详细设计说明书_书城管理系统不同模块在图书管理中体现不同作用...
  10. 服务器向客户机发信息,服务器如何主动给客户端发消息