Title: Towards Better Understanding of Self-Supervised Representations / Q-Score

作者：Neha Kalibhat, Kanika Narang, Hamed Firooz and Maziar Sanjabi

发表单位：Department of Computer Science and Meta AI

关键词：self-supervised learning, sparse representation

论文：https://arxiv.org/pdf/2203.01881.pdf

代码：无

摘要：

Self-supervised learning methods have shown impressive results in downstream classification tasks. However, there is limited work in understanding and interpreting their learned representations. In this paper, we study the representation space of several state-of-the-art self-supervised models including SimCLR, SwaV, MoCo V2 and BYOL. Without the use of class label information, we first discover discriminative features that are highly active for various subsets of samples and correspond to unique physical attributes in images. We show that, using such discriminative features, one can compress the representation space of self-supervised models up to 50% without affecting downstream linear classification significantly. Next, we propose a sample-wise Self-Supervised Representation Quality Score (or, Q-Score) that can be computed without access to any label information. Q-Score, utilizes discriminative features to reliably predict if a given sample is likely to be mis-classified in the downstream classification task achieving AUPRC of 0.91 on SimCLR and BYOL trained on ImageNet100. Q-Score can also be used as a regularization term to remedy low-quality representations leading up to 8% relative improvement in accuracy on all 4 self-supervised baselines on ImageNet-100, CIFAR-10, CIFAR-100 and STL-10. Moreover, through heatmap analysis, we show that Q-Score regularization enhances discriminative features and reduces feature noise, thus improving model interpretability

自监督学习方法在下游分类任务中取得了令人印象深刻的结果。然而，在理解和解释他们学习到的表征方面的工作有限。本文研究了几种最先进的自监督模型的表示空间，包括SimCLR、SwaV、MoCo V2和BYOL。在不使用类别标签信息的情况下，我们首先发现对各种样本子集高度活跃的判别特征(discriminative features)，并对应于图像中的独特物理属性。我们表明，使用这种判别特征，可以将自监督模型的表示空间压缩到50%，而不会显著影响下游线性分类。接下来，我们提出了一个样本自监督表示质量分数 Self-Supervised Quality Score（或Q-Score），可以在不访问任何标签信息的情况下计算。Q-Score利用判别特征可靠地预测给定样本是否可能在下游分类任务中被误分类，在SimCLR上实现AUPRC为0.91，在ImageNet100上训练BYOL。Q分数也可以用作正则化项，以纠正低质量表示，从而在ImageNet-100、CIFAR-10、CIFAR-100和STL-10上的所有4条自监督基线上的精度相对提高8%。此外，通过热图分析，我们表明Q分数正则化增强了判别特征并减少了特征噪声，从而提高了模型的可解释性。

图1 可视化自监督模型的表示空间：在此图中，我们在ImageNet-100上显示了预训练SimCLR模型的表示空间。每行对应于验证集中随机选择的样本。512列中的每列对应于SimCLR ResNet-18编码器的一个特征。表征几乎是稀疏的，即大多数特征幅值接近零。每个表征都包含少量优势特征，这些特征可能与population中其他样本的特征重叠。图2研究了突出显示的特征。

图2 跨类特征激活(feature activations across classes)：我们绘制了每个类中给定特征包含在主导特征集中的样本百分比。在顶部面板中，对于特征11、27、333和301，我们观察到与单个类的相关性高达80%。梯度热图表明，这些特征编码了与类标签相关的独特视觉属性。我们将这些特征称为判别特征（discriminate features）。特征175不是判别特征，因为它在广泛的类别中被强烈激活，并且不对应于有意义的物理属性。

Introduction

无监督学习中的表征空间中是稀疏的，每个样本的表征包含了少量的主要特征(dominant features)和激活特征(strongly activated features)，而其余特征的基本接近于0.

dominant特征主要分为3类：

1.一小部分特征占据主导地位（权重大）的特征，这些特征可能编码特定于图像的信息特征（即图3的下尾部）--------------这个意思是说，这一部分特征只有当图像是某一特定的类别，这一类的特征才会被激活dominant特征。

2.编码图像的纹理(texture) 和颜色特征，这种broad 和general特征是广泛存在图像中的。（图3上尾部）

3. 独特的物理属性，又称之为判别特征(discriminate features)。这部分的特征可以区别性的对待各个特征子集。（图3的中间部分）

图3：选择判别特征：我们按照每个特征在总体中占dominant 特征的次数（y轴）的升序绘制每个特征。我们为SimCLR[1]、SwaV[4]、MoCo[5]和BYOL[6]展示了这一点。鉴别特征的选择使其在一系列样本中占主导地位，这表明它们可能具有很强的类别相关性，因此对下游分类很有用。

判别特征有一些特性：（i）discriminate features能突出有用的信息属性，而其他特征通常对应了虚假和噪声属性（作者这里用CAM进行了可视化）。ii）虽然在没有任何标签信息的情况下发现了鉴别特征，但我们观察到，它们在正确分类的表示中（在下游分类中）被强烈激活，在错误分类的表示中激活率较低（图5）；（iii）通过使用判别特征，我们可以将自监督模型的表示压缩到50%，而不会在很大程度上牺牲下游线性分类的性能（图4）。

基于以上，作者提出了Q-Score。并用Q-Score作为一项正则项训练self-supervised models去提高低质量表征，使其表征具有更少的噪声和更多的信息。

Q-Score

假设第i个样本的特征用表示，其中，r代表的是有特征数。（例如图1用到的r=512）。让代表的均值，σi代表的标准差。我们定义第i个样本的dominant features为

其中，是一个超参数，经验所得，=4的时候是最好的。

但我们的目标是得到discriminate features，而不是dominant features（在introduction我们提到，dominant features可以分为3类），因此我们需要selecting discriminate features.

是discriminate features 在i个样本的集合。||hi||1 是h1的范式，是集合的模长（范式）。Qi得到的是的得分，也就是discriminate features的得分。

-----------

但discriminate features怎么得到的？论文没有体现

而且这个题目起的这么大，实验来说，有点欠缺了，缺少了pretrain，fine-tune实验，多个参数下的实验比较。

Towards Better Understanding of Self-Supervised Representations / Q-Score相关推荐

基于强化学习的自我完善聊天机器人
Elena Ricciardelli, Debmalya Biswas 埃琳娜·里恰德利(Elena Ricciardelli) Abstract. We present a Reinforcemen ...
CHAPTER 18 Semantic Role Labeling
CHAPTER 18 Semantic Role Labeling Speech and Language Processing ed3 读书笔记 The task of understanding ...
文本摘要提取_了解自动文本摘要-1：提取方法
文本摘要提取 Text summarization is commonly used by several websites and applications to create news feed ...
深度学习——A Gentle Introduction to Graph Neural Networks
GNN Images as graphs 如何把一个张照片表示成一个图呢? 一张照片可以看成很多个像素,每个像素是一个点,在图中,就是图的结点,所有相邻的点,在图中表示的时候,在对应两个结点之间连一条 ...
【东南亚最大互联网公司 Grab 招人啦~】
[东南亚最大互联网公司 Grab 招人啦~] 公司简介 Grab,东南亚最大互联网公司,为东南亚各国家提供出行,支付,金融,地图,外卖,送餐,物流等服务,业务遍布8个国家336个城市.2018年3月收 ...
第十四课.Transformer
目录 Seq2Seq的编码器-解码器架构与Attention机制柔性注意力 Soft Attention 键值对注意力 Key-Value Pair Attention 自注意力 Self-Atte ...
MPB：生态环境中心张丽梅组-植物微生物组DNA提取扩增及溯源分析(视频)
为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...
不同真菌物种注释数据库对群落组成的影响
Journal:Biology and Fertility of Soils IF=3.788 Corresponding authors: Qirong Shen &James M. Tie ...
白话Elasticsearch24- 深度探秘搜索技术之TFIDF算法/向量空间模型算法/lucene的相关度分数算法
文章目录概述 boolean model TF/IDF TF: term frequency IDF:inversed document frequency length norm vector s ...
bogofilter notes
naive贝叶斯前提假设:邮件中出现的各个词之间完全独立.不相关. [前提假设未必正确但此模型效果很好] (贝叶斯公式) 上式左端理解为F1, F2,,,,Fn同时出现时, 属于类别C的概率. 式中 ...

Towards Better Understanding of Self-Supervised Representations / Q-Score

Introduction

Q-Score

Towards Better Understanding of Self-Supervised Representations / Q-Score相关推荐

最新文章

热门文章