Counterfactual Zero-Shot and Open-Set Visual Recognition

1 Introduction

文献提出一个反事实框架，是由对不可见类的泛化来支撑的。作者基于反事实的一致性规则（反事实确实是基本事实，反事实就等于事实）改变可见和不可见类的类属性来作为二元分类器。拟议的反事实框架是第一个为平衡和改进可见/不可见分类提供理论依据的框架。特别是，作者表明，分离Z和Y的质量是关键瓶颈，因此它是ZSL/OSR未来的一个潜在方向。

2 Methodology

2.1 Zero-Shot Learning (ZSL)

1）传统ZSL，其中模型仅在未可见类上评估；2）广义ZSL，其中模型在可见类上评估可见类和未可见类。一种常见的做法是使用一组额外的类属性 $y_{S}$ 和 $y_{U}$ 来分别描述可见类和不可见类。与独热标签嵌入相比，这些属性可视为密集标签嵌入。当上下文清楚时，将ZSL称为广义ZSL。

2.2 Open-Set Recognition (OSR)

它是用于评估可见类和不可见类，与ZSL不同的是，不可见类被标记为“未知”。OSR通过K维度的独热标签来标记每一个可见类，并不是通过密集标签。

2.3 Generative Causal Model

作者假设ZSL和OSR都遵循生成因果模型如图所示：

其中Z表示样本属性，Y表示类别属性。忽略混淆因素，给定Z和Y可以从条件分布 $P_{\theta }(X|Z,Y)$ 生成X。同时给定X是可以通过后验 $Q_{\phi }(Z|X)$ 和 $Q_{\psi }(Y|X)$ 推断出Z和Y。

2.4 Counterfactual Generation and Inference

通过上图的GCM按照计算反事实的三个步骤生成反事实样本 $\tilde{x}=X_{y}[z(x)]$ ：

1）假设 $Z=z(x)$ ，在GCM可以表示为 $z(x)\sim Q_{\phi }(Z|X=x)$ ；

2）Y是不是y？这里 $y\in y_{S}\cup y_{U}$ 是目标Y的干预对象，文献通过丢弃推断值和设置Y作为y进行干预，并不是 $y(x)\sim Q_{\psi }(Y|X=x)$ ；

3）在推断的Z和干预目标Y的条件下，可以通过 $P_{\theta }(X|Z=z(x),Y=y)$ 生成反事实样本 $\tilde{x}$ 。

文献给出了一些定义：

反事实忠诚，给定 $x\in \chi$ ，使用GCM进行反事实生成的 $\tilde{x}$ 是忠实与 $\tilde{x}\in \chi$ 。

一致性规则， $y^{*}(x)=y\Rightarrow X_{y}[z(x)]=x$ ，其中 $y^*(x)$ 是未被观测到的真实标签类。因此异类则表示为 $X_{y}[z(x)]\neq x\Rightarrow y^*(x)\neq y$ 。

由于反事实的忠实性，差异性可以通过在x中定义的任何距离度量（例如，欧几里德距离）来测量。现有方法中的类不可知论无法弥补纠缠在一起的属性。这导致对看不见的类样本的非忠实生成，并且距离很难区分看到的类样本和看不见的类样本。

ZSL中的推断，在可见类和不可见类中分别用top-K分类概率的平均池表示为 $S^K$ 和 $U^K$ ，则二元分类可以表示为：

$b(x)=\left\{\begin{matrix} seen, & if U^K < S^K \\ unseen, & otherwise \end{matrix}\right.$

OSR中的推断，由于OSR是在一个开放的环境中，即可能有无限多个看不见的类，因此不可能生成看不见的类反事实。与ZSL采用相反的方法，通过对不相似性进行阈值化，可以正确地对两个样本进行分类。计算x与 $\tilde{x}\in \tilde{X}$ 的最小欧式距离 $d_{min}$ ，通过与临界值的比较给定类别：

$b(x)=\left\{\begin{matrix} unseen, &if d_{min} >\tau \\ seen, & otherwise \end{matrix}\right.$

2.5 Counterfactual-Faithful Training

定理：反事实生成 $X_{y}[z(x)]$ 是可信的，当且仅当样本属性Z和类别属性Y是群分离的。

文献中专门设计的训练目标： $\underset{\theta ,\phi }{min}L_{z}+\nu L_{Y}+\underset{\omega }{max}\rho L_{F}$ 。

从Y中解开Z，作者最小化 $\beta -VAE$ 的损失函数 $L_{z}$ ：

$L_{z}=-E_{Q_{\phi }(Z|X)}[P_{\theta }(X|Z,Y)]+\beta D_{KL}(Q_{\phi }(Z|X)\parallel P(Z))$

从Z中解开Y，因为Z中是包含了Y的，所以需要解开纠缠。给定x，已知真实标签y和样本属性z，需要x接近 $x_{y}=X_{y}[z(x)]$ ，并且远离 $\tilde{X}=\begin{Bmatrix} X_{y'}[z(x)]\mid y'\in y^S \wedge y' \neq y \end{Bmatrix}$ ，因此采用对数损失：

$L_{Y}=-log\frac{exp(-dist(x,x_{y}))}{\sum_{x'\in \tilde{X}\cup \begin{Bmatrix} x_{y} \end{Bmatrix}}^{}exp(-dist(x,x'))}$

通过忠诚进一步解开谜团。因为VAE目标优化了可能性P(X)的下限，其中边界松散会破坏忠实性，作者采用Wasserstein GAN损耗进行解决， WGAN损失公式如下：

$L_{F}=E[D(x,y)]-E[D(x',y)]-\lambda E[(\parallel \bigtriangledown _{\hat{x}}D(\hat{x},y)\parallel _{2}-1)^2]$

3 Experimental Studies

3.1 Datasets

ZSL在标准基准数据集上评估方法： Caltech-UCSD-Birds 200-2011 (CUB) 、Animals with Attributes 2 (AWA2) 和 attribute Pascal and Yahoo (aPY)，并且根据Proposed Split (PS) V2.0对可见类和不可见类进行分割。

OSR在标准评估数据集：MNIST、SVHN、CIFAR10和CIFAR100。

3.2 Performance evaluation

ZSL评估：

1）ZSL 准确度，为三元组(U,S,H)，其中U是不可见类，S是可见类，U/S是每个类别top-1精度，H是U和S的调和平均数： $H=2\times S\times U/(S+U)$ 。

2）CVb，为了衡量看不见/看不见分类之间的平衡，作者建议使用看不见和看不见二元分类精度的变异系数，表示为CVb，即 $CVb=\sqrt{0.5(S_{b}-\mu )^2+0.5(U_{b}-\mu )^2}/\mu$ 。

3）AUSUC，通过绘制一系列ZSL精度的反差来绘制可见-不可见精度曲线(SUC)，其中该系列是通过调整校准因子ω来获得的，该校正因子ω从可见类的分类器分对数中减去。然后我们使用SUC(AUSUC)下的面积进行评估。

OSR评估：

1）F1分数，显示了一个方法在拒绝非类样本的同时识别可见类的能力。

2）Openness-F1图，研究不同Openness下的F1的反应： $1-\sqrt{2N/(N+M)}$ ，其中N和M分别是可见类和不可见类的数量。与开放性固定的单个F1分数相比，该图显示了OSR分类器对未知数量的未看见类的开放环境的鲁棒性。

3.3 Experimental Results

图中GCM-CF是文献提出的框架，其表现相对出色。

在所有数据集上生成模型的CVb值。

上图显示了二阶段推理性能。

四个数据集上的可见-不可见精度曲线。

使用CGD对重建图像进行比较。

比较OSR中5次随机拆分的F1平均分数。

Openness-F1图，其中使用CIFAR10中的4个非动物类作为可见类。

4 Conclusion

文献提出了一种新的零次学习（ZSL）和开放集识别（OSR）的反事实框架，为平衡和改善可见/不可见分类不平衡提供了理论基础。具体来说，作者提出了一个生成因果模型来生成忠实的反事实，这使我们能够使用一致性规则来平衡二元可见/不可见分类。ZSL和OSR中的大量结果表明，我们的方法确实改善了平衡，从而达到了最先进的性能。作为未来的方向，我们将寻求关于解纠缠的新定义，并设计实际实现以实现改进的解纠缠。

Counterfactual Zero-Shot and Open-Set Visual Recognition相关推荐

【Paper】CNN-LSTM：Long-term Recurrent Convolutional Networks for Visual Recognition and Description
论文期刊:CVPR 2015 (oral) 论文被引:3673 (04/24/20) 论文原文:点击此处该论文是 CNN-LSTM 的开山鼻祖,主要用于生成图像描述.初稿发布于2014年,拿到了 C ...
Paper8：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 还未读
《BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition》笔记
Paper:<BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition& ...
[SPP-NET]Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
基于空间金字塔池化的卷积神经网络物体检测原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一.相关理论本篇博文 ...
目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)
Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangy ...
Convolutional Neural Networks for Visual Recognition 1
Introduction 这是斯坦福计算机视觉大牛李菲菲最新开设的一门关于deep learning在计算机视觉领域的相关应用的课程.这个课程重点介绍了deep learning里的一种比较流行的模型 ...
CVPR2018 Tutorial 之 Visual Recognition and Beyond
这一tutorials主要带来了目前视觉识别的前沿研究以及在高级任务中的应用.其中前三个演讲将会覆盖视觉识别背后支撑的方法和原理,包括图像分类.目标检测以及实例分割和语义分割等.而后两个演讲将主要集中 ...
【CS231n_2017】1-Introduction to CNN for Visual Recognition
本专栏根据斯坦福大学2017年公开课CS231n的视频教程整理学习资料,做学习笔记. 首先简单介绍CS231n,又称Convolutional Neural Networks for Visu ...
BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition
文章目录概主要内容采样方式权重 α \alpha α Inference phase 代码 Zhu B., Cui Q., Wei X. and Chen Z. BBN: Bilateral- ...