Counterfactual Zero-Shot and Open-Set Visual Recognition

1 Introduction

文献提出一个反事实框架,是由对不可见类的泛化来支撑的。作者基于反事实的一致性规则(反事实确实是基本事实,反事实就等于事实)改变可见和不可见类的类属性来作为二元分类器。拟议的反事实框架是第一个为平衡和改进可见/不可见分类提供理论依据的框架。特别是,作者表明,分离Z和Y的质量是关键瓶颈,因此它是ZSL/OSR未来的一个潜在方向。

2 Methodology

2.1  Zero-Shot Learning (ZSL)

1)传统ZSL,其中模型仅在未可见类上评估;2)广义ZSL,其中模型在可见类上评估可见类和未可见类。一种常见的做法是使用一组额外的类属性  和  来分别描述可见类和不可见类。与独热标签嵌入相比,这些属性可视为密集标签嵌入。当上下文清楚时,将ZSL称为广义ZSL。

2.2 Open-Set Recognition (OSR)

它是用于评估可见类和不可见类,与ZSL不同的是,不可见类被标记为“未知”。OSR通过K维度的独热标签来标记每一个可见类,并不是通过密集标签。

2.3 Generative Causal Model

作者假设ZSL和OSR都遵循生成因果模型如图所示:

其中Z表示样本属性,Y表示类别属性。忽略混淆因素,给定Z和Y可以从条件分布生成X。同时给定X是可以通过后验推断出Z和Y。

2.4 Counterfactual Generation and Inference

通过上图的GCM按照计算反事实的三个步骤生成反事实样本

1)假设,在GCM可以表示为

2)Y是不是y?这里是目标Y的干预对象,文献通过丢弃推断值和设置Y作为y进行干预,并不是

3)在推断的Z和干预目标Y的条件下,可以通过生成反事实样本

文献给出了一些定义:

反事实忠诚,给定,使用GCM进行反事实生成的是忠实与

一致性规则,其中是未被观测到的真实标签类。因此异类则表示为

由于反事实的忠实性,差异性可以通过在x中定义的任何距离度量(例如,欧几里德距离)来测量。现有方法中的类不可知论无法弥补纠缠在一起的属性。这导致对看不见的类样本的非忠实生成,并且距离很难区分看到的类样本和看不见的类样本。

ZSL中的推断,在可见类和不可见类中分别用top-K分类概率的平均池表示为,则二元分类可以表示为:

OSR中的推断,由于OSR是在一个开放的环境中,即可能有无限多个看不见的类,因此不可能生成看不见的类反事实。与ZSL采用相反的方法,通过对不相似性进行阈值化,可以正确地对两个样本进行分类。计算x与的最小欧式距离,通过与临界值的比较给定类别:

2.5  Counterfactual-Faithful Training

定理:反事实生成是可信的,当且仅当样本属性Z和类别属性Y是群分离的。

文献中专门设计的训练目标:

从Y中解开Z,作者最小化的损失函数

从Z中解开Y,因为Z中是包含了Y的,所以需要解开纠缠。给定x,已知真实标签y和样本属性z,需要x接近,并且远离,因此采用对数损失:

通过忠诚进一步解开谜团。因为VAE目标优化了可能性P(X)的下限,其中边界松散会破坏忠实性,作者采用Wasserstein GAN损耗进行解决, WGAN损失公式如下:

3 Experimental Studies

3.1 Datasets

ZSL在标准基准数据集上评估方法: Caltech-UCSD-Birds 200-2011 (CUB) 、Animals with Attributes 2 (AWA2) 和 attribute Pascal and Yahoo (aPY),并且根据Proposed Split (PS) V2.0对可见类和不可见类进行分割。

OSR在标准评估数据集:MNIST、SVHN、CIFAR10和CIFAR100。

3.2  Performance evaluation

ZSL评估:

1)ZSL 准确度,为三元组(U,S,H),其中U是不可见类,S是可见类,U/S是每个类别top-1精度,H是U和S的调和平均数:

2)CVb,为了衡量看不见/看不见分类之间的平衡,作者建议使用看不见和看不见二元分类精度的变异系数,表示为CVb,即

3)AUSUC,通过绘制一系列ZSL精度的反差来绘制可见-不可见精度曲线(SUC),其中该系列是通过调整校准因子ω来获得的,该校正因子ω从可见类的分类器分对数中减去。然后我们使用SUC(AUSUC)下的面积进行评估。

OSR评估:

1)F1分数,显示了一个方法在拒绝非类样本的同时识别可见类的能力。

2)Openness-F1图,研究不同Openness下的F1的反应:,其中N和M分别是可见类和不可见类的数量。与开放性固定的单个F1分数相比,该图显示了OSR分类器对未知数量的未看见类的开放环境的鲁棒性。

3.3 Experimental Results

图中GCM-CF是文献提出的框架,其表现相对出色。

在所有数据集上生成模型的CVb值。

上图显示了二阶段推理性能。

四个数据集上的可见-不可见精度曲线。

使用CGD对重建图像进行比较。

比较OSR中5次随机拆分的F1平均分数。

Openness-F1图,其中使用CIFAR10中的4个非动物类作为可见类。

4 Conclusion

文献提出了一种新的零次学习(ZSL)和开放集识别(OSR)的反事实框架,为平衡和改善可见/不可见分类不平衡提供了理论基础。具体来说,作者提出了一个生成因果模型来生成忠实的反事实,这使我们能够使用一致性规则来平衡二元可见/不可见分类。ZSL和OSR中的大量结果表明,我们的方法确实改善了平衡,从而达到了最先进的性能。作为未来的方向,我们将寻求关于解纠缠的新定义,并设计实际实现以实现改进的解纠缠。

Counterfactual Zero-Shot and Open-Set Visual Recognition相关推荐

  1. 【Paper】CNN-LSTM:Long-term Recurrent Convolutional Networks for Visual Recognition and Description

    论文期刊:CVPR 2015 (oral) 论文被引:3673 (04/24/20) 论文原文:点击此处 该论文是 CNN-LSTM 的开山鼻祖,主要用于生成图像描述.初稿发布于2014年,拿到了 C ...

  2. Paper8:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 还未读

  3. 《BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition》笔记

    Paper:<BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition& ...

  4. [SPP-NET]Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    基于空间金字塔池化的卷积神经网络物体检测 原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一.相关理论 本篇博文 ...

  5. 目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)

    Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangy ...

  6. Convolutional Neural Networks for Visual Recognition 1

    Introduction 这是斯坦福计算机视觉大牛李菲菲最新开设的一门关于deep learning在计算机视觉领域的相关应用的课程.这个课程重点介绍了deep learning里的一种比较流行的模型 ...

  7. CVPR2018 Tutorial 之 Visual Recognition and Beyond

    这一tutorials主要带来了目前视觉识别的前沿研究以及在高级任务中的应用.其中前三个演讲将会覆盖视觉识别背后支撑的方法和原理,包括图像分类.目标检测以及实例分割和语义分割等.而后两个演讲将主要集中 ...

  8. 【CS231n_2017】1-Introduction to CNN for Visual Recognition

      本专栏根据斯坦福大学2017年公开课CS231n的视频教程整理学习资料,做学习笔记.   首先简单介绍CS231n,又称Convolutional Neural Networks for Visu ...

  9. BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition

    文章目录 概 主要内容 采样方式 权重 α \alpha α Inference phase 代码 Zhu B., Cui Q., Wei X. and Chen Z. BBN: Bilateral- ...

最新文章

  1. 如何理解“异或(XOR)”运算在计算机科学中的重要性?(转自-阿里聚安全)...
  2. 作为数据科学家应该知道的11件事
  3. AgentShop Development
  4. 关于不同的MySQL复制解决方案概述
  5. Please install 'webpack-cli' in addition to webpack itself to use the CLI
  6. Part 2 – Deep analysis using Androguard tools
  7. java运维工程师做什么_网络工程师和网络运维工程师有什么不同?
  8. 打包mac应用_把网址链接打包成电脑软件的制作方法
  9. Example3_3
  10. mysql cast报错_mysql数据库cast
  11. 关于一篇MSDN(January2006)上的一个XML操作--复制结点
  12. 使用Apache Ignite构建C++版本的分布式应用
  13. [转载] 简单工厂模式和工厂方法模式在Python中的实现
  14. mac和win电脑在同一局域网下互传文件
  15. C语言知识点总结2022
  16. MySQL密码正确却无法登录
  17. UML 核心元素之 参与者
  18. uniapp图片添加水印
  19. ie11启用java时打不开_ie11打不开解决方法
  20. 【技能】前端技能列表

热门文章

  1. html+dom+chm,HTML DOM getElementsByClassName() - JavaScript - 菜鸟学堂-脚本之家
  2. jdk8 中英文版文档
  3. 自然语言处理研究方向--文本相似度论文合集(不断更新)
  4. php判断股票涨停,竞价预期战法:涨停板次日集合竞价图是否符合预期的短线判断技术(图解)...
  5. 大家都在学C语言吧,作为程序员这有一个问题,秃顶算工伤吗?
  6. C# EXCEL 删除行
  7. 【PyTorch基础】
  8. 聊一聊ThreadLocal内存泄漏的问题
  9. 这个AI算法,可以帮“元宇宙”虚拟人进行虚拟更换衣服
  10. eplan实战设计pdf百度云_EPLAN实战设计.pdf