原文链接:https://arxiv.org/abs/1904.01198

开集识别的一般场景设定如图1所示, 我们已知四类图片,但是在测试过程中,可能会出现不属于任何一类的样本,而开集识别的目标就是识别出未知类,并且对已知类正确分类。

本文将开集识别任务分成了两个子任务:闭集分类和开集识别。训练过程如图2中的1)和2)所示。

1. Closed-set Training (Stage 1)

给定一个batch的图像,以及相应的标签。编码器()和分类器()分别具有参数,使用以下交叉熵损失进行训练,

其中,是标签的指示函数(即,一个热编码向量),是预测概率得分向量。是第i个样本来自第j类的概率。

2. Open-set Training (Stage 2)

在开集训练中有两个主要部分,条件解码器训练,然后是重建误差的EVT建模。在此阶段,编码器和分类器权重是固定的,在优化过程中不会改变。

2.1 Conditional Decoder Training

这里使用了视觉推断的一种方法:FiLM,FiLM层在神经网络的中间层特征上进行一个简单的feature-wise仿射变换(仿射变换:简单理解就是线性变化+平移,再通俗点就是)。

对于输入特征和包含条件信息的向量,可给出如下:,

这里,是具有参数的神经网络。张量具有相同的形状。用于条件处理,在本文中称为标签条件向量。此外,符号用于描述以标签条件向量为条件的潜在向量,即

当以与输入的类标识相匹配的标签条件向量(这里称为匹配条件向量())为条件时,期望解码器(带有参数)能够完美地重构原始输入,可以被视为传统的自动编码器。然而,在这里,当以标签条件向量为条件时,被额外训练以不好地重构原始输入,标签条件向量与输入的类标识不匹配,这里称为非匹配条件向量()。

现在,对于来自一个batch的给定输入,对于从中采样的任何随机,作为其相应的匹配和非匹配条件向量,第二阶段的前馈路径可以通过以下等式总结,

按照上述前馈路径,第二阶段训练解码器(参数为)和调节层(参数为)的损失函数如下所示,

这里,损失函数对应于使用匹配条件向量生成的输出应该是的完美重构的约束。损失函数对应于使用非匹配条件向量生成的输出应具有差重构的约束。为了强制执行后一个条件,从训练数据中对另一个批次进行采样,使得新批次没有与匹配条件向量一致的类标识。这种调节策略在某种程度上模拟了openset行为。这里,网络经过专门训练,当输入图像的类标识与条件向量不匹配时,会产生较差的重建。因此,当遇到未知的类测试样本时,理想情况下,任何条件向量都不会与输入图像类标识匹配。这将导致所有条件向量的重建效果不佳。然而,当遇到已知的测试样本时,由于其中一个条件向量将匹配输入图像类标识,它将为该特定条件向量生成完美的重建。因此,非匹配损失训练有助于网络更好地适应开放集设置。

2.1 EVT Modeling

极值理论。极值理论常用于许多视觉识别系统,是建模训练后分数的有效工具。它已被用于许多应用,如金融、铁路轨道检测等,以及开集识别。本文遵循极值定理的Picklands-Balkema-deHaan公式。它考虑了以超过高阈值的随机变量为条件的建模概率。对于具有累积分布函数(CDF)的给定随机变量,任何超过阈值的条件CDF定义为:

现在,给定I.I.D.样本,,极值定理指出,对于大类基础分布,并且给定足够大的可以很好地近似于广义帕累托分布(GPD),

参数估计。当将任何分布的尾部建模为GPD时,主要的挑战是找到尾部参数u以获得条件CDF。可以使用平均超额函数(MEF)来找到u的估计值,即。研究表明,对于GPD,MEF与u呈线性关系。许多研究人员利用GPD的这一特性来估计u的值。这里,采用了文献[29]中针对GPD介绍的查找u的算法,但做了一些小的修改。在得到u的估计值后,从极值定理,我们知道集合遵循GPD分布,GPD的其余参数,即ζ和μ可以使用最大似然估计技术轻松估计。

2.3 Threshold Calculation

在前几节所述的训练过程之后,匹配和非匹配重建错误集从训练集以及它们相应的匹配和非匹配标签,创建。设为输入的匹配重建误差,为非匹配重建误差,则匹配和非匹配误差集可计算为,

(匹配重建误差集)和(非匹配重建误差集)的典型直方图如图3a所示。请注意,这些集合中的元素仅根据训练期间观察到的内容进行计算(即,不使用任何未知样本)。图3b显示出了在从已知类集(K)和未知类集(U)的测试样本进行推断期间观察到的重建误差的归一化直方图。比较图3中的这些图,可以观察到,对于来自已知集(K)和未知集(U)的测试样本,在训练期间计算的的分布为推断期间观察到的误差分布提供了良好的近似。这一观察结果还验证了非匹配训练模拟了一个开放集测试场景,其中输入与任何类标签都不匹配。这就需要使用来找到开放集识别的操作阈值,从而对任何已知/未知的测试样本做出决策。

现在,可以假设最佳操作阈值() 位于区域。在这里,的潜在分布尚不清楚。但是,可以使用GDP来建模(右尾)和(左尾)的尾部,分别用表示。GPD仅定义用于建模最大值,但可以在拟合左尾之前,执行。假设观测未知样本的先验概率为pu,则误差概率可表示为阈值τ的函数,

3. Open-set Testing by k-inference (Stage 3)

这部分介绍了该方法的开集测试算法,测试程序在下面的算法1中描述。该测试策略涉及使用所有可能的条件向量调节解码器k次,以获得k个重建误差。因此,它被称为k-推理算法。

【开集识别论文解读】C2AE: Class Conditioned Auto-Encoder for Open-set Recognition——CVPR2019相关推荐

  1. C2AE: Class Conditioned Auto-Encoder for Open-Set RecognitionCVPR2019开放集识别论文解读

    [16] Oza P ,  Patel V M . C2AE: Class Conditioned Auto-Encoder for Open-Set Recognition[C]// 2019 IE ...

  2. 论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

    一. 摘要 如何将现有的图像 - 文本多模态大模型(例如 OpenAI CLIP)用于视频内容理解,是一个非常实用且具有前景的研究课题.它不仅可以充分挖掘图像大模型的潜力,还可以为视频大模型的设计和研 ...

  3. 【深度学习】步态识别-论文阅读(无参考意义):Cross-View Gait Recognition Based on Feature Fusion

    这里写目录标题 摘要 介绍 相关工作 改进 提出 多尺度特征融合 全局和局部特征融合 特征映射 结论 基于特征融合的跨视图步态识别 摘要 与人脸识别相比,步态识别是最有前途的视频生物特征识别技术之一, ...

  4. ICCV2017 论文解读:基于图像检索的行人重识别 | PaperDaily #13

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  5. CVPR2020行人重识别算法论文解读

    CVPR2020行人重识别算法论文解读 Cross-modalityPersonre-identificationwithShared-SpecificFeatureTransfer 具有特定共享特征变换 ...

  6. 为什么正则化可以起到对模型容量进行控制_论文解读 | 基于正则化图神经网络的脑电情绪识别...

    ©PaperWeekly 原创 · 作者|张玮玮 学校|东北大学硕士生 研究方向|情绪识别 引言论文动机 现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题:1. 脑电图信号的拓扑结构 ...

  7. 论文解读 | 基于正则化图神经网络的脑电情绪识别

    ©PaperWeekly 原创 · 作者|张玮玮 学校|东北大学硕士生 研究方向|情绪识别 引言 论文动机  现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题: 1. 脑电图信号的拓 ...

  8. Nature论文解读:深度学习助力毫秒之间识别癌细胞

    论文动机 流式细胞仪作为一种生物医学诊断技术,可以准确测量细胞特性.当前仪器已经实现了细胞的分类识别,但由于数据处理耗时的问题,尚不能对细胞进行实时分选. 基于之前的工作,本文作者提出采用深度学习来解 ...

  9. 论文解读二十七:文本行识别模型的再思考

    摘要:本文研究了两个解码器(CTC[1]和 Transformer[2])和三个编码器模块(双向LSTM[3].Self-Attention[4]和GRCL[5]),通过大量实验在广泛使用的场景和手写 ...

  10. 论文解读丨图神经网络应用于半结构化文档的命名实体识别和关系提取

    摘要: 随着用于传递和记录业务信息的管理文档的广泛使用,能够鲁棒且高效地从这些文档中自动提取和理解内容的方法成为一个迫切的需求.本次解读的文章提出利用图神经网络来解决半结构化文档中的实体识别(NER) ...

最新文章

  1. F5发布最新文件虚拟化存储产品ARX 4000
  2. 扩展js string 方法
  3. ST17H26之pwm功能
  4. 【软考】2017年11月软件设计师上午真题5-8题答案解析
  5. centos java 集成环境搭建,CentOS上搭建Tomcat环境并配置服务自启动 - Sonnyb - 博客园...
  6. python plt画半对数坐标_特征工程大传:对数变换
  7. node.js https 模块设置请求头等信息
  8. vs2015web项目无法加载64位c++的dll,提示试图加载不正确的格式
  9. [Bugku][Web][CTF] 30-33 write up
  10. 什么是CDP(连续数据保护)?
  11. python3发布时间_什么时候python 3 才能有更好的支持呢?
  12. 使用angular4和asp.net core 2 web api做个练习项目(四)
  13. insmod module 失败(skyeye + armlinux)
  14. 计算机网络的简单概述以及在浏览器中输入一个网址后如何执行
  15. HTML粘性定位,CSS:position——绝对、相对、固定、粘性定位的简单记录
  16. 制作启动u盘总结 centos6/centos7
  17. 斜线/、反斜线\、双斜线//、双反斜线\\ ,区别
  18. 开机脚本之——鼠标滚轮调整音量
  19. 驱动篇 -- PMOS管应用
  20. 广西大学考计算机可以拿创新学分吗,广西大学创新实践学分实施办法

热门文章

  1. 笔记本win10开启wifi共享wifi
  2. matlab投资组合权重,马科维茨投资组合理论(均方模型)学习笔记――基于Matlab(四)...
  3. IT人的中年危机感你有么???
  4. 《数据库原理与应用》课程实验报告三 --数据库的嵌套查询
  5. C语言客房管理系统课程设计
  6. 计算机键盘快速指南,正确方法:[字母键盘练习方法指南]教您如何快速键入
  7. Selina 爱我的每个人
  8. 那些花儿那片笑声让我想起我的那些花儿在我生命每个角落静静为我开着我曾...
  9. 库存JAVA_Java解决高并发下商品库存更新
  10. 曲苑杂坛(一):互联网如今这么卷,我们该怎么做?