Recent Advances in Open Set Recognition: A Survey

摘要：在现实的识别/分类任务中，由于受到各种客观因素的限制，在训练一个识别器或分类器时，通常很难收集到训练样本来涵盖所有的类。更现实的情况是开放集识别(open set recognition, OSR)，在训练时存在对世界不完整的知识，测试时可以将未知的类提交给算法，这就要求分类器不仅要对可见的类进行准确的分类，还要有效地处理不可见的类。本文提供了对现有开放集识别技术的全面调查，涵盖了从相关定义、模型表示、数据集、评估标准和算法比较等各个方面。此外，我们还简要分析了OSR与零样本、一次样本(少样本)识别/学习技术、带有拒绝选项的分类等相关任务之间的关系。此外，我们还回顾了开放世界识别，它可以看作是OSR的自然延伸。重要的是，我们强调了现有方法的局限性，并指出了该领域后续的一些有前景的研究方向。

1、INTRODUCTION

在闭集假设（静态环境）下，传统的识别/分类算法已经在各种机器学习(ML)任务中取得了显著的成功。然而，更现实的场景通常是开放的、非平稳的，如无人驾驶、故障/医疗诊断等，看不到的情况可能会意外出现，这大大削弱了这些现有方法的鲁棒性。迎接这一挑战，终身学习已经探讨了一些相关的研究主题[1]，[2]，迁移学习[3]，[4]，[5]，域适应[6]，[7]，zero-shot [8]，[9]，[10]，one-shot (few-shot) [11]，[12]，[13]，[14]，[15]，[16]，[17]，[18]，[19]，[20]识别/学习，开集识别/分类[21]，[22]，[23]，等等。

基于Donald Rumsfeld著名的“There are known knowns”命题[24]，我们进一步扩展了[22]断言的类的基本识别类别，重申识别应考虑以下四种类的基本类别：

1）已知的已知类(KKCs)，即，有明显标记为正训练样本的类别(其他KKCs也作为负样本)，甚至有相应的附加信息，如语义/属性信息等;

2）已知的未知类(KUCs)，即，标记为负样本，分组成不一定有意义的类别，如 the background classes [25], the universum classes [26];

3）未知的已知类(UKCs)，即，训练中没有可用样本的类，但在训练中有可用的附加信息(如语义/属性信息);

4）未知的未知类(UUCs)，即，在训练中没有任何相关信息的类别，不仅是未知的，而且在训练中没有附加信息(如语义/属性信息等)。

图1给出了使用t-SNE[27]从真实数据分布中可视化KKCs、KUCs和UUCs的例子。

由于UKCs和UUCs的主要区别在于它们的附加信息是否可用，所以我们在这里只对UUCs进行可视化。传统的分类只考虑KKC，而包括KUCs将导致模型有一个明确的“其他类”，或用未定义的负样本训练检测器[22]。与传统的分类不同，零样本学习(ZSL)更关注UKCs的识别。俗话说：如果不假设过去和未来的关系去预测是不可能的。ZSL利用KKCs和UKCs之间共享的语义信息来实现这样一个识别[8]、[9]。事实上，假设测试样本只来自UKCs是非常严格和不切实际的，因为我们通常对KKCs或UKCs都一无所知。另一方面，自然界中物体频率服从长尾分布[28]、[29]，说明KKCs比UKCs更常见。因此，一些研究者开始关注广义零样本 (GZSL)[30]、[31]、[32]、[33]，其测试样本同时来自KKCs和UKCs。作为一个与ZSL密切相关的问题，当训练中有少量的UKCs样本[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]可用时，one/few-shot learning(one/few-shot learning, FSL)可以看作是零样本学习的自然延伸。与GZSL类似，FSL在测试中同时考虑KKCs和UKCs的更符合实际的设置，即广义少样本学习 (GFSL)[34]也越来越流行。与(G)ZSL和(G)FSL相比，开放集识别(OSR)[21]、[22]、[23]可能面临更严峻的挑战，因为只有KKCs，没有属性等任何其他附加信息，也没有UUCs的样本数量。

开放集识别[21]描述了训练中没有看到的新类(UUCs)在测试中出现的情况，要求分类器不仅要对KKCs进行准确的分类，还要有效地处理UUCs。因此，当测试样本来自某个UUC时，分类器需要有相应的reject option。图2给出了传统分类和OSR问题的对比演示（开集识别限制已知类的决策边界，为UUC预留了空间)。需要注意的是，文献中已经有很多关于reject option[35]、[36]、[37]、[38]、[39]、[40]、[41]、[42]、[43]、[44]的分类工作。尽管在某种意义上说，reject option任务不应该和开集识别混淆，因为它仍然工作在闭集的假设下，而相应的分类器由于置信度不足拒绝识别输入样本，避免划分一类的样本成另一类的样本。

此外，通常用于异常检测（anomaly detection）的one-class分类器[46]，[47]，[48]，[49]，[50]，[51]，[52]，[53]似乎适合OSR问题，通过建模训练数据的经验分布，这样可以在特征空间的各个方向上脱离周围的开放空间(远离已知/训练数据的空间)。常用的 one-class 分类方法有 one-class SVM[46] 和支持向量数据描述(SVDD)[48]、[54]，其中 one-class SVM 以最大的margin将训练样本从特征空间的原点分离出来，而支持向量域描述(SVDD)以最小体积的超球面封装训练数据。请注意，在one-class设置中，将多个KKC视为单个KKC显然忽略了这些KKC之间的判别性信息，从而导致[23]和[55]性能较差。即使像[37]中提出的那样，每个KKC都由单个的单类分类器建模，其新颖度检测性能仍然很低。因此，有必要针对OSR问题，特别是多类OSR问题，重新构建有效的分类器。

作为总结，表1列出了开放集识别和上面提到的相关任务之间的区别。事实上，OSR已经在许多框架、假设和名称[56]、[57] 、[58]、[59]、[60]下进行了研究[61]。在关于人脸识别评价方法的研究中，Phillips等人[56]提出了一个典型的开放集身份识别框架，而Li和Wechsler[57]再次从评价的角度看待开放集人脸识别，提出了开放集TCM-KNN(转换置信机-k近邻)方法。Scheirer [21]首先将开放集识别问题形式化，并提出了初步的解决方案：1-vs-set machine，该方案在建模中纳入开放空间风险项，以说明超出KKCs合理支持范围的空间。注意，OSR在最近的ZSL[10]调查中被提到，但是，它没有被广泛讨论。与[10]不同，我们在这里提供了关于OSR的全面回顾。

本文的其余部分组织如下。在接下来的三个部分中，我们首先给出基本符号(第2节)和相关定义。然后我们从建模的角度分类现有的OSR技术，并且对于每个类别，我们评估不同的方法，详细给出了表2(第3节)。最后，我们在第4节回顾开放世界识别(OWR，被看作是OSR的自然延伸)。此外，第5节列出了常用的数据集、评估标准和算法比较，第6节强调了现有方法的局限性，并指出了该领域一些有前景的研究方向。最后，第7节给出了结论。

2、基本符号&相关定义

本节简要回顾[21]中描述的形式化 OSR 问题。如[21]中所讨论的，远离已知数据的空间(包括KKCs和KUCs)通常被认为是开放空间 O，因此将该空间中的任何样本任意标注为KKC必然会带来风险，这被称为开放空间风险（open space risk）： $R_{O}$ 。由于UUCs在训练中是不可知的，因此通常很难对开放空间风险进行定量分析。另外，[21]给出了 $R_{O}$ 的定性描述，其中它被形式化为开放空间 O 相对于整体测度空间 $S_{O}$ 的相对测度，计算如下:

式中，f 为可测识别函数。f(x) = 1表示KKCs中的某些类被识别，否则 f(x) = 0。在这种形式化下，开放空间中越多的样本被标记为KKCs， $R_{O}$ 越大。

定义1：( [21]中定义的开放性openness ) 让 $C_{TA}$ 、 $C_{TR}$ 和 $C_{TE}$ 分别表示：待识别类的集合、训练中使用的类的集合和测试中使用的类的集合。则对应的识别任务的开放性O为:

其中， $\left | \cdot \right |$ 为对应集合中的类别数。

开放性越大，开放问题越多，当开放性为0时，这个任务是完全封闭的。注意，[21]没有明确给出 $C_{TA}$ 、 $C_{TR}$ 和 $C_{TE}$ 之间的关系。在大多数现有工作[22]，[67]，[90]，[91]中，默认为保持 $C_{TA}=C_{TR}\subseteq C_{TE}$ 关系。此外，作者在[82]中明确给出了以下关系: $C_{TA}\subseteq C_{TR}\subseteq C_{TE}$ ，包含了前一种情况。

然而，这种关系对于定义1来说是有问题的。考虑以下简单的情况： $C_{TA}\subseteq C_{TR}\subseteq C_{TE}$ ， $\left | C_{TA} \right |=3$ ， $\left | C_{TR} \right |=10$ ， $\left | C_{TE} \right |=15$ 。那么有 O < 0，这显然是不合理的。事实上， $C_{TA}$ 应该是 $C_{TR}$ 的一个子集，否则它将没有意义，因为通常不会使用 $C_{TR}$ 上训练的分类器来识别不在 $C_{TR}$ 中的其他类。直观地说，一个特定问题的开放性应该只取决于来源于 $C_{TR}$ 中的 KKCs 知识和来源于 $C_{TE}$ 中的 UUCs 知识，而不是 $C_{TA}$ 、 $C_{TR}$ 和 $C_{TE}$ 三个方面的知识。因此，本文对开放性公式进行了重新校准：

与公式(2)相比，公式(3)只是一种比较合理的估计开放性的形式。其他定义也可以捕捉这个概念，有些可能更精确，因此值得进一步研究。考虑开放空间风险open space risk和开放性openness的概念，OSR问题的定义如下:

定义2：( 开放集识别问题[21] ) 设 V 为训练数据，设 $R_{O}$ 、 $R_{\varepsilon }$ 分别为开放空间风险和经验风险（对训练集中的所有样本点损失函数的平均最小化，经验风险越小说明模型f(x)对训练集的拟合程度越好）。那么开放集识别的目标就是找到一个可测量的识别函数：f ∈H，其中f(x) > 0表示识别正确，f 是通过最小化以下Open Set Risk来定义的:

如公式(4)所示，Open Set Risk 在允许识别函数的空间上平衡了经验风险和开放空间风险。尽管上面提到的这个初始定义更理论化，但它为后续OSR建模提供了重要的指导，从而产生一系列OSR算法，这些算法将在下一节中详细介绍。

3、OSR技术分类

虽然Scheirer等人[21]形式化了OSR问题，但一个重要的问题是如何将公式(1)开放空间风险合并到建模中。统计学习中生成模型和判别模型的使用[92]和[93]之间存在着一场持续的争论，每个模型的价值都有争论。然而，正如[22]中所讨论的，开放集识别引入了这样一个新的问题，在这个问题中，无论是判别模型还是生成模型都不能直接解决开放空间中存在的UUCs，除非施加一些约束。因此，研究者在一定的约束下，分别从判别和生成的角度对OSR建模进行了探索。接下来，我们主要从这两个角度回顾现有的OSR模型。

根据建模形式，这些模型可进一步分为四类(见表2)：判别模型角度的基于传统ML (TML)的方法和基于深度神经网络(DNN)的方法；生成模型的基于实例和非实例生成方法。对于每一个类别，我们通过关注其对应的代表作品来回顾不同的方法。此外，图3给出了这些方法链接的全局图，同时也列出了几个可用的软件包链接(表3)，以方便相关研究者进行后续研究。其次，我们首先从判别模型的角度对现有的OSR算法进行了综述，其中大部分的OSR算法都是从这个角度建模的。

3.1 OSR的判别模型

3.1.1 传统的基于ML的方法

如前所述，传统的机器学习方法(如SVM、稀疏表示、最近邻等)通常假设训练和测试数据来自同一分布。然而，这样的假设在OSR中不再成立。为了使这些方法适应OSR情景，人们对[21]、[22]、[23]、[62]、[63]、[64]、[65]、[66]、[67]、[68]、[69]、[70]、[71]、[72]、[73]、[74]做了很多工作。

基于SVM: SVM[94]已经成功地应用于传统的分类/识别任务中。但是当UUCs在测试时出现，由于通常在闭集假设下为KKCs划分过多空间，UUCs分类性能会明显下降。如图2(b)所示，UUCs的样本一旦落入部分KKCs划分的空间，这些样本将永远无法被正确分类。为了克服这个问题，许多基于SVM的OSR方法被提出。

根据定义2，Scheirer等人[21]提出了1-vs-Set，该机制在建模中纳入了开放空间风险项，以解释超出KKCs合理支持范围的空间。具体来说，他们在得分空间中加入另一个与SVM得到的分离超平面相平行的超平面，从而在特征空间中形成一个一定厚度的厚片slab。线性核厚片模型的开放空间风险定义如下:

其中 $\delta _{A}$ 和 $\delta _{\Omega }$ 表示对应超平面的边缘距离，而“ $\delta ^{+}$ ”是解释所有正样本所需的间隔。用户指定参数 $p _{A}$ 和 $p _{\Omega }$ 作为margin space $w_{A}$ 和 $w _{\Omega }$ 的权重。在这种情况下，出现在两个超平面之间的测试样本将被标记为适当的类。否则，它将被视为非目标类或被拒绝，这取决于它驻留在slab的哪一边。类似于1-vs-Set机制，Cevikalp[62][63]在传统SVM的基础上，对正/目标类的样本增加了另一个约束，并提出了最佳拟合超平面分类器(Best Fitting Hyperplane Classifier, BFHC)模型，该模型直接在特征空间中形成一个slab。此外，BFHC可以利用kernel技巧扩展到非线性情况，更多细节请参考[63]。

虽然上述slab模型对于每个二值支持向量机都减少了KKC的区域，但每个KKC所占的空间仍然是无限的。因此开放空间风险仍然存在。为了克服这一挑战，研究者进一步寻找新的方法来控制这一风险[22]，[23]，[64]，[65]，[66]。

Scheirer等人[22]将非线性内核融入到一个解决方案中，通过积极标记有限测度的集进一步限制开放空间风险。他们制定了一个紧凑的降低概率(CAP)模型，在该模型中，当点从已知数据移动到开放空间时，类成员的概率降低。在此基础上，提出了一种基于微布尔校正的支持向量机(W-SVM)模型，它结合了作为得分校准的静态极端值定理(EVT) [95]和两个分开的支持向量机。

第一种支持向量机是作为调节器的one-class SVM CAP模型：如果one-class SVM预测的输入样本x的后验估计 $P_{O}(y|x)$ 小于阈值 $\delta _{T}$ ，该样本将被直接拒绝。否则，它将被传递给第二个SVM。第二个SVM是通过拟合威布尔累积分布函数得到的binary SVM CAP模型，得到对应正KKC的后验估计P个值 $P_{\eta }(y|x)$ 。而且通过反向威布尔拟合得到相应负KKCs的后验估计 $P_{\psi }(y|x)$ 。定义了一个指示符变量：如果 $P_{O}(y|x)>\delta _{T}$ ，那么 $\iota _{y}=1$ ，否则 $\iota _{y}=0$ 。W-SVM识别所有KKCs 是:

其中 $\delta _{R}$ 为第二个SVM CAP模型的阈值，两个阈值 $\delta _{T}$ 和 $\delta _{R}$ 均根据经验设定， $\delta _{T}$ 设置在0.001， $\delta _{R}$ 建议根据开放性的具体问题来设置：

值得注意的是，虽然W-SVM通过基于阈值的分类方案有效地限制了开放空间风险，但阈值选择也给出了一些警告。首先，假设所有的KKCs都有相等的阈值，这可能是不合理的，因为类在特征空间中的分布通常是未知的。其次，建议根据问题开放性[22]设置拒绝阈值。然而，相应问题的开放性通常也是未知的。

为了解决这些问题，Scherreik等人[64]引入了概率开放集SVM (POS-SVM)分类器，它可以根据经验为定义2下的每个KKC确定唯一的拒绝阈值。POS-SVM没有定义 $R_{O}$ 作为开放空间和类定义空间的相对测度，而是分别选择开放空间风险 $R_{O}$ 和经验风险 $R_{\varepsilon }$ 的概率表示(详情[64])。此外，作者还采用了结合true negative rate和召回率的新的OSR评价指标Youden’s index，将在第5.2小节详细介绍。最近，为了解决滑动窗口视觉目标检测和开放集识别任务，Cevikalp和Triggs[65]、[66]使用一类准线性“多面体圆锥”函数[98]来定义正KKCs的接受区域。这种选择提供了一组方便的紧凑和凸区域形状，用于区分相对局部的正KKCs和更广泛的负KKCs，包括负KKCs和UUCs。

基于稀疏表示：近年来，基于稀疏表示的技术在计算机视觉和图像处理领域得到了广泛的应用[99]，[100]，[101]。其中，基于稀疏表示的分类器(SRC)[102]受到了广泛关注，SRC在训练过程中通过寻找测试样本的最稀疏表示来识别正确的类。SRC及其变体本质上仍处于封闭集假设下，为了使SRC适应开放环境，Zhang和Patel[67]提出了基于稀疏表示的开放集识别模型，简称SROSR。

由于OSR的大部分判别性信息隐藏在匹配和非匹配的重构这两个误差分布的尾部，SROSR使用EVT对匹配和非匹配的重构误差分布的尾部进行建模。这个模型包括两个主要阶段。一个阶段利用EVT将误差分布的尾部建模，将OSR问题简化为假设检验问题；另一个阶段首先计算一个测试样本的重构误差，然后根据两个尾部分布的置信值进行融合，以确定其一致性。

正如在[67]中所述，虽然SROSR优于许多具有竞争力的OSR算法，但它也有一些局限性。例如，在人脸识别任务中，当数据集在姿态、光照或分辨率方面存在极端变化时，SROSR就会失败，而SRC所要求的自我表达能力不再成立。除此之外，为了达到良好的识别性能，训练集需要广泛的跨度包含可能发生在测试集的情况。注意，只有SROSR目前提出了基于稀疏表示的，它仍然是一个有趣的话题未来工作发展稀疏表示OSR算法。

基于距离：与上面提到的其他传统ML方法类似，基于距离的分类器在开放集场景下通常不再有效。为了应对这一挑战，Bendale 和Boul t[68]通过扩展最近类均值(Nearest Class Mean, NCM)分类器，建立了开放集识别的最近非离群值(Nearest Non-Outlier, NNO)算法[103]，[104]。NNO根据测试样本与KKCs的均值之间的距离进行分类，当所有分类器都拒绝输入样本时，NNO就拒绝输入样本。需要强调的是，该算法可以基于手动标记的数据动态添加新类。此外，作者还介绍了开放世界识别的概念，具体内容在第4节中介绍。

此外，J’unior等人[69]在传统的最近邻分类器的基础上，引入了一个开放集版本的最近邻分类器(OSNN)来处理OSR问题。与直接对最相似类的相似度评分使用阈值的方法不同，OSNN对两个最相似类的相似度评分比使用一个阈值，称为最近邻距离比(NNDR)。具体地说，它首先找到测试样本 s 的最近邻 t 和 u ，其中 t 和 u 来自不同的类别，然后计算其比值：

其中 d 为计算特征空间的欧几里得距离，如果该比值小于或等于预先设定的阈值，则将 s 归类为 t 的同一类别标签，否则被视为UUC。

OSNN本质上是多类的，这意味着它的效率不会随着可用训练类数量的增加而受到影响。此外，NNDR技术还可以毫不费力地应用于其他基于相似度评分的分类器，如最优路径森林分类器[105]。也可以用其他的度量来代替欧氏度量，甚至根据作者的建议，所考虑的特征空间可以是一个变换后的空间。值得注意的是，OSNN的一个局限性是，仅选择来自不同类的两个参考样本进行比较，使得OSNN容易受到离群值的攻击[91]。

基于margin分布：考虑到大多数现有的OSR方法只考虑很少或没有考虑到数据的分布信息，并且缺乏强大的理论基础，Rudd等人[70]制定了一个理论上完善的分类器：极值机(EVM)，它源于margin分布的概念。margin分布的各种定义和使用已被探讨过[106]、[107]、[108]、[109]，涉及诸如最大化平均边际或中值边际、采取加权组合边际或优化边际均值和方差等技术。利用边缘分布本身可以提供比soft-margin支持向量机更好的误差范围，在某些情况下可以转化为减少实验误差。

EVM是margin分布理论的一种扩展，从一个全类公式[106]，[107]，[108]，[109]扩展到一个simple-wise公式，它是根据相对于参考点的样本半距离分布建模的。具体而言，得到以下定理:

定理1。假设我们有一个正样本 $x_{i}$ 和从定义良好的类分布中提取的足够多的负样本 $x_{j}$ ，产生两两的margin估计 $m_{ij}$ 。假设存在连续的非退化边缘分布。然后用威布尔分布给出了 $x_{i}$ 的边际距离最小值的分布。

定理1对任意点 $x_{i}$ 都成立，每个点都可以估计自己到边缘的距离分布，得到：

推论1：（密度函数）给定定理1的条件， $x^{'}$ 包含在由 $x_{i}$ 估计的边界中的概率为：

其中， $k_{i}$ 和 $\lambda _{i}$ 分别为拟合最小 $m_{ij}$ 得到的威布尔形状参数和尺度参数。

预测：一旦EVM训练后，新样本 $x^{'}$ 与类 $C_{l}$ 的概率，也就是说 $P(C_{l}|x^{'})$ ，可以通过公式(9)获得，从而导致下面的决策函数：

其中，M为训练中KKCs的数量， $\delta$ 为定义KKCs与不支持开放空间边界的概率阈值。

EVM由边缘分布和极值理论衍生而来，具有很好的解释，可以进行非线性无核可变带宽增量学习，并被进一步用于探索开放集人脸识别[110]和入侵检测[111]。注意，正如在[71]中报道的，它也有一些局限性，其中一个明显的局限性是，当KKCs和UUCs的几何图形不同时，使用KKCs的几何图形是有风险的。为了解决这些局限性，Vignotto和Engelke[71]进一步提出了依赖于EVT近似的GPD和GEV分类器。

基于其他传统ML方法：使用center-based similarity(CBS)的空间学习，范和刘[72]提出了一个新颖的解决方案用于文本分类下OSR的场景中，而Vareto[73]探讨了开集人脸识别，提出hpl和HFCN算法结合哈希函数、偏最小二乘法(PLS)和完全连接网络(FCN)。Neira等[74]采用了集成的思想，将不同的分类器和特征结合起来解决OSR问题。更多细节请参见[72]、[73]、[74]。由于目前大多数传统的机器学习分类方法都是在封闭集假设下进行的，使其适应于开放的、非平稳的环境是很有吸引力的。

3.1.2 基于深度神经网络的OSR模型

由于其强大的学习表示能力，深度神经网络(DNNs)在各种任务如视觉识别、自然语言处理、文本分类等方面获得了显著的优势。DNNs通常会出现典型的SoftMax交叉熵分类损失，这不可避免地会带来归一化问题，使其固有的封闭集特性。因此，在处理UUCs的样本时，DNNs常常做出错误的预测，甚至过于自信。[112]和[113]的研究表明，DNNs很容易受到“欺骗”和“垃圾”图像的伤害，这些图像在视觉上与期望的级别相差很远，但能产生很高的置信度得分。为了解决这些问题，研究者研究了不同的方法[25]，[75]，[76]，[77]，[78]，[79]，[80]，[81]，[82]，[83]，[84]，[85]。

Bendale和Boult[75]将DNNs中的SoftMax层替换为OpenMax层，提出OpenMax模型作为开放集深度网络的第一个解决方案。具体来说，深度神经网络首先使用SoftMax层通过最小化交叉熵损失来训练。采用Nearest Class Mean的概念[103]，[104]，每一类表示为利用该网络倒数第二层的特征（也称为激活向量）(仅对分类正确的训练样本)的均值的平均激活向量(MAV)。然后，计算训练样本与对应类MAVs的距离，并利用其拟合每个类的单独Weibull分布。然后根据Weibull分布拟合得分对激活向量的值进行重新分布，并用于计算UUCs的伪激活。最后，对这些重新分布的激活向量再次使用SoftMax计算了KKCs和(伪)UUCs的类概率。

正如[75]中讨论的，OpenMax有效地解决识别挑战欺骗/垃圾和不相关的开集的图像，但它未能认识到视觉上与训练样本不易辨别的但是被设计让深网络产生高信心但不正确答案[113]，[114]的敌对的图像。Rozsa等人[76]还分析和比较了使用SoftMax层和OpenMax的DNNs对抗的鲁强性：尽管OpenMax对传统攻击提供的脆弱系统比SoftMax要少，但它同样容易受到直接处理深层表示的更复杂的对抗生成技术的影响。因此，对抗性样本仍然是开放集识别的一个严峻挑战。此外，利用与MAV的距离，OpenMax中的交叉熵损失函数不会直接激励在MAV周围投射类样本。此外，测试中使用的距离函数没有用于训练，可能导致该空间测量不准确[77] 。为了解决这一局限性，Hassen和Chan[77]学习了一种基于神经网络的开放集识别表示。在这个表示中，来自同一阶级的样本相互封闭，而来自不同阶级的样本相距较远，使得UUCs的样本在KKCs之间占据的空间较大。

此外，Prakhya等人[78]继续遵循OpenMax的技术路线探索开放集文本分类，Shu等人[79]用1-vs-rest的最后一层sigmoids代替SoftMax层，提出了Deep open classifier (DOC)模型。Kardan和Stanley[80]提出了竞争过完备输出层(COOL)神经网络，以规避神经网络在远离训练数据的区域过度泛化的问题。Cardoso等人[81]基于一种无重神经网络提供的精细的类距离计算，提出了开放集识别的tWiSARD算法，该算法在[82]得到进一步发展。最近，考虑到现有的背景类(KUCs)， Dhamija等人[25]将SoftMax与新颖的Entropic开集和对流层损失结合起来，以解决OSR问题。Yoshihashi等人[83]提出了开放集识别(CROSR)的分类：重建学习算法，该算法利用潜在表示进行重建，使UUCs的检测具有鲁棒性，而不会损害KKCs的分类精度。Oza和Patel[85]利用带有新的训练和测试方法的类条件自动编码器，提出了OSR的C2AE模型。与上述工作相比，Shu等[84]更注重发现被拒绝样本中隐藏的UUCs。相应地，他们提出了一个联合开放分类模型，其中有一个子模型用于分类一对样本是否属于同一类，该子模型可以作为聚类的距离函数，发现拒绝样本中的隐藏类。

备注：从判别模型的角度来看，几乎所有现有的OSR方法都采用基于阈值的分类方案，其中识别器在决策时使用经验设定的阈值对输入样本进行拒绝或分类。因此，阈值起着关键作用。然而，目前对它的选择通常依赖于KKCs的知识，由于缺乏UUCs的可用信息，不可避免地会产生风险[91]。事实上，由于KUCs的数据经常在[25]，[115]，[116]手中，我们可以充分利用它们来降低这种风险，进一步提高这些方法在UUCs中的稳健性。此外，对数据分布尾部的有效建模使得EVT在现有的OSR方法中得到了广泛的应用。然而，遗憾的是，它没有提供原则性的方法来选择适合的尾巴的大小。此外，由于视觉类别中的目标频率通常遵循长尾分布[29]，[117]，一旦测试中KKCs和UUCs中罕见的类别同时出现，这种分布拟合将面临挑战[118]。

3.2 开放集生成模型

在本节中，我们将从生成模型的角度来回顾OSR方法，根据它们的建模形式，这些方法可以进一步分为基于实例生成和基于非实例生成的方法。

3.2.1 基于实例生成的OSR模型

对抗性学习(AL)[119]作为一种新的技术获得了惊人的成功，它采用了生成模型和判别模型，其中生成模型学习生成样本，并将判别模型蒙骗为非生成样本。由于AL的特性，一些研究者也试图用AL技术产生的UUCs来解释开放空间[86]、[87]、[88]、[89] 、[90]。

Ge等人[86]提出了生成OpenMax (G-OpenMax)算法，利用条件生成对抗网络(GAN)合成UUCs的混合物，生成OpenMax (G-OpenMax)算法可以对生成UUCs提供明确的概率估计，使分类器能够根据KKCs和生成UUCs的知识定位决策裕度。显然，这样的UUCs在其设置中仅局限于原KKCs空间的一个子空间中。此外，正如文献[86]报道的，虽然G-OpenMax可以有效地检测单色数字数据集中的UUCs，但在自然图像上并没有显著的性能提升。

与G-OpenMax不同，Neal等人[87]引入了一种新的数据集增强技术，称为反事实图像生成(OSRCI)。OSRCI采用encoder-decoder GAN架构生成接近KKCs但不属于任何KKCs的合成开集示例。他们进一步将OSR问题重新表述为使用一个包含新生成样本的附加类进行分类。

类似于[87]，Jo等人[88]采用GAN技术生成假数据作为UUC的数据来进一步增强UUCs分类器的鲁棒性。Yu等人[89]提出了OSR的对抗性样本生成(ASG)框架。ASG可以应用于神经网络之外的各种学习模型，它不仅可以生成UUCs的数据，必要时还可以生成KKCs的数据。此外，Yang等人[90]借鉴典型GAN网络中的生成器，生成与自动负集目标样本高度相似的合成样本，同时对鉴别器进行重新设计，与UUC一起输出多个类。然后，他们研究了基于微多普勒信号的人类活动识别技术。

备注：由于大多数基于实例生成的OSR方法通常依赖于深度神经网络，它们似乎也属于基于DNN的方法。但请注意，这两类方法的本质区别在于UUCs的样本是否是在学习中生成的。此外，AL技术并不仅仅依赖于深度神经网络，如ASG[89]。

3.2.2 基于非实例生成的OSR模型

狄利克雷过程(DP)[120]，[121]，[122]，[123]，[124]被认为是分布上的分布，是一个随机过程，作为混合成分数量上的非参数先验定义，被广泛应用于聚类和密度估计问题。该模型不过度依赖于训练样本，可以随着数据的变化实现自适应变化，使其自然地适应OSR场景。

Geng和Chen[91]对层次Dirichlet过程(HDP)进行了微小的修改，将HDP适应于OSR，并提出了基于集体决策的OSR模型(CDOSR)，既可以处理批量样本，也可以处理个体样本。CD-OSR首先在训练阶段执行一个共聚过程以获得适当的参数。在测试阶段，它使用含有未知成分/子类的高斯混合模型(GMM)将每个KKC的数据建模为一组CD-OSR，而将整个测试集作为一个集合/批处理方法相同。然后，在HDP框架下，所有组都是共同聚集的。共聚后，可以得到一个或多个表示对应类的子类。因此，对于一个测试样本，它将被标记为合适的KKC或UUC，这取决于它被分配的子类是否与相应的KKC相关联。

值得注意的是，与以前的OSR方法不同，CD-OSR不需要定义用于确定KKCs和UUCs之间的决策边界的阈值。相比之下，它引入了一些阈值来控制对应类中子类的数量，实验表明这样一个阈值的选择更具有普遍性([91])。此外，CDOSR可以为出现在测试中的UUCs提供显式建模，自然产生了新的类发现功能。请注意，这样的新发现只是在子类级别。此外，采用集体/批量决策策略使得CD-OSR考虑了其他现有方法明显忽略的被测样本之间的相关性。此外，如文献[91]所述，CD-OSR只是目前面向集体决策的开放集识别的概念证明，还存在许多局限性。例如CD-OSR的识别过程似乎在一定程度上带有懒惰学习的味道，当其他批测试数据到达时，会重复共聚过程，导致较高的计算开销。

备注：基于实例生成OSR模型的关键是生成有效的UUCs样本。虽然这些现有的方法已经取得了一定的成果，但是生成更有效的UUCs样本还需要进一步的研究。此外，数据自适应属性使得(分层的)Dirichlet过程自然适合处理OSR任务。由于目前仅有[91]对HDP进行了初步探索，因此该研究线也值得进一步探索。此外,OSR的集体决策策略是一种很有前途的方向,因为它不仅考虑了测试样本之间的相关性也为新类的发现提供了可能性,而single-sample决定strategy4adopted其他现有OSR方法不能做这样的工作,因为它不能直接分辨单拒绝样品局外人或新类。

4、开放集识别的延伸

注意，现有的开放集识别确实是在开放场景中，但不是递增的，并且不能随着类的数量优雅地伸缩。另一方面,尽管新类(UUCs)认为在类别上出现增量增量学习(C-IL)[125]，[126]，[127]，[128]，[129]，[130],这些研究主要集中在如何使系统之后将训练样本来自新类而不是识别UUCs处理的问题。共同考虑OSR和CIL任务，Bendale和筛子[68]扩展现有的开集识别(2)定义开放世界识别(OWR)，在识别系统应该执行四个任务：检测UUCs，选择样本的标签添加到模型中，标签的样本，并更新分类器。具体来说，作者给出了以下定义:

定义3：(开放世界识别[68])设 $\kappa _{T}\in \mathbb{N}^{+}$ 为 T 时刻KKCs的标签集，让零标签(0)被保留(临时)标记为未知的数据。因此 $\mathbb{N}$ 包括KKCs和UUCs的标签。根据定义2，开放世界识别的解决方案是一个元组 $[F,\varphi ,\nu ,\iota ,I]$ :

1) 一个多类别开集识别函数 $F(x):\mathbb{R}^{d} \mapsto \mathbb{N}$ ，使用一个向量函数 $\varphi (x)$ ，i 类的可测的识别函数为 $f_{i}(x)$ ，同时使用了一个新颖性检测器 $\nu (\varphi):\mathbb{R}_{i} \mapsto [0,1]$ 。我们要求每类 $i\in \kappa _{T}$ 的识别函数 $f_{i}(x)\in H:\mathbb{R}^{d} \mapsto \mathbb{R}$ 是开集函数，能按照公式（1)处理开放空间风险。新颖性检测器 $\nu (\varphi):\mathbb{R}^{i} \mapsto [0,1]$ 确定识别函数的向量是否来自UUC。

2) 打标签过程 $L(x):\mathbb{R}^{d} \mapsto \mathbb{N}^{+}$ 被用于时刻T的新未知数据 $U_{T}$ ，产生带标签数据 $D_{T}=\left \{ (y_{j},x_{j}) \right \}$ ，其中： $y_{j}=L(x_{j}),\vee x_{j}\in U_{T}$ ，假设这个过程发现了 m 个新类别，那么KKCs集合变成 $\kappa _{T+1}=\kappa _{T}\cup\left \{ i+1,,,i+m \right \}$ 。

3）一个增量学习函数 $I_{T}(\varphi ;D_{T}):H^{i}\mapsto H^{i+m}$ 去学习并添加新的可测量函数 $f_{i+1}(x),,,,,f_{i+m}(x)$ ，他们中的每个处理开放空间风险。

更多细节，请参阅[68]。理想情况下，所有这些步骤都应该是自动化的。然而，[68]目前仅对人工标注获得的标签进行了假定的监督学习，并提出了NNO算法，在3.1.1小节中讨论。

随后，一些研究者继续沿着这条研究路线进行跟踪。罗莎等。[131]认为正确捕获OWR的内在动力,需要追加以下方面:(a)的增量学习底层指标,(b) UUCs信心的增量估计阈值,和(c)使用当地学习精确描述类的空间。为了实现这些目标，他们利用在线度量学习扩展了三种现有的度量学习方法。Doan和Kalita[132]提出了最近质心类(Nearest Centroid Class, NCC)模型，与在线NNO[131]相似，但有两个主要不同之处。首先，他们采用了一种特定的解决方案来解决增量地添加新类的初始问题。其次，他们优化了最近邻居搜索来确定最近的本地球。Lonij等人[133]从为开放世界图像分配语义意义的互补方向解决了OWR问题。为了处理openset动作识别任务，Shu等[134]提出了开放深度网络(ODN)，该网络首先采用多类三联体阈值法检测新类，然后通过不断添加预测器来动态重构分类层。此外，由于增量学习的性质，第3.1.1节讨论的EVM也适合OWR场景[70]。最近，Xu等人[135]提出了一种元学习方法，可以在开放世界识别框架下不经过训练地学习接受新类别。

备注：作为OSR的自然延伸，OWR面临着更严重的挑战，这要求它不仅有能力处理OSR任务，但也最小的停机时间，甚至持续学习，这似乎有终身学习的味道在某种程度上。此外，虽然OWR取得了一些进展，但还有很长的路要走。

5、数据集，评价标准和实验

5.1 数据集

在开放集识别中，目前大多数已有的实验通常是在各种重造的多类基准数据集上进行的，其中相应数据集中一些不同的标签被随机选取为KKCs，其余的为UUCs。这里我们列出了一些常用的基准数据集和它们的组合:

LETTER[136]：共有26个类20000个样本，每个类约769个样本，16个特征。为了重新进行开放集识别，我们随机抽取10个不同的类作为KKCs进行训练，其余的作为UUCs。

PENDIGITS[137]：共有10个类的10992个样本，每个类有大约1099个样本，16个特征。同样，随机选取5个不同的类作为KKCs，其余的类作为UUCs。

COIL20[138]：总共有来自20个对象的1440张灰色图像(每个对象72张图像)。每幅图像下采样到16×16，即，特征维数为256。随后[91]，我们通过主成分分析(PCA)技术进一步将维数降至55，保留样本95%的信息。随机抽取10个不同的对象作为KKCs，其余的作为UUCs。

YALEB[139]：扩展Yale B (YALEB)数据集总共有来自38个个体的2414幅frontal-face图像。每个人大约有64张图片。对图像进行裁剪，归一化为32×32。在[91]之后，我们也使用PCA将其特征维数降至69。与COIL20相似，随机选取10个不同的类作为KKCs，其余的类作为UUCs。

MNIST[140]：由10类组成，每个分类包含6313 - 7877幅28×28特征维数的单色图像。随后[87]，随机选取6个不同的类为KKCs，其余4个类为UUCs。

SVHN[141]：有10个数字类，每个类包含9981到11379幅彩色图像，特征维数为32×32。随后[87]，随机选取6个不同的类为KKCs，其余4个类为UUCs。

CIFAR10[142]：共有来自10个自然图像类的6000幅彩色图像。每幅图像的特征维数为32×32。随后[87]，随机选取6个不同的类为KKCs，其余4个类为UUCs。为了将该数据集扩展到更大的开放性，[87]进一步提出了CIFAR+10、CIFAR+50数据集，使用CIFAR10中的4个非动物类作为KKCs，而CIFAR1005as UUCs中分别选取10个和50个动物类。

Tiny-Imagenet[143]：共有200个类，每个类500幅图像用于训练，50幅图像用于测试，这些图像来自Imagenet ILSVRC 2012数据集[144]，下采样到32×32。随后[87]，随机选取20个不同的类为KKCs，其余180个类为UUCs。

5.2 评估指标

在本节中，我们总结了一些常用的开放集识别评价指标。为了评估OSR场景中的分类器，一个关键因素是考虑UUCs的识别。令 $TP_{i}$ ， $TN_{i}$ ， $FP_{i}$ ， $FN_{i}$ 分别表示第 i 个KKC的真正，真负，假正，假负，其中 i∈{1,2，…，C}， C表示KKC的数量。进一步，设TU和FU分别表示UUCs的正确拒绝和错误拒绝。然后我们可以得到以下评价指标。

5.2.1 OSR的准确率

作为闭集假设下评价分类器的一种常见选择，准确率 A 通常定义为：

OSR问题准确率的一个微小的扩展 $A_{O}$ 是正确的response应该包含KKCs的正确分类以及UUCs的正确拒绝：

但是，由于 $A_{O}$ 表示的是KKCs正确分类和UUCs正确拒绝的总和，因此不能客观评价OSR模型。考虑以下情况：当拒绝性能起主导作用，测试集包含大量UUCs样本和少量KKCs样本， $A_{O}$ 仍然获得高值，尽管事实是KKCs识别器的分类性能很低；反之亦然。此外，[69]还给出了OSR的一种新的精度度量，称为归一化精度(NA)，对KKCs (AKS)和UUCs (AUS)的准确率进行加权：

其中：

$\lambda _{r}$ 为正则化常量， $0<\lambda _{r}<1$ 。

5.2.2 OSR的F-measure

广泛应用于信息检索和机器学习的F-measure 的 F 被定义为精度 P 和召回率 R 的调和平均值：

请注意，当使用F-measure来评估OSR分类器时，不应该把测试中出现的所有UUCs都考虑为一个额外的简单类，并以与多类闭集场景相同的方式获得F。因为一旦进行这样的操作，UUCs样本的正确分类就被认为是真正分类。但是这种真正的正分类是没有意义的，因为我们没有UUCs的代表性样本来训练对应的分类器。[69]通过修改仅对KKCs的精度和召回率的计算，给出了相对合理的OSR的f测度。其中，通过公式(13)分别使用公式(14)和(15)计算宏观F-measure和微观F-measure。

注意，虽然precision和recall只考虑公式(14)和(15)中的KKCs，但F Niand F Pialso考虑了假阴性和假阳性的假UUCs和假KKCs(详细[69])。

Recent Advances in Open Set Recognition: A Survey相关推荐

Recent Advances in Open Set Recognition A survey全文翻译精校
开放集识别的最新进展:综述耿传兴,黄圣君,陈松灿摘要--在现实世界的识别/分类任务中,由于受到各种客观因素的限制,在训练一个识别器或分类器时,通常很难收集训练样本来用尽所有类.更现实的场景是开放集 ...
语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
Deep Multimodal Learning A survey on recent advances and trends读书笔记
Deep Multimodal Learning A survey on recent advances and trends 读书笔记-YH Introduction 在介绍这一节中提出了本文的目的 ...
【综述】Recent Advances and Challenges in Task-oriented Dialog Sytems
本文主要总结对话系统的最新进展及其面临的挑战.除此之外,还会讨论以下三个关键的主题: 提高数据的使用效率,推动对话模型在低资源情况下的效果为策略学习建立多轮动态模型,达到更好的任务完成效果融合领域 ...
论文翻译及笔记 --Visual Place Recognition: A Survey
论文笔记--"Visual Place Recognition: A Survey" Abstract I. INTRODUCTION II. CONCEPT OF PLACE I ...
Deep Facial Expression Recognition: A Survey 笔记
Deep Facial Expression Recognition: A Survey 论文笔记首先是我读这篇论文的目的,我的研究方向是"基于面部表情的情感识别",是偏向于 ...
表情识别综述论文《Deep Facial Expression Recognition: A Survey》中文翻译
本篇博客为论文<Deep Facial Expression Recognition: A Survey>的中文翻译,如有翻译错误请见谅,同时希望您能为我提出改正建议,谢谢! 论文链接:h ...
动作识别综述（Recent Advances in Video-Based Human Action）
动作识别综述(Recent Advances in Video-Based Human Action)## 标题动作识别综述(Recent Advances in Video-Based Human ...
2021 牛津大学：Recent Advances in Reinforcement Learning in Finance
Recent Advances in Reinforcement Learning in Finance 1 本文概述本文是牛津大学2021年对深度强化学习在金融领域内各种决策的应用的综述文章. ...
论文阅读笔记：Recent Advances and Challenges in Task-oriented Dialog Systems
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言 Abstract Introduction Modules and Approaches E ...

Recent Advances in Open Set Recognition: A Survey

Recent Advances in Open Set Recognition: A Survey相关推荐

最新文章

热门文章