摘要概述:引言:尽管现在大多数异常检测研究都假设只有正常的训练样本可用,但是实际应用中会有一些异常的样本,就像医学中的病变图像,这些异常的样本对它们相关领域很有价值,可以用来改进这些领域中相关模型对相似异常的检测。问题:但是现在又有个问题,因为实际生活中的异常很多,在训练过程中看到的这些异常一般不能说明所有可能的异常类别,这就导致这些模型在对不知到的异常方面没有好的泛化能力(泛化指学习到的模型对未知数据的预测能力)。本文做了什么:本文讨论了开放集监督异常检测,其中我们使用异常样本学习检测模型,目的是检测可见异常(“灰天鹅”)和不可见异常(“黑天鹅”)(灰黑天鹅解释在末尾关键信息)。我们提出了一种新的方法,通过已知异常、伪异常和潜在残差异常(即,与潜在空间中的正常数据相比,具有异常残差的样本)来学习异常的分离表示,最后两种异常被设计为检测不可见的异常。效果比较好:在9个真实世界异常检测数据集上进行的大量实验表明,我们的模型在不同环境下检测可见和不可见的异常方面具有优异的性能。



1.背景

异常检测(AD)旨在识别不符合预期模式的异常样本(实际运用举例:医学图像分析中的视觉检测)。现有的大多数异常检测方法都是无监督的,他们假设只有正常的训练样本可用,即无异常的训练数据,因为很难收集大规模异常数据。然而,在许多相关的实际应用中,通常可以获得少量(例如,一到多个)标记的异常示例,例如随机质量检查期间确定的一些缺陷样本、放射科医生在日常医疗筛查中确认的病变图像等。这些异常示例提供了有关特定应用异常的宝贵知识,但无监督的探测器无法利用它们。由于缺乏关于异常的知识,在无监督模型中学习到的特征不足以区分异常(尤其是一些具有挑战性的异常)和正常数据,如图1中两个MVTec AD缺陷检测数据集上的KDAD(最新最先进的(SotA)无监督方法)的结果所示。

(SotA无监督(KDAD)和有监督(DevNet)模型学习特征的t-SNE可视化,我们的开放集监督模型(DRA)基于两个MVTEC AD数据集(上面为皮革,下面为瓷砖)的测试数据。KDAD仅使用正常数据进行训练,除了正常数据外,使用所见异常分类中的十个样本,学习比DevNet和DRA更少的鉴别特征。DevNet容易过度拟合所见异常,无法将未见异常与正常数据区分开来,而DRA有效地缓解了这一问题。)

前人进行的探索:近年来,有一些研究探索了一种监督检测范式,旨在利用这些小的、易于访问的异常数据——以发生过的例外情况/事件,也称灰天鹅——异常通知检测模型。这一行中的当前方法侧重于使用一类度量学习来拟合这些异常示例,将异常作为负样本或以单侧异常为中心的偏差损失。尽管异常数据量有限,但它们在检测与训练期间看到的异常示例相似的异常方面取得了很大的改进。存在的问题:然而,这些可见的异常通常不能说明所有可能的异常类别,因为1.异常本身未知,2.可见和不可见的异常类别可能彼此有很大不同(例如,色斑的缺陷特征与皮革缺陷检查中的褶皱和切口的缺陷特征非常不同。)因此,如图1中DevNet的结果所示,这些模型可能会过度拟合可见异常,无法推广到未知/未知异常类别罕见和以前未知的异常情况/事件,即黑天鹅,其中DevNet在检测可见异常方面优于KDAD,但无法区分未知异常与正常样本。事实上,这些有监督的模型可能会因给定的异常示例而产生偏差,并且在检测不可见异常方面的效果不如无监督检测器。

本文的创新点以及优势:为了解决这个问题,本文研究了开放集监督异常检测,其中检测模型使用开放集环境中的小异常示例进行训练,即目标是检测可见的异常(“灰天鹅”)和不可见的异常(“黑天鹅”)。为此,我们提出了一种新的异常检测方法,称为DRA,该方法学习异常的分离表示,以实现广义检测。特别是,我们将无界异常分为三大类:1.类似于有限可见异常的异常,2.类似于数据扩充或外部数据源产生的伪异常的异常,3.以及在一些基于潜在残差的复合特征空间中可检测到的不可见异常。我们进一步设计了一个多头网络,用不同的头来学习这三种分离的异常的每一种类型。在这样做的过程中,我们的模型学习了各种正态性表示,而不仅仅是已知的异常,这可以从正常数据中区分可见和不可见的异常,如图1所示。

贡献:

1.为了解决开放集监督AD(异常检测),我们建议学习由可见异常、伪异常和基于潜在残差的异常区分的异常表示。这学习了多样化的异常表示,将寻求的异常集扩展到可见和不可见的异常。

2.我们提出了一种新的基于多头神经网络的模型DRA,用于学习分离的异常表示,每个头专门用于捕获一种特定类型的异常。

3.我们进一步引入了一个基于潜在残差的异常学习模块,该模块根据正常样本和异常样本的中间特征映射之间的残差来学习异常。这有助于学习区分性复合特征,以检测原始非复合特征空间中无法检测到的硬异常(例如,看不见的异常)。

4.我们对来自工业检测、基于月球车的行星探测和医学图像分析的9个实际应用数据集进行了全面的实验。结果表明,我们的模型在不同集合中的性能大大超过了五个SotA竞争模型。研究结果还为这一重要新兴方向的未来工作建立了新的基线。



2.问题(此处列出前言部分的问题)

1.由于缺乏关于异常的知识,在无监督模型中学习到的特征不足以区分异常(尤其是一些具有挑战性的异常)和正常数据

2.前人探索后的问题:这些可见的异常通常不能说明所有可能的异常类别

3.DevNet这些模型可能会过度拟合可见异常,无法推广到未知/未知异常类别罕见和以前未知的异常情况/事件,即黑天鹅,其中DevNet在检测可见异常方面优于KDAD,但无法区分未知异常与正常样本。事实上,这些有监督的模型可能会因给定的异常示例而产生偏差,并且在检测不可见异常方面的效果不如无监督检测器。

3.论文要进行的工作

(我们提议的框架概述。(a) 介绍了学习三种分离异常的高级程序,(b) 显示平原中的异常特征学习SEED和伪异常学习头的(非复合)特征空间,和(c)显示了我们在复合特征空间中提出的潜在残差异常学习的框架)

研究问题:开放集监督的AD

问题陈述: 给定一组训练样本,包含两部分,一部分是正常样本,还有一部分是一个远小与正常样本的注释异常集,它提供了一些关于异常的知识。这些异常样本属于可见异常,还存在其它可见或者不可见的异常。

现在的目标是:通过学习异常评分函数g来检测看到和未看到的异常类。X → R,对已见和未见的异常现象都赋予比正常样本更大的异常得分。(即异常得分大于正常得分)

4.方法与步骤:

我们使用异常样本学习检测模型,目的是检测可见异常(“灰天鹅”)和不可见异常(“黑天鹅”)。我们提出了一种新的方法,称为DRA,该方法学习异常的分离表示,以实现广义检测。

我们将无界的异常情况分解为三个大类:与有限的可见异常情况相似的异常情况、与从数据增强或外部数据源创建的伪异常情况相似的异常情况,以及在一些基于潜在残差的复合特征空间中可以检测到的未见异常情况

设计了一个多头网络,用单独的头强制学习这三种分离的异常的每一种类型:

1.DRA利用基于top-K多实例学习(MIL)的方法来有效地学习所看到的异常情况

2.有两种有效的方法来创建这种伪异常,包括基于数据增强的方法和离群点暴露

3.我们利用异常现象的特征和正常特征表征之间的差异来学习这种辨别性的复合特征。更具体地说,我们提出了潜在的残差异常学习,即根据样本的特征残差与一些参考图像(正常图像)的特征相比较,在学习的特征空间中学习异常的分数。

训练和推理:

训练阶段:4个相互独立的头共享和共同训练,参数独立优化。 默认使用一种叫做偏差损失的损失函数来实现损失函数。

推理阶段:给定一个测试图像,我们将所有来自异常学习头(gs、gp和gr)的分数相加,然后减去来自常态头gn的分数,得到其异常分数

数据集:使用了9个具有真实异常情况的不同数据集

DRA利用ResNet-18作为特征学习骨干网络




知识点:

  1. 灰天鹅:发生过的事件;黑天鹅:未发生过的或者很罕见的异常事件
  2. 无界异常分为三大类:类似于有限可见异常的异常,类似于数据扩充或外部数据源产生的伪异常的异常 ,以及在一些基于潜在残差的复合特征空间中可检测到的不可见异常
  3. 无监督的方法:大多数现有的异常检测方法,如自动编码器基方法、GAN基方法、自监督方法和一类分类方法,都假设在训练期间只能访问正常数据。缺点:尽管它们没有偏向所见异常的风险,但由于缺乏对真实异常的了解,它们很难将异常与正常样本区分开来。
  4. 有监督的方法:最近出现的一个方向是监督(或半监督)异常检测,通过利用小异常示例学习异常通知模型来缓解异常信息的缺乏。这是通过将异常作为负样本或单侧异常集中偏差损失的一类度量学习来实现的。然而,这些模型在很大程度上依赖于所见的异常,并且可能过度拟合已知的异常。有的模型中引入了强化学习方法,以缓解这种过度拟合问题,但它假设存在大规模未标记数据,并且这些数据中存在未发现的异常。监督异常检测与不平衡分类相似,因为它们都检测带有少量标记示例的稀有类。缺点:然而,由于异常的无约束性和不可知性,异常检测本质上是一个开放集任务,而不平衡分类任务通常是一个封闭集问题。
  5. 从分布中学习:分布外(OOD)检测和开集识别是与我们相关的任务。然而,它们的目标是在检测OOD/不确定样本时保证准确的多类内插分类,而我们的任务专门集中于异常检测。此外,尽管使用了异常值暴露等伪异常显示了有效的性能,缺点:但这两项任务中的当前模型也被假定为无法访问任何真实的异常样本。

Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection(捕捉灰天鹅和黑天鹅:开放集监督异常检测)相关推荐

  1. Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection

    Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection 摘要 尽管大多数现有的异常检测研究只假设有正常的训练 ...

  2. 【论文笔记】Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection*

    论文 论文题目:Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection* 收录:CVPR2022 论文地址: ...

  3. 【阅读笔记】《Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection》

    Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection 文章目录 Catching Both Gray an ...

  4. 【Paper】A Comparative Evaluation of Unsupervised Anomaly Detection Algorithms for Multivariate Data

    论文原文:HTML 论文年份:2020 论文被引:396(2020/10/03) 696(2022/03/26) 文章目录 Abstract Introduction Categorization o ...

  5. 【读论文04】CVPR2022选读

    [2203.14506]Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection 关键点: DRA(disen ...

  6. 【论文合集】Awesome Anomaly Detection

    github:GitHub - bitzhangcy/Deep-Learning-Based-Anomaly-Detection Anomaly Detection: The process of d ...

  7. php如何减缓gc_管理信息传播-使用数据科学减缓错误信息的传播

    php如何减缓gc With more people now than ever relying on social media to stay updated on current events, ...

  8. 自动驾驶中图像与点云融合的深度学习研究综述

    Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review IEEE TRANSACTIONS ON ...

  9. CVPR2019论文题目中文列表

    英文题目 中文题目   Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 少镜头学习中用类别遍历法寻 ...

  10. BD、人脸识别、KATA、Gray码--程序员杂志文摘

    2013年  2月版:大数据:www.programmer.com.cn/14655/ 2013年12月版:http://www.csdn.net/article/2013-11-26/2817621 ...

最新文章

  1. 【分析】2014移动互联网数据报告(终极版必收!)
  2. jQuery手机菜单
  3. 【Python】Python数据分析来解析,2021年度最具“钱景”的大学专业
  4. jquery-confirm
  5. 2020阿里云双12-企业飞天会员年终盛典全攻略
  6. Python List:合并多个list,listd的合并
  7. python爬取CVPR2018关于detection的论文
  8. 移动标准差以及移动平均值(movstd、movmean)
  9. 海量数据中找top K专题
  10. 【python】-- Django ModelForm
  11. 钉钉小程序添加vant组件库
  12. 回不去的童年,归不了的故乡
  13. 深度学习基础--输出层的神经元数应该与分类数匹配(分类数大于等于2)则是一个监督学习任务,对吗?
  14. tilemap软件使用_使用Tilemap的等距2D环境
  15. 四川托普计算机职业学校环境,四川四川托普计算机职业学校
  16. python怎么获取向量中非零元素的行号
  17. 在宝塔一键部署java项目时遇到的一些问题
  18. 驱动开发之 LED(for mini2440)
  19. 车票购买最低消费问题java_浅析12306售票算法(java版)
  20. 日语二级语法汇总(part13/16)

热门文章

  1. Educational Codeforces Round 91 (Rated for Div. 2) D. Berserk And Fireball
  2. 明星证券化之殇|一点财经
  3. push notifications step1 打不开
  4. 学习blus老师js(1)--基础
  5. 寒霜3引擎再造经典极品飞车18
  6. python123新版个人所得税计算请输入正数_Python训练的数字组合,个人所得税计算,完全平方数,python,之...
  7. 基于TCP的网络应用程序
  8. 基于lis3dh的简易倾角仪c源码_轻松应对并发问题,简易的火车票售票系统,Newbe.Claptrap 框架用例,第一步 — 业务分析...
  9. 【美化§§小清新的身影xp电脑主题】
  10. 腾讯笔试题——java题总结无答案