文章目录

  • 1 引入
    • 1.1 题目
    • 1.2 摘要
    • 1.3 引用
  • 2 方法
    • 2.1 背景和动机
    • 2.2 正态导向微调模块
      • 2.2.1 正态更新
      • 2.2.2 异常预测微调
    • 2.3 学习目标
      • 2.3.1 正态导向MIL排序损失
      • 2.3.2 正态聚类损失
      • 2.3.3 正态导向三元损失
      • 2.3.4 总损失
  • 3 实验
    • 3.1 数据集和评估标准

1 引入

1.1 题目

2023:用于弱监督视频异常检测的正态导向多示例学习(Normality guided multiple instance learning for weakly supervised video anomaly detection )

1.2 摘要

弱监督视频异常检测 (wVAD) 的目的是基于视频级特征判断正常事件中的异常。已有工作通常使用基于排序损失的多示例学习。然而这些方法依赖于MIL分类器的预测,这是有噪声的,其将影响目标实例的选择,进而降低模型性能。为了克服这个问题,我们提出了正态导向多示例学习 (NG-MIL),其将来自无噪声正常视频的多种正常模式编码,用于构建基于相似性的分类器。通过集成两个分类器的预测,NG-MIL可以微调异常得分,降低训练不稳定性。此外,引入了正态聚类和正态引导的三元组损失约束包内实例,以提高NG-MIL 的效果并增加分类器的可辨别性。

图1:(a) 已有MIL排序模型;(b) NG-MIL。本文通过正态导向微调模块 (Normality guided refinement module, NGRM) 对正常模式的全局特征编码,以改进初始预测

1.3 引用

@inproceedings{Park:2023:26652674,
author      =  {Seongheon Park and Hanjae Kim and Minsu Kim and Dahye Kim and Kwanghoon Sohn},
title       =  {Normality guided multiple instance learning for weeakly supervised video anomaly detection},
booktitle   =  {{WACV}},
pages       =  {2665--2674},
year        =  {2023}
}

2 方法

2.1 背景和动机

多示例排序框架广泛用于弱监督视频异常检测,原因是它可以仅使用视频级标签来判断异常片段。给定一个视频B={vt}t=1TB = \{v_t\}_{t=1}^TB={vt​}t=1T​,其中TTT是不交叠片段的数量。每个实例ft∈RDf_t\in\mathbb{R}^Dft​∈RD通过特征提取器E(⋅)E(\cdot)E(⋅)计算,例如ft=E(vt)∈RDf_t=E(v_t)\in\mathbb{R}^Dft​=E(vt​)∈RD。然后,异常视频被定义为正包Ba={fta}t=1TB^a=\{f_t^a\}_{t=1}^TBa={fta​}t=1T​,正常视频则定义为Bn={ftn}t=1TB^n=\{f_t^n\}_{t=1}^TBn={ftn​}t=1T​。他们的优化目标通常为—通过排序损失最大化正包和负包中top-kkk个实例的异常得分
Lrank=[1−1k∑i=1kc(fia)+1k∑j=1kc(fjn)]+,(1)\tag{1} L_{rank}=\left[ 1 - \frac{1}{k} \sum_{i=1}^k c(f_i^a) + \frac{1}{k} \sum_{j=1}^k c (f_j^n) \right]_+, Lrank​=[1−k1​i=1∑k​c(fia​)+k1​j=1∑k​c(fjn​)]+​,(1)其中[⋅]+[\cdot]_+[⋅]+​是hinge函数,c(fia)c(f_i^a)c(fia​)和c(fjn)c(f_j^n)c(fjn​)分布表示降序排列的第iii和第jjj个异常得分。最小化排序损失可以提升异常实例的判断能力。然而,它依然只是使用在视频级标签下训练的异常分类器来选择top-kkk实例。这将使得异常视频中正常实例的异常分数高置信度,进而在学习过程中累积误差

本文提出正态导向多示例学习 (NG-MIL),其使用正常视频中不同正常模式编码的正态原型 (Normality prototypes) 来微调异常预测。通过将正态原型与实例之间的相似性作为附加分类分数,初始的噪声预测得以微调。接下来将在3.2介绍正态导向微调模块,3.3介绍学习目标,图2则展示了NG-MIL的总体框架。

图2:NG-MIL的总体框架,其包含一个编码器、NGRM,以及MIL分类器

2.2 正态导向微调模块

正态导向微调模块 (NGRM) 使用正态原型P={pm}m=1MP=\{ p_m \}_{m=1}^MP={pm​}m=1M​来微调异常得分,其中每个正态通过一个原型pm∈RD/4p_m \in \mathbb{R}^{D/4}pm​∈RD/4表示。这包含了两个主要部分,正态更新异常预测微调

2.2.1 正态更新

该阶段的目的是捕捉正常视频正态形式的全局特征。为了更新pmp_mpm​,首先将ftnf_t^nftn​投影到f^tn\hat{f}_t^nf^​tn​,以保证与pmp_mpm​的维度一致性。然后计算f^tn\hat{f}_t^nf^​tn​与PPP中所有正态原型的余弦相似性
st,mn=f^tnpm⊤∥f^tn∥∥pm∥,m∈{1,…,M}.(2)\tag{2} s_{t,m}^n=\frac{\hat{f}_t^np_m^\top}{\| \hat{f}_t^n\| \| p_m \|}, \quad m\in\{1,\dots,M\}. st,mn​=∥f^​tn​∥∥pm​∥f^​tn​pm⊤​​,m∈{1,…,M}.(2)这将获得一个大小为T×MT\times MT×M的二维相似性图。每个投影实例都将用于更新其最近的正态原型。令UmU_mUm​表示投影实例索引的集合,其用于更新第mmm个正态原型。投影实例特征均能够被分配到一个正态原型。正态原型的更新如下:
pm←(1−λ)pm+λ1∣Um∣∑t∈Umf^tn,(3)\tag{3} p_m\leftarrow(1-\lambda)p_m+\lambda\frac{1}{|U_m|}\sum_{t\in U_m}\hat{f}_t^n, pm​←(1−λ)pm​+λ∣Um​∣1​t∈Um​∑​f^​tn​,(3)其中λ\lambdaλ表示用于指数加权移动平均的动量。注意正态原型只有在被分配了投影实例特征时才会更新。

2.2.2 异常预测微调

已有方法利用得分最高的实例来区分异常片段,本文将其扩展为,使用正态原型来微调不可信的异常得分:

  1. 计算实例与正态原型的余弦相似度;
  2. 沿MMM个正态原型方向使用softmax函数,并将其作为相似性得分的注意力权重:
    g(fi,P)=∑m=1Mexp(si,m/τ)∑m=1Mexp(si,m/τ)si,m(4)\tag{4} g(f_i,P)=\sum_{m=1}^M\frac{exp(s_{i,m}/\tau)}{\sum_{m=1}^Mexp(s_{i,m}/\tau)}s_{i,m} g(fi​,P)=m=1∑M​∑m=1M​exp(si,m​/τ)exp(si,m​/τ)​si,m​(4)其中τ\tauτ是温度超4参数。进一步,ReLU用于确保ggg的结果非负。注意正常和异常视频均应用这一规则,只是为了简便而省略了aaa和nnn。
  3. 异常得分a(fi,P)a(f_i,P)a(fi​,P)定义为:
    a(fi,P)=1−g(fi,P).(5)\tag{5} a(f_i,P)=1-g(f_i,P). a(fi​,P)=1−g(fi​,P).(5)
  4. 通过集成两个分类器的预测得分,获取微调后的分数
    r(fi)=12(c(fi)+a(fi,P)).(6)\tag{6} r(f_i)=\frac{1}{2}(c(f_i)+a(f_i,P)). r(fi​)=21​(c(fi​)+a(fi​,P)).(6)

2.3 学习目标

我们利用三个损失来优化我们的算法:正态导向MIL排序损失LNG−MILL_{NG-MIL}LNG−MIL​、用于NGRM的两个辅助损失,即分别正则化负包和正包内实例特征的LclstL_{clst}Lclst​和LtriL_{tri}Ltri​。

2.3.1 正态导向MIL排序损失

NG-MIL排序损失如下:
tag7LNG−MIL=[1−1k∑i=1kr(fia)+1k∑j=1kr(fjn)]+,tag{7} L_{NG-MIL}=\left[ 1 - \frac{1}{k} \sum_{i=1}^k r(f_i^a) + \frac{1}{k} \sum_{j=1}^k r(f_j^n) \right]_+, tag7LNG−MIL​=[1−k1​i=1∑k​r(fia​)+k1​j=1∑k​r(fjn​)]+​,其中iii和jjj表示得分rrr的索引,其按照降序排列。与公式1中的MIL排序损失相比,NG-MIL损失允许选择一些高置信度的目标实例,这可以缓解弱标签下的训练不稳定。

2.3.2 正态聚类损失

正态聚类损失促使负包中的每个实例与其最近邻原型之间的聚类:
Lclst=1T∑i=1Tmin⁡pm∈P∥pm−f^in∥22.(8)\tag{8} L_{clst}=\frac{1}{T}\sum_{i=1}^T \min_{p_m \in P} \| p_m - \hat{f}_i^n \|_2^2. Lclst​=T1​i=1∑T​pm​∈Pmin​∥pm​−f^​in​∥22​.(8)该损失可以减少正态原型之间的类间方差,有助于增强NGRM中基于相似性的异常分类的可辨别性。

2.3.3 正态导向三元损失

为了从MIL分类器和基于相似性的分类器中到处准确的分类结果,我们希望异常实例特征与正负包中的正常实例特征相距甚远。然而,公式7仅仅将top-kkk个实例作为优化项,忽略了正包中的正常实例。由于异常视频中的大部分片段包含正常事件,这阻碍了分类器对正常实例周围的异常实例的检测。

对此,引入了正态导向三元损失,其通过一个大的间隔来惩罚正常和异常实例之间的差异:

  1. 采样伪异常集合Ωa={f^1a,…,f^ka}\Omega_a=\{ \hat{f}_1^a,\dots, \hat{f}_k^a \}Ωa​={f^​1a​,…,f^​ka​}和伪正常集合Ωn={f^T−k+1a,…,f^Ta}\Omega_n = \{ \hat{f}_{T - k + 1}^a, \dots, \hat{f}_T^a \}Ωn​={f^​T−k+1a​,…,f^​Ta​},其分别包含了依据公式6微调且降序后得分的来自正包的top-kkk和bottom-kkk个实例样本;
  2. 计算三元损失
    Ltri=1k∑i=1k[∥f^T−i+1a−pj∥22−min⁡f^a∈Ωa∥f^a−pj∥22+γ]+,(9)\tag{9} L_{tri}=\frac{1}{k}\sum_{i=1}^k\left[ \left\| \hat{f}_{T-i+1}^a - p_j \right\|_2^2 - \min_{\hat{f}^a\in \Omega_a} \left\| \hat{f}^a - p_j \right\|_2^2 + \gamma \right]_+, Ltri​=k1​i=1∑k​[​f^​T−i+1a​−pj​​22​−f^​a∈Ωa​min​​f^​a−pj​​22​+γ]+​,(9)其中γ\gammaγ是一个预设间隔,jjj是伪正常集中每个样本最近原型的距离:
    j=arg min⁡m∈M∥f^T−i+1a−pm∥22.(10)\tag{10} j = \argmin_{m \in M} \left\| \hat{f}_{T-i+1}^a -p_m \right\|^2_2. j=m∈Margmin​​f^​T−i+1a​−pm​​22​.(10)

该损失可以通过惩罚三元组(P,Ωn,Ωa)(P,\Omega_n,\Omega_a)(P,Ωn​,Ωa​)来增强正包中正态原型的类内紧凑性和类间可分离性,这将显著增强NGRM微调的质量。

2.3.4 总损失

总损失定义为LNG−MILL_{NG-MIL}LNG−MIL​、LclstL_{clst}Lclst​,以及LtriL_{tri}Ltri​的和。此外添加了时间平滑度Lts=∑i=1T−1(r(fi)−r(fi+1))2L_{ts} = \sum_{i=1}^{T-1}(r(f_i) - r(f_{i+1}))^2Lts​=∑i=1T−1​(r(fi​)−r(fi+1​))2和稀疏约束Ls=∑i=1Tr(fi)L_s=\sum_{i=1}^T r(f_i)Ls​=∑i=1T​r(fi​)。最终的损失为:
Ltotal=LNG−MIL+λtLclst+λcLtri+λr(Lts+Ls).(11)\tag{11} L_{total}=L_{NG-MIL}+\lambda_tL_{clst}+\lambda_cL_{tri}+\lambda_r(L_{ts} + L_s). Ltotal​=LNG−MIL​+λt​Lclst​+λc​Ltri​+λr​(Lts​+Ls​).(11)

3 实验

3.1 数据集和评估标准

论文阅读 (86):Normality Guided Multiple Instance Learning for Weakly Supervised Video Anomaly Detection相关推荐

  1. 论文阅读 (90):Proposal-based Multiple Instance Learning (P-MIL, 2023CVPR)

    文章目录 1 要点 1.1 概述 1.2 一些概念 1.3 主要步骤 2 方法 2.1 候选提案生成 2.2 提案特征提取和分类 2.2.1 周围对比特征提取 2.2.2 分类头 2.3 提案微调 2 ...

  2. <论文阅读03> Clustering-based multiple instance learning with multi-view feature

    文章目录 引入 1 方法概述 2 关键技术 训练阶段 测试阶段 引入   题目:具有多视图特征的基于聚类的多实例学习 (Clustering-based multiple instance learn ...

  3. 论文阅读 (四):MILIS: Multiple Instance Learning with Instance Selection.

    文章目录 引入 学前娱乐 摘要 算法过程 训练 测试 实例选择和分类器学习 A.A.A. 包级特征表示 B.B.B. 初始化实例原型 C.C.C. 分类 D.D.D. 实例更新 引入   论文地址 学 ...

  4. 异常检测论文阅读笔记《MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection》

    MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection 论文来源:CVPR 2021 原论文地址链接 相 ...

  5. 【论文阅读】Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation

    论文标题: Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation 作者信息: 代 ...

  6. 【论文阅读】Reliable and Trustworthy Machine Learning for Health Using Dataset Shift Detection

    系列文章目录 [Dataset Shift] Reliable and Trustworthy Machine Learning for Health Using Dataset Shift Dete ...

  7. 近年多示例论文阅读(2): Multiple instance learning: A survey of problem characteristics and applications

    目录 基本信息 核心思想 基本信息 题目:Multiple instance learning: A survey of problem characteristics and application ...

  8. Visual Tracking with Online Multiple Instance Learning (MIL)目标跟踪论文笔记

    1. 论文信息 论文标题 :Visual Tracking with Online Multiple Instance Learning 论文作者: Boris Babenko,University ...

  9. ObjecT4:On-line multiple instance learning (MIL)学习

    原文链接:http://blog.csdn.net/ikerpeng/article/details/19235391 用到论文,直接看翻译. 文章:Robust object tracking wi ...

最新文章

  1. activity-启动动画的设定(下面弹出出现,弹入下面消失)
  2. STM32项目(七) —— 智能仓库管理系统
  3. python测试报告
  4. 自学c语言中相关知识,设计出医院住院管理系统.要求如下所述:,C语言课程设计题Z目.doc...
  5. etcd3 安装与运维
  6. Linux网络子系统中收包软中断
  7. python--re模块
  8. JavaWeb如何学?
  9. python建模的步骤_python基础教程之Python 建模步骤|python基础教程|python入门|python教程...
  10. 怎样做一份良好的竞品分析?通常有哪些方法?
  11. DSP 2812: 使用C++封装外设时钟控制
  12. 新能源电动汽车的充电
  13. C#正则表达式(来源:侧身向南边博客)
  14. Java必须要掌握的基本问题
  15. 房地产支撑不起大国崛起
  16. 【JSP笔记02】JSP注释、脚本、表达式、JSP三大指令、JSP七大动作的介绍及使用
  17. 从dataguard备份的恢复机制
  18. 强化学习代码实操和讲解(一)
  19. Openwrt如何添加SD_Card?看这里
  20. 车载以太网第二弹-实锤|SOME/IP概述及TC8 SOME/IP 测试实践

热门文章

  1. PAT 天梯赛真题集
  2. 为什么许多公司电脑系统都是win10家庭版而不是专业版?
  3. js前端根据链接生成二维码并转成图片下载
  4. 开关量分布式IO系统可应用施耐德PLC扩展
  5. 元宇宙与我们有哪些联系
  6. 模板方法模式---豆浆机
  7. Rapidshare Tools 28 in 1
  8. BIGEMAP如何使用高程DEM建立三维地图模型(Arcgis ArcScene)
  9. 出售视频会议源码 类似视高 金谷 网动
  10. 先科电视怎么看电视台