文章目录

1 引入
- 1.1 题目
- 1.2 摘要
- 1.3 引用
2 方法
- 2.1 背景和动机
- 2.2 正态导向微调模块
- - 2.2.1 正态更新
  - 2.2.2 异常预测微调
- 2.3 学习目标
- - 2.3.1 正态导向MIL排序损失
  - 2.3.2 正态聚类损失
  - 2.3.3 正态导向三元损失
  - 2.3.4 总损失
3 实验
- 3.1 数据集和评估标准

1 引入

1.1 题目

2023：用于弱监督视频异常检测的正态导向多示例学习(Normality guided multiple instance learning for weakly supervised video anomaly detection )

1.2 摘要

弱监督视频异常检测 (wVAD) 的目的是基于视频级特征判断正常事件中的异常。已有工作通常使用基于排序损失的多示例学习。然而这些方法依赖于MIL分类器的预测，这是有噪声的，其将影响目标实例的选择，进而降低模型性能。为了克服这个问题，我们提出了正态导向多示例学习 (NG-MIL)，其将来自无噪声正常视频的多种正常模式编码，用于构建基于相似性的分类器。通过集成两个分类器的预测，NG-MIL可以微调异常得分，降低训练不稳定性。此外，引入了正态聚类和正态引导的三元组损失约束包内实例，以提高NG-MIL 的效果并增加分类器的可辨别性。

图1：(a) 已有MIL排序模型；(b) NG-MIL。本文通过正态导向微调模块 (Normality guided refinement module, NGRM) 对正常模式的全局特征编码，以改进初始预测

1.3 引用

@inproceedings{Park:2023:26652674,
author      =  {Seongheon Park and Hanjae Kim and Minsu Kim and Dahye Kim and Kwanghoon Sohn},
title       =  {Normality guided multiple instance learning for weeakly supervised video anomaly detection},
booktitle   =  {{WACV}},
pages       =  {2665--2674},
year        =  {2023}
}

2 方法

2.1 背景和动机

多示例排序框架广泛用于弱监督视频异常检测，原因是它可以仅使用视频级标签来判断异常片段。给定一个视频B={vt}t=1TB = \{v_t\}_{t=1}^TB={vt}t=1T，其中TTT是不交叠片段的数量。每个实例ft∈RDf_t\in\mathbb{R}^Dft∈RD通过特征提取器E(⋅)E(\cdot)E(⋅)计算，例如ft=E(vt)∈RDf_t=E(v_t)\in\mathbb{R}^Dft=E(vt)∈RD。然后，异常视频被定义为正包Ba={fta}t=1TB^a=\{f_t^a\}_{t=1}^TBa={fta}t=1T，正常视频则定义为Bn={ftn}t=1TB^n=\{f_t^n\}_{t=1}^TBn={ftn}t=1T。他们的优化目标通常为—通过排序损失最大化正包和负包中top-kkk个实例的异常得分：
Lrank=[1−1k∑i=1kc(fia)+1k∑j=1kc(fjn)]+,(1)\tag{1} L_{rank}=\left[ 1 - \frac{1}{k} \sum_{i=1}^k c(f_i^a) + \frac{1}{k} \sum_{j=1}^k c (f_j^n) \right]_+, Lrank=[1−k1i=1∑kc(fia)+k1j=1∑kc(fjn)]+,(1)其中[⋅]+[\cdot]_+[⋅]+是hinge函数，c(fia)c(f_i^a)c(fia)和c(fjn)c(f_j^n)c(fjn)分布表示降序排列的第iii和第jjj个异常得分。最小化排序损失可以提升异常实例的判断能力。然而，它依然只是使用在视频级标签下训练的异常分类器来选择top-kkk实例。这将使得异常视频中正常实例的异常分数高置信度，进而在学习过程中累积误差。

本文提出正态导向多示例学习 (NG-MIL)，其使用正常视频中不同正常模式编码的正态原型 (Normality prototypes) 来微调异常预测。通过将正态原型与实例之间的相似性作为附加分类分数，初始的噪声预测得以微调。接下来将在3.2介绍正态导向微调模块，3.3介绍学习目标，图2则展示了NG-MIL的总体框架。

图2：NG-MIL的总体框架，其包含一个编码器、NGRM，以及MIL分类器

2.2 正态导向微调模块

正态导向微调模块 (NGRM) 使用正态原型P={pm}m=1MP=\{ p_m \}_{m=1}^MP={pm}m=1M来微调异常得分，其中每个正态通过一个原型pm∈RD/4p_m \in \mathbb{R}^{D/4}pm∈RD/4表示。这包含了两个主要部分，正态更新和异常预测微调。

2.2.1 正态更新

该阶段的目的是捕捉正常视频正态形式的全局特征。为了更新pmp_mpm，首先将ftnf_t^nftn投影到f^tn\hat{f}_t^nf^tn，以保证与pmp_mpm的维度一致性。然后计算f^tn\hat{f}_t^nf^tn与PPP中所有正态原型的余弦相似性：
st,mn=f^tnpm⊤∥f^tn∥∥pm∥,m∈{1,…,M}.(2)\tag{2} s_{t,m}^n=\frac{\hat{f}_t^np_m^\top}{\| \hat{f}_t^n\| \| p_m \|}, \quad m\in\{1,\dots,M\}. st,mn=∥f^tn∥∥pm∥f^tnpm⊤,m∈{1,…,M}.(2)这将获得一个大小为T×MT\times MT×M的二维相似性图。每个投影实例都将用于更新其最近的正态原型。令UmU_mUm表示投影实例索引的集合，其用于更新第mmm个正态原型。投影实例特征均能够被分配到一个正态原型。正态原型的更新如下：
pm←(1−λ)pm+λ1∣Um∣∑t∈Umf^tn,(3)\tag{3} p_m\leftarrow(1-\lambda)p_m+\lambda\frac{1}{|U_m|}\sum_{t\in U_m}\hat{f}_t^n, pm←(1−λ)pm+λ∣Um∣1t∈Um∑f^tn,(3)其中λ\lambdaλ表示用于指数加权移动平均的动量。注意正态原型只有在被分配了投影实例特征时才会更新。

2.2.2 异常预测微调

已有方法利用得分最高的实例来区分异常片段，本文将其扩展为，使用正态原型来微调不可信的异常得分：

计算实例与正态原型的余弦相似度；
沿MMM个正态原型方向使用softmax函数，并将其作为相似性得分的注意力权重：
g(fi,P)=∑m=1Mexp(si,m/τ)∑m=1Mexp(si,m/τ)si,m(4)\tag{4} g(f_i,P)=\sum_{m=1}^M\frac{exp(s_{i,m}/\tau)}{\sum_{m=1}^Mexp(s_{i,m}/\tau)}s_{i,m} g(fi,P)=m=1∑M∑m=1Mexp(si,m/τ)exp(si,m/τ)si,m(4)其中τ\tauτ是温度超4参数。进一步，ReLU用于确保ggg的结果非负。注意正常和异常视频均应用这一规则，只是为了简便而省略了aaa和nnn。
异常得分a(fi,P)a(f_i,P)a(fi,P)定义为：
a(fi,P)=1−g(fi,P).(5)\tag{5} a(f_i,P)=1-g(f_i,P). a(fi,P)=1−g(fi,P).(5)
通过集成两个分类器的预测得分，获取微调后的分数：
r(fi)=12(c(fi)+a(fi,P)).(6)\tag{6} r(f_i)=\frac{1}{2}(c(f_i)+a(f_i,P)). r(fi)=21(c(fi)+a(fi,P)).(6)

2.3 学习目标

我们利用三个损失来优化我们的算法：正态导向MIL排序损失LNG−MILL_{NG-MIL}LNG−MIL、用于NGRM的两个辅助损失，即分别正则化负包和正包内实例特征的LclstL_{clst}Lclst和LtriL_{tri}Ltri。

2.3.1 正态导向MIL排序损失

NG-MIL排序损失如下：
tag7LNG−MIL=[1−1k∑i=1kr(fia)+1k∑j=1kr(fjn)]+,tag{7} L_{NG-MIL}=\left[ 1 - \frac{1}{k} \sum_{i=1}^k r(f_i^a) + \frac{1}{k} \sum_{j=1}^k r(f_j^n) \right]_+, tag7LNG−MIL=[1−k1i=1∑kr(fia)+k1j=1∑kr(fjn)]+,其中iii和jjj表示得分rrr的索引，其按照降序排列。与公式1中的MIL排序损失相比，NG-MIL损失允许选择一些高置信度的目标实例，这可以缓解弱标签下的训练不稳定。

2.3.2 正态聚类损失

正态聚类损失促使负包中的每个实例与其最近邻原型之间的聚类：
Lclst=1T∑i=1Tmin⁡pm∈P∥pm−f^in∥22.(8)\tag{8} L_{clst}=\frac{1}{T}\sum_{i=1}^T \min_{p_m \in P} \| p_m - \hat{f}_i^n \|_2^2. Lclst=T1i=1∑Tpm∈Pmin∥pm−f^in∥22.(8)该损失可以减少正态原型之间的类间方差，有助于增强NGRM中基于相似性的异常分类的可辨别性。

2.3.3 正态导向三元损失

为了从MIL分类器和基于相似性的分类器中到处准确的分类结果，我们希望异常实例特征与正负包中的正常实例特征相距甚远。然而，公式7仅仅将top-kkk个实例作为优化项，忽略了正包中的正常实例。由于异常视频中的大部分片段包含正常事件，这阻碍了分类器对正常实例周围的异常实例的检测。

对此，引入了正态导向三元损失，其通过一个大的间隔来惩罚正常和异常实例之间的差异：

采样伪异常集合Ωa={f^1a,…,f^ka}\Omega_a=\{ \hat{f}_1^a,\dots, \hat{f}_k^a \}Ωa={f^1a,…,f^ka}和伪正常集合Ωn={f^T−k+1a,…,f^Ta}\Omega_n = \{ \hat{f}_{T - k + 1}^a, \dots, \hat{f}_T^a \}Ωn={f^T−k+1a,…,f^Ta}，其分别包含了依据公式6微调且降序后得分的来自正包的top-kkk和bottom-kkk个实例样本；
计算三元损失：
Ltri=1k∑i=1k[∥f^T−i+1a−pj∥22−min⁡f^a∈Ωa∥f^a−pj∥22+γ]+,(9)\tag{9} L_{tri}=\frac{1}{k}\sum_{i=1}^k\left[ \left\| \hat{f}_{T-i+1}^a - p_j \right\|_2^2 - \min_{\hat{f}^a\in \Omega_a} \left\| \hat{f}^a - p_j \right\|_2^2 + \gamma \right]_+, Ltri=k1i=1∑k[f^T−i+1a−pj22−f^a∈Ωaminf^a−pj22+γ]+,(9)其中γ\gammaγ是一个预设间隔，jjj是伪正常集中每个样本最近原型的距离：
j=arg min⁡m∈M∥f^T−i+1a−pm∥22.(10)\tag{10} j = \argmin_{m \in M} \left\| \hat{f}_{T-i+1}^a -p_m \right\|^2_2. j=m∈Margminf^T−i+1a−pm22.(10)

该损失可以通过惩罚三元组(P,Ωn,Ωa)(P,\Omega_n,\Omega_a)(P,Ωn,Ωa)来增强正包中正态原型的类内紧凑性和类间可分离性，这将显著增强NGRM微调的质量。

2.3.4 总损失

总损失定义为LNG−MILL_{NG-MIL}LNG−MIL、LclstL_{clst}Lclst，以及LtriL_{tri}Ltri的和。此外添加了时间平滑度Lts=∑i=1T−1(r(fi)−r(fi+1))2L_{ts} = \sum_{i=1}^{T-1}(r(f_i) - r(f_{i+1}))^2Lts=∑i=1T−1(r(fi)−r(fi+1))2和稀疏约束Ls=∑i=1Tr(fi)L_s=\sum_{i=1}^T r(f_i)Ls=∑i=1Tr(fi)。最终的损失为：
Ltotal=LNG−MIL+λtLclst+λcLtri+λr(Lts+Ls).(11)\tag{11} L_{total}=L_{NG-MIL}+\lambda_tL_{clst}+\lambda_cL_{tri}+\lambda_r(L_{ts} + L_s). Ltotal=LNG−MIL+λtLclst+λcLtri+λr(Lts+Ls).(11)

3 实验

3.1 数据集和评估标准

论文阅读 (86)：Normality Guided Multiple Instance Learning for Weakly Supervised Video Anomaly Detection相关推荐

论文阅读 (90)：Proposal-based Multiple Instance Learning (P-MIL, 2023CVPR)
文章目录 1 要点 1.1 概述 1.2 一些概念 1.3 主要步骤 2 方法 2.1 候选提案生成 2.2 提案特征提取和分类 2.2.1 周围对比特征提取 2.2.2 分类头 2.3 提案微调 2 ...
＜论文阅读03＞ Clustering-based multiple instance learning with multi-view feature
文章目录引入 1 方法概述 2 关键技术训练阶段测试阶段引入题目:具有多视图特征的基于聚类的多实例学习 (Clustering-based multiple instance learn ...
论文阅读 (四)：MILIS: Multiple Instance Learning with Instance Selection.
文章目录引入学前娱乐摘要算法过程训练测试实例选择和分类器学习 A.A.A. 包级特征表示 B.B.B. 初始化实例原型 C.C.C. 分类 D.D.D. 实例更新引入论文地址学 ...
异常检测论文阅读笔记《MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection》
MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection 论文来源:CVPR 2021 原论文地址链接相 ...
【论文阅读】Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation
论文标题: Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation 作者信息: 代 ...
【论文阅读】Reliable and Trustworthy Machine Learning for Health Using Dataset Shift Detection
系列文章目录 [Dataset Shift] Reliable and Trustworthy Machine Learning for Health Using Dataset Shift Dete ...
近年多示例论文阅读(2)： Multiple instance learning: A survey of problem characteristics and applications
目录基本信息核心思想基本信息题目:Multiple instance learning: A survey of problem characteristics and application ...
Visual Tracking with Online Multiple Instance Learning (MIL)目标跟踪论文笔记
1. 论文信息论文标题 :Visual Tracking with Online Multiple Instance Learning 论文作者: Boris Babenko,University ...
ObjecT4：On-line multiple instance learning （MIL）学习
原文链接:http://blog.csdn.net/ikerpeng/article/details/19235391 用到论文,直接看翻译. 文章:Robust object tracking wi ...

论文阅读 (86)：Normality Guided Multiple Instance Learning for Weakly Supervised Video Anomaly Detection