论文阅读 (86):Normality Guided Multiple Instance Learning for Weakly Supervised Video Anomaly Detection
文章目录
- 1 引入
- 1.1 题目
- 1.2 摘要
- 1.3 引用
- 2 方法
- 2.1 背景和动机
- 2.2 正态导向微调模块
- 2.2.1 正态更新
- 2.2.2 异常预测微调
- 2.3 学习目标
- 2.3.1 正态导向MIL排序损失
- 2.3.2 正态聚类损失
- 2.3.3 正态导向三元损失
- 2.3.4 总损失
- 3 实验
- 3.1 数据集和评估标准
1 引入
1.1 题目
2023:用于弱监督视频异常检测的正态导向多示例学习(Normality guided multiple instance learning for weakly supervised video anomaly detection )
1.2 摘要
弱监督视频异常检测 (wVAD) 的目的是基于视频级特征判断正常事件中的异常。已有工作通常使用基于排序损失的多示例学习。然而这些方法依赖于MIL分类器的预测,这是有噪声的,其将影响目标实例的选择,进而降低模型性能。为了克服这个问题,我们提出了正态导向多示例学习 (NG-MIL),其将来自无噪声正常视频的多种正常模式编码,用于构建基于相似性的分类器。通过集成两个分类器的预测,NG-MIL可以微调异常得分,降低训练不稳定性。此外,引入了正态聚类和正态引导的三元组损失约束包内实例,以提高NG-MIL 的效果并增加分类器的可辨别性。
图1:(a) 已有MIL排序模型;(b) NG-MIL。本文通过正态导向微调模块 (Normality guided refinement module, NGRM) 对正常模式的全局特征编码,以改进初始预测
1.3 引用
@inproceedings{Park:2023:26652674,
author = {Seongheon Park and Hanjae Kim and Minsu Kim and Dahye Kim and Kwanghoon Sohn},
title = {Normality guided multiple instance learning for weeakly supervised video anomaly detection},
booktitle = {{WACV}},
pages = {2665--2674},
year = {2023}
}
2 方法
2.1 背景和动机
多示例排序框架广泛用于弱监督视频异常检测,原因是它可以仅使用视频级标签来判断异常片段。给定一个视频B={vt}t=1TB = \{v_t\}_{t=1}^TB={vt}t=1T,其中TTT是不交叠片段的数量。每个实例ft∈RDf_t\in\mathbb{R}^Dft∈RD通过特征提取器E(⋅)E(\cdot)E(⋅)计算,例如ft=E(vt)∈RDf_t=E(v_t)\in\mathbb{R}^Dft=E(vt)∈RD。然后,异常视频被定义为正包Ba={fta}t=1TB^a=\{f_t^a\}_{t=1}^TBa={fta}t=1T,正常视频则定义为Bn={ftn}t=1TB^n=\{f_t^n\}_{t=1}^TBn={ftn}t=1T。他们的优化目标通常为—通过排序损失最大化正包和负包中top-kkk个实例的异常得分:
Lrank=[1−1k∑i=1kc(fia)+1k∑j=1kc(fjn)]+,(1)\tag{1} L_{rank}=\left[ 1 - \frac{1}{k} \sum_{i=1}^k c(f_i^a) + \frac{1}{k} \sum_{j=1}^k c (f_j^n) \right]_+, Lrank=[1−k1i=1∑kc(fia)+k1j=1∑kc(fjn)]+,(1)其中[⋅]+[\cdot]_+[⋅]+是hinge函数,c(fia)c(f_i^a)c(fia)和c(fjn)c(f_j^n)c(fjn)分布表示降序排列的第iii和第jjj个异常得分。最小化排序损失可以提升异常实例的判断能力。然而,它依然只是使用在视频级标签下训练的异常分类器来选择top-kkk实例。这将使得异常视频中正常实例的异常分数高置信度,进而在学习过程中累积误差。
本文提出正态导向多示例学习 (NG-MIL),其使用正常视频中不同正常模式编码的正态原型 (Normality prototypes) 来微调异常预测。通过将正态原型与实例之间的相似性作为附加分类分数,初始的噪声预测得以微调。接下来将在3.2介绍正态导向微调模块,3.3介绍学习目标,图2则展示了NG-MIL的总体框架。
图2:NG-MIL的总体框架,其包含一个编码器、NGRM,以及MIL分类器
2.2 正态导向微调模块
正态导向微调模块 (NGRM) 使用正态原型P={pm}m=1MP=\{ p_m \}_{m=1}^MP={pm}m=1M来微调异常得分,其中每个正态通过一个原型pm∈RD/4p_m \in \mathbb{R}^{D/4}pm∈RD/4表示。这包含了两个主要部分,正态更新和异常预测微调。
2.2.1 正态更新
该阶段的目的是捕捉正常视频正态形式的全局特征。为了更新pmp_mpm,首先将ftnf_t^nftn投影到f^tn\hat{f}_t^nf^tn,以保证与pmp_mpm的维度一致性。然后计算f^tn\hat{f}_t^nf^tn与PPP中所有正态原型的余弦相似性:
st,mn=f^tnpm⊤∥f^tn∥∥pm∥,m∈{1,…,M}.(2)\tag{2} s_{t,m}^n=\frac{\hat{f}_t^np_m^\top}{\| \hat{f}_t^n\| \| p_m \|}, \quad m\in\{1,\dots,M\}. st,mn=∥f^tn∥∥pm∥f^tnpm⊤,m∈{1,…,M}.(2)这将获得一个大小为T×MT\times MT×M的二维相似性图。每个投影实例都将用于更新其最近的正态原型。令UmU_mUm表示投影实例索引的集合,其用于更新第mmm个正态原型。投影实例特征均能够被分配到一个正态原型。正态原型的更新如下:
pm←(1−λ)pm+λ1∣Um∣∑t∈Umf^tn,(3)\tag{3} p_m\leftarrow(1-\lambda)p_m+\lambda\frac{1}{|U_m|}\sum_{t\in U_m}\hat{f}_t^n, pm←(1−λ)pm+λ∣Um∣1t∈Um∑f^tn,(3)其中λ\lambdaλ表示用于指数加权移动平均的动量。注意正态原型只有在被分配了投影实例特征时才会更新。
2.2.2 异常预测微调
已有方法利用得分最高的实例来区分异常片段,本文将其扩展为,使用正态原型来微调不可信的异常得分:
- 计算实例与正态原型的余弦相似度;
- 沿MMM个正态原型方向使用softmax函数,并将其作为相似性得分的注意力权重:
g(fi,P)=∑m=1Mexp(si,m/τ)∑m=1Mexp(si,m/τ)si,m(4)\tag{4} g(f_i,P)=\sum_{m=1}^M\frac{exp(s_{i,m}/\tau)}{\sum_{m=1}^Mexp(s_{i,m}/\tau)}s_{i,m} g(fi,P)=m=1∑M∑m=1Mexp(si,m/τ)exp(si,m/τ)si,m(4)其中τ\tauτ是温度超4参数。进一步,ReLU用于确保ggg的结果非负。注意正常和异常视频均应用这一规则,只是为了简便而省略了aaa和nnn。 - 异常得分a(fi,P)a(f_i,P)a(fi,P)定义为:
a(fi,P)=1−g(fi,P).(5)\tag{5} a(f_i,P)=1-g(f_i,P). a(fi,P)=1−g(fi,P).(5) - 通过集成两个分类器的预测得分,获取微调后的分数:
r(fi)=12(c(fi)+a(fi,P)).(6)\tag{6} r(f_i)=\frac{1}{2}(c(f_i)+a(f_i,P)). r(fi)=21(c(fi)+a(fi,P)).(6)
2.3 学习目标
我们利用三个损失来优化我们的算法:正态导向MIL排序损失LNG−MILL_{NG-MIL}LNG−MIL、用于NGRM的两个辅助损失,即分别正则化负包和正包内实例特征的LclstL_{clst}Lclst和LtriL_{tri}Ltri。
2.3.1 正态导向MIL排序损失
NG-MIL排序损失如下:
tag7LNG−MIL=[1−1k∑i=1kr(fia)+1k∑j=1kr(fjn)]+,tag{7} L_{NG-MIL}=\left[ 1 - \frac{1}{k} \sum_{i=1}^k r(f_i^a) + \frac{1}{k} \sum_{j=1}^k r(f_j^n) \right]_+, tag7LNG−MIL=[1−k1i=1∑kr(fia)+k1j=1∑kr(fjn)]+,其中iii和jjj表示得分rrr的索引,其按照降序排列。与公式1中的MIL排序损失相比,NG-MIL损失允许选择一些高置信度的目标实例,这可以缓解弱标签下的训练不稳定。
2.3.2 正态聚类损失
正态聚类损失促使负包中的每个实例与其最近邻原型之间的聚类:
Lclst=1T∑i=1Tminpm∈P∥pm−f^in∥22.(8)\tag{8} L_{clst}=\frac{1}{T}\sum_{i=1}^T \min_{p_m \in P} \| p_m - \hat{f}_i^n \|_2^2. Lclst=T1i=1∑Tpm∈Pmin∥pm−f^in∥22.(8)该损失可以减少正态原型之间的类间方差,有助于增强NGRM中基于相似性的异常分类的可辨别性。
2.3.3 正态导向三元损失
为了从MIL分类器和基于相似性的分类器中到处准确的分类结果,我们希望异常实例特征与正负包中的正常实例特征相距甚远。然而,公式7仅仅将top-kkk个实例作为优化项,忽略了正包中的正常实例。由于异常视频中的大部分片段包含正常事件,这阻碍了分类器对正常实例周围的异常实例的检测。
对此,引入了正态导向三元损失,其通过一个大的间隔来惩罚正常和异常实例之间的差异:
- 采样伪异常集合Ωa={f^1a,…,f^ka}\Omega_a=\{ \hat{f}_1^a,\dots, \hat{f}_k^a \}Ωa={f^1a,…,f^ka}和伪正常集合Ωn={f^T−k+1a,…,f^Ta}\Omega_n = \{ \hat{f}_{T - k + 1}^a, \dots, \hat{f}_T^a \}Ωn={f^T−k+1a,…,f^Ta},其分别包含了依据公式6微调且降序后得分的来自正包的top-kkk和bottom-kkk个实例样本;
- 计算三元损失:
Ltri=1k∑i=1k[∥f^T−i+1a−pj∥22−minf^a∈Ωa∥f^a−pj∥22+γ]+,(9)\tag{9} L_{tri}=\frac{1}{k}\sum_{i=1}^k\left[ \left\| \hat{f}_{T-i+1}^a - p_j \right\|_2^2 - \min_{\hat{f}^a\in \Omega_a} \left\| \hat{f}^a - p_j \right\|_2^2 + \gamma \right]_+, Ltri=k1i=1∑k[f^T−i+1a−pj22−f^a∈Ωaminf^a−pj22+γ]+,(9)其中γ\gammaγ是一个预设间隔,jjj是伪正常集中每个样本最近原型的距离:
j=arg minm∈M∥f^T−i+1a−pm∥22.(10)\tag{10} j = \argmin_{m \in M} \left\| \hat{f}_{T-i+1}^a -p_m \right\|^2_2. j=m∈Margminf^T−i+1a−pm22.(10)
该损失可以通过惩罚三元组(P,Ωn,Ωa)(P,\Omega_n,\Omega_a)(P,Ωn,Ωa)来增强正包中正态原型的类内紧凑性和类间可分离性,这将显著增强NGRM微调的质量。
2.3.4 总损失
总损失定义为LNG−MILL_{NG-MIL}LNG−MIL、LclstL_{clst}Lclst,以及LtriL_{tri}Ltri的和。此外添加了时间平滑度Lts=∑i=1T−1(r(fi)−r(fi+1))2L_{ts} = \sum_{i=1}^{T-1}(r(f_i) - r(f_{i+1}))^2Lts=∑i=1T−1(r(fi)−r(fi+1))2和稀疏约束Ls=∑i=1Tr(fi)L_s=\sum_{i=1}^T r(f_i)Ls=∑i=1Tr(fi)。最终的损失为:
Ltotal=LNG−MIL+λtLclst+λcLtri+λr(Lts+Ls).(11)\tag{11} L_{total}=L_{NG-MIL}+\lambda_tL_{clst}+\lambda_cL_{tri}+\lambda_r(L_{ts} + L_s). Ltotal=LNG−MIL+λtLclst+λcLtri+λr(Lts+Ls).(11)
3 实验
3.1 数据集和评估标准
论文阅读 (86):Normality Guided Multiple Instance Learning for Weakly Supervised Video Anomaly Detection相关推荐
- 论文阅读 (90):Proposal-based Multiple Instance Learning (P-MIL, 2023CVPR)
文章目录 1 要点 1.1 概述 1.2 一些概念 1.3 主要步骤 2 方法 2.1 候选提案生成 2.2 提案特征提取和分类 2.2.1 周围对比特征提取 2.2.2 分类头 2.3 提案微调 2 ...
- <论文阅读03> Clustering-based multiple instance learning with multi-view feature
文章目录 引入 1 方法概述 2 关键技术 训练阶段 测试阶段 引入 题目:具有多视图特征的基于聚类的多实例学习 (Clustering-based multiple instance learn ...
- 论文阅读 (四):MILIS: Multiple Instance Learning with Instance Selection.
文章目录 引入 学前娱乐 摘要 算法过程 训练 测试 实例选择和分类器学习 A.A.A. 包级特征表示 B.B.B. 初始化实例原型 C.C.C. 分类 D.D.D. 实例更新 引入 论文地址 学 ...
- 异常检测论文阅读笔记《MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection》
MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection 论文来源:CVPR 2021 原论文地址链接 相 ...
- 【论文阅读】Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation
论文标题: Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation 作者信息: 代 ...
- 【论文阅读】Reliable and Trustworthy Machine Learning for Health Using Dataset Shift Detection
系列文章目录 [Dataset Shift] Reliable and Trustworthy Machine Learning for Health Using Dataset Shift Dete ...
- 近年多示例论文阅读(2): Multiple instance learning: A survey of problem characteristics and applications
目录 基本信息 核心思想 基本信息 题目:Multiple instance learning: A survey of problem characteristics and application ...
- Visual Tracking with Online Multiple Instance Learning (MIL)目标跟踪论文笔记
1. 论文信息 论文标题 :Visual Tracking with Online Multiple Instance Learning 论文作者: Boris Babenko,University ...
- ObjecT4:On-line multiple instance learning (MIL)学习
原文链接:http://blog.csdn.net/ikerpeng/article/details/19235391 用到论文,直接看翻译. 文章:Robust object tracking wi ...
最新文章
- activity-启动动画的设定(下面弹出出现,弹入下面消失)
- STM32项目(七) —— 智能仓库管理系统
- python测试报告
- 自学c语言中相关知识,设计出医院住院管理系统.要求如下所述:,C语言课程设计题Z目.doc...
- etcd3 安装与运维
- Linux网络子系统中收包软中断
- python--re模块
- JavaWeb如何学?
- python建模的步骤_python基础教程之Python 建模步骤|python基础教程|python入门|python教程...
- 怎样做一份良好的竞品分析?通常有哪些方法?
- DSP 2812: 使用C++封装外设时钟控制
- 新能源电动汽车的充电
- C#正则表达式(来源:侧身向南边博客)
- Java必须要掌握的基本问题
- 房地产支撑不起大国崛起
- 【JSP笔记02】JSP注释、脚本、表达式、JSP三大指令、JSP七大动作的介绍及使用
- 从dataguard备份的恢复机制
- 强化学习代码实操和讲解(一)
- Openwrt如何添加SD_Card?看这里
- 车载以太网第二弹-实锤|SOME/IP概述及TC8 SOME/IP 测试实践