【每周论文阅读-第四周】proposal-level 特征聚合视频目标检测方法01
随着ImageNet VID数据集的提出,专注于在视频中进行目标检测的方法也越来越多。其中以特征聚合的方式去refine单帧检测结果占了很大一部分,例如DFF FGFA等。。 但是这些方法大部分是基于光流在帧级对特征的逐像素聚合,这种方式有以下一些限制:
- 实验证明当物体运动速度越快时,光流估计也越差,这与我们引入视频处理的初衷相悖。
- 这些方法都只关注于利用相邻帧之间的时间一致性,但是忽略了proposal间的时间和空间位置的关联。
- 之前的方法只聚合关键帧附近的一些帧,忽略了长时间的时空信息。
以下两种方法关注在proposal级聚合特征,避免了帧级聚合的缺点。
1 Object Detection in Video with Spatial-temporal Context Aggregation
文章链接:https://arxiv.org/abs/1907.04988v1
方法
思想:通过自注意力机制,计算帧间和帧内的proposal的聚合权重,这里聚合权重考虑了proposal之间的时空语义信息,位置信息。
对于两个关键帧Fk={Ft−τ,Ft+τ}F_{k}=\left\{F_{t-\tau}, F_{t+\tau}\right\}Fk={Ft−τ,Ft+τ}和一个支持帧Fs={Ft}F_{s}=\left\{F_{t}\right\}Fs={Ft},目标是将支持帧中的上述信息聚合到关键帧中。具体而言,每个帧经过feature extractor、RPN、ROI pooing之后得到了每个proposal的特征,fki\mathbf{f}_{k}^{i}fki and fsi∈R1×dv\mathbf{f}_{s}^{i} \in \mathbb{R}^{1 \times d_{v}}fsi∈R1×dv,目标是将支持帧中所有proposal特征({ftj}j=1N\left\{\mathbf{f}_{t}^{j}\right\}_{j=1}^{N}{ftj}j=1N)的时空语义信息和位置信息和关键帧自己所有proposal特征({ft−τj}j=1N\left\{\mathbf{f}_{t-\tau}^{j}\right\}_{j=1}^{N}{ft−τj}j=1N或{ft+τj}j=1N\left\{\mathbf{f}_{t+\tau}^{j}\right\}_{j=1}^{N}{ft+τj}j=1N)的位置信息聚合到关键帧的每个proposal(ft−τi\mathbf{f}_{t-\tau}^{i}ft−τi或ft+τi\mathbf{f}_{t+\tau}^{i}ft+τi)中,其中NNN为每个帧的proposal数。
具体如下图。下图中用到了两次聚合,stage one将支持帧中的proposal聚合到了关键帧,第二次将每个关键帧的proposal聚合到另一个关键帧。
下面来看如何聚合特征的不同信息。
注:为了简便,以下说明都是以将支持帧FtF_{t}Ft聚合到Ft−τF_{t-\tau}Ft−τ为例。那么就有来自FtF_{t}Ft和Ft−τF_{t-\tau}Ft−τ组成的candidate proposals集合Gt,t−τ={ft−τi,fti}i=1NG_{t, t-\tau}=\left\{\mathbf{f}_{t-\tau}^{i}, \mathbf{f}_{t}^{i}\right\}_{i=1}^{N}Gt,t−τ={ft−τi,fti}i=1N,此外还有关键帧Ft−τF_{t-\tau}Ft−τ的target proposals集合 Pt−τ={ft−τj}j=1NP_{t-\tau}=\left\{\mathbf{f}_{t-\tau}^{j}\right\}_{j=1}^{N}Pt−τ={ft−τj}j=1N
时空语义信息
根据注意力机制计算两个proposal之间的时空信息注意力权重为eijce_{i j}^{c}eijc:
eijc=(ft−τiWQ)(fgjWK)Tdve_{i j}^{c}=\frac{\left(\mathbf{f}_{t-\tau}^{i} \mathbf{W}^{Q}\right)\left(\mathbf{f}_{g}^{j} \mathbf{W}^{K}\right)^{T}}{\sqrt{d_{v}}}eijc=dv(ft−τiWQ)(fgjWK)T (1)
位置信息
位置信息分为两部分一个为空间位置信息,一个为时间位置信息。
空间位置信息
对于一个target proposal的box 坐标:pi=(xi,yi,wi,hi)p^{i}=\left(x_{i}, y_{i}, w_{i}, h_{i}\right)pi=(xi,yi,wi,hi)和candidate proposal的box 坐标: pj=(xj,yj,wj,hj)p^{j}=\left(x_{j}, y_{j}, w_{j}, h_{j}\right)pj=(xj,yj,wj,hj)。
根据[1] ,我们计算两个proposal之间的位置偏移表示向量:
r=⟨log(∣xi−xj∣wj),log(∣yi−yj∣hj),log(wiwj),log(hihj)⟩\mathbf{r}=\left\langle\log \left(\frac{\left|x_{i}-x_{j}\right|}{w_{j}}\right), \log \left(\frac{\left|y_{i}-y_{j}\right|}{h_{j}}\right), \log \left(\frac{w_{i}}{w_{j}}\right), \log \left(\frac{h_{i}}{h_{j}}\right)\right\rangler=⟨log(wj∣xi−xj∣),log(hj∣yi−yj∣),log(wjwi),log(hjhi)⟩
对于r∈rr \in \mathbf{r}r∈r,计算
ϕ(r,2z)=sin(r10002z/dϕ)ϕ(r,2z+1)=cos(r10002z/dϕ)\begin{aligned} \phi(r, 2 z) &=\sin \left(\frac{r}{1000^{2 z / d_{\phi}}}\right) \\ \phi(r, 2 z+1) &=\cos \left(\frac{r}{1000^{2 z / d_{\phi}}}\right) \end{aligned}ϕ(r,2z)ϕ(r,2z+1)=sin(10002z/dϕr)=cos(10002z/dϕr)
最后得到空间位置权重eijse_{i j}^{s}eijs:
eijs=ϕrWSe_{i j}^{s}=\phi_{\mathbf{r}} \mathbf{W}^{S}eijs=ϕrWS (2)
时间位置信息
只计算空间位置信息存在一个问题,当来自不同帧的proposal位置完全相同时,会认为时同一个proposal,所以又给了空间位置信息一个时间约束。
得到时间位置权重eijte_{i j}^{t}eijt:
eijt=(ft−τiWQ)(ϕτWT)Tdve_{i j}^{t}=\frac{\left(\mathbf{f}_{t-\tau}^{i} \mathbf{W}^{Q}\right)\left(\boldsymbol{\phi}_{\tau} \mathbf{W}^{\mathbf{T}}\right)^{T}}{\sqrt{d_{v}}}eijt=dv(ft−τiWQ)(ϕτWT)T (3)
最后将这三个权重,加权合并:eij=eijc+log(eijs)+eijte_{i j}=e_{i j}^{c}+\log \left(e_{i j}^{s}\right)+e_{i j}^{t}eij=eijc+log(eijs)+eijt (4)
对权重用softmax归一化::
wij=exp(eij)∑m=1Mexp(eim)w_{i j}=\frac{\exp \left(e_{i j}\right)}{\sum_{m=1}^{M} \exp \left(e_{i m}\right)}wij=∑m=1Mexp(eim)exp(eij) (5)
根据权重计算聚合后的特征:
ft−τ,eni=ft−τi+∑j=12Nwijfgj\mathbf{f}_{t-\tau, e n}^{i}=\mathbf{f}_{t-\tau}^{i}+\sum_{j=1}^{2 N} w_{i j} \mathbf{f}_{g}^{j}ft−τ,eni=ft−τi+∑j=12Nwijfgj (6)
实验
测试过程如下图:
消融实验结果
TTT为推理时采样关键帧和支持帧的范围大小。
与state-of-the-art方法对比
[1]: Relation networks for object detection: https://arxiv.org/abs/1711.11575v2
【每周论文阅读-第四周】proposal-level 特征聚合视频目标检测方法01相关推荐
- 文献阅读——时空域联合的水下未知线谱目标检测方法
时空域联合的水下未知线谱目标检测方法(DOI: 10.11999/JEIT180796) 参 考 文 献 [1]WITTEKIND D K. A simple model for the underw ...
- 论文阅读:EfficientDet:可扩展且高效的目标检测
0.前言 论文地址:https://arxiv.org/abs/1911.09070 代码地址:https://github.com/google/automl/tree/master/efficie ...
- 【视频目标检测论文阅读笔记】Optimizing Video Object Detection via a Scale-Time Lattice
1.1 论文信息 标题 Optimizing Video Object Detection via a Scale-Time Lattice 会议 CVPR 2018 原文链接 Optimizing ...
- 25篇最新CV领域综述性论文速递!涵盖15个方向:目标检测/图像处理/姿态估计/医学影像/人脸识别等方向
目标检测 1. 综述:深度域适应目标检测 标题:Deep Domain Adaptive Object Detection: a Survey 作者:Wanyi Li, Peng Wang 链接:ht ...
- 【推荐】本周值得关注的将开源论文,包含分类、分割、人脸、目标检测、ReID等...
以下总结的是本周新出的作者声称"将开源"的论文,包含显著目标检测.遥感影像分类.人脸识别.基于视频的人员重识别.跨分辨率人员重识别.医学图像分割.transformer 在视频目标 ...
- ECCV 2020 论文大盘点-视频目标检测篇
本文盘点ECCV 2020 中所有视频目标价检测(Video Object Detection)相关的论文,总计 4 篇,其中 2 篇论文代码将开源. 对视频中的目标进行检测,当然可以转化为对每帧图像 ...
- ECCV 2022 | 腾讯优图29篇论文入选,含人脸安全、图像分割、目标检测等多个研究方向...
来源:腾讯优图 近日,欧洲计算机视觉国际会议ECCV 2022(European Conference on Computer Vision)发布了论文录用结果.本届ECCV 2022论文总投稿数超过 ...
- ACM第一名:基于轨迹感知多模态特征的视频关系检测
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来 ...
- 基于运动特征的视频质量评价方法(基于H.264)
Michal Ries等人在论文<Motion Based Reference-Free Quality Estimation for H.264/AVC Video Streaming> ...
- 29篇论文简介,含人脸安全、图像分割、目标检测等多个研究方向
近日,欧洲计算机视觉国际会议ECCV 2022(European Conference on Computer Vision)发布了论文录用结果.本届ECCV 2022论文总投稿数超过8170篇,其中 ...
最新文章
- python 的文件读写方法:read readline readlines wirte writelines
- 他们提出了一个大胆的猜想:GWT(深度学习)→通用人工智能
- 2014年七月写过的代码,现在看来,还有待改进呀
- jQuery源码学习
- java 以什么开头_判断字符串以什么开头
- Photo Stack效果
- 【ArcGIS微课1000例】0014:ArcGIS中如何将kml(kmz)文件转shp,并进行投影转换?
- 论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
- iOS常用的忽略警告
- Codeforces Gym 100187E E. Two Labyrinths bfs
- 用Python做入门OJ题
- AI英雄 | 论人工智能与自由意志,请看尤瓦尔与李飞飞的这场“激辩”
- gateway笔记TODO
- Windows server 2012修改输入法
- 发明者电子实用宝典_人类发明电话后的第一次通话,竟然是来自发明者的求救声?...
- Redis之EXPIRE
- PPT格式转换PDF在手机上如何操作
- js通过字节长度截取中英文混合字符串
- 《数据库系统概念》学习笔记——恢复系统
- MathType 快捷键大全——数学建模神器yyds(告别繁杂的公式)