随着ImageNet VID数据集的提出,专注于在视频中进行目标检测的方法也越来越多。其中以特征聚合的方式去refine单帧检测结果占了很大一部分,例如DFF FGFA等。。 但是这些方法大部分是基于光流在帧级对特征的逐像素聚合,这种方式有以下一些限制:

  1. 实验证明当物体运动速度越快时,光流估计也越差,这与我们引入视频处理的初衷相悖。
  2. 这些方法都只关注于利用相邻帧之间的时间一致性,但是忽略了proposal间的时间和空间位置的关联。
  3. 之前的方法只聚合关键帧附近的一些帧,忽略了长时间的时空信息。

以下两种方法关注在proposal级聚合特征,避免了帧级聚合的缺点。

1 Object Detection in Video with Spatial-temporal Context Aggregation

文章链接:https://arxiv.org/abs/1907.04988v1

方法

思想:通过自注意力机制,计算帧间和帧内的proposal的聚合权重,这里聚合权重考虑了proposal之间的时空语义信息,位置信息。

对于两个关键帧Fk={Ft−τ,Ft+τ}F_{k}=\left\{F_{t-\tau}, F_{t+\tau}\right\}Fk​={Ft−τ​,Ft+τ​}和一个支持帧Fs={Ft}F_{s}=\left\{F_{t}\right\}Fs​={Ft​},目标是将支持帧中的上述信息聚合到关键帧中。具体而言,每个帧经过feature extractor、RPN、ROI pooing之后得到了每个proposal的特征,fki\mathbf{f}_{k}^{i}fki​ and fsi∈R1×dv\mathbf{f}_{s}^{i} \in \mathbb{R}^{1 \times d_{v}}fsi​∈R1×dv​,目标是将支持帧中所有proposal特征({ftj}j=1N\left\{\mathbf{f}_{t}^{j}\right\}_{j=1}^{N}{ftj​}j=1N​)的时空语义信息和位置信息和关键帧自己所有proposal特征({ft−τj}j=1N\left\{\mathbf{f}_{t-\tau}^{j}\right\}_{j=1}^{N}{ft−τj​}j=1N​或{ft+τj}j=1N\left\{\mathbf{f}_{t+\tau}^{j}\right\}_{j=1}^{N}{ft+τj​}j=1N​)的位置信息聚合到关键帧的每个proposal(ft−τi\mathbf{f}_{t-\tau}^{i}ft−τi​或ft+τi\mathbf{f}_{t+\tau}^{i}ft+τi​)中,其中NNN为每个帧的proposal数。

具体如下图。下图中用到了两次聚合,stage one将支持帧中的proposal聚合到了关键帧,第二次将每个关键帧的proposal聚合到另一个关键帧。

下面来看如何聚合特征的不同信息。
注:为了简便,以下说明都是以将支持帧FtF_{t}Ft​聚合到Ft−τF_{t-\tau}Ft−τ​为例。那么就有来自FtF_{t}Ft​和Ft−τF_{t-\tau}Ft−τ​组成的candidate proposals集合Gt,t−τ={ft−τi,fti}i=1NG_{t, t-\tau}=\left\{\mathbf{f}_{t-\tau}^{i}, \mathbf{f}_{t}^{i}\right\}_{i=1}^{N}Gt,t−τ​={ft−τi​,fti​}i=1N​,此外还有关键帧Ft−τF_{t-\tau}Ft−τ​的target proposals集合 Pt−τ={ft−τj}j=1NP_{t-\tau}=\left\{\mathbf{f}_{t-\tau}^{j}\right\}_{j=1}^{N}Pt−τ​={ft−τj​}j=1N​

时空语义信息

根据注意力机制计算两个proposal之间的时空信息注意力权重为eijce_{i j}^{c}eijc​:

eijc=(ft−τiWQ)(fgjWK)Tdve_{i j}^{c}=\frac{\left(\mathbf{f}_{t-\tau}^{i} \mathbf{W}^{Q}\right)\left(\mathbf{f}_{g}^{j} \mathbf{W}^{K}\right)^{T}}{\sqrt{d_{v}}}eijc​=dv​​(ft−τi​WQ)(fgj​WK)T​ (1)

位置信息

位置信息分为两部分一个为空间位置信息,一个为时间位置信息。

空间位置信息

对于一个target proposal的box 坐标:pi=(xi,yi,wi,hi)p^{i}=\left(x_{i}, y_{i}, w_{i}, h_{i}\right)pi=(xi​,yi​,wi​,hi​)和candidate proposal的box 坐标: pj=(xj,yj,wj,hj)p^{j}=\left(x_{j}, y_{j}, w_{j}, h_{j}\right)pj=(xj​,yj​,wj​,hj​)。
根据[1] ,我们计算两个proposal之间的位置偏移表示向量:

r=⟨log⁡(∣xi−xj∣wj),log⁡(∣yi−yj∣hj),log⁡(wiwj),log⁡(hihj)⟩\mathbf{r}=\left\langle\log \left(\frac{\left|x_{i}-x_{j}\right|}{w_{j}}\right), \log \left(\frac{\left|y_{i}-y_{j}\right|}{h_{j}}\right), \log \left(\frac{w_{i}}{w_{j}}\right), \log \left(\frac{h_{i}}{h_{j}}\right)\right\rangler=⟨log(wj​∣xi​−xj​∣​),log(hj​∣yi​−yj​∣​),log(wj​wi​​),log(hj​hi​​)⟩

对于r∈rr \in \mathbf{r}r∈r,计算

ϕ(r,2z)=sin⁡(r10002z/dϕ)ϕ(r,2z+1)=cos⁡(r10002z/dϕ)\begin{aligned} \phi(r, 2 z) &=\sin \left(\frac{r}{1000^{2 z / d_{\phi}}}\right) \\ \phi(r, 2 z+1) &=\cos \left(\frac{r}{1000^{2 z / d_{\phi}}}\right) \end{aligned}ϕ(r,2z)ϕ(r,2z+1)​=sin(10002z/dϕ​r​)=cos(10002z/dϕ​r​)​

最后得到空间位置权重eijse_{i j}^{s}eijs​:

eijs=ϕrWSe_{i j}^{s}=\phi_{\mathbf{r}} \mathbf{W}^{S}eijs​=ϕr​WS (2)

时间位置信息

只计算空间位置信息存在一个问题,当来自不同帧的proposal位置完全相同时,会认为时同一个proposal,所以又给了空间位置信息一个时间约束。
得到时间位置权重eijte_{i j}^{t}eijt​:

eijt=(ft−τiWQ)(ϕτWT)Tdve_{i j}^{t}=\frac{\left(\mathbf{f}_{t-\tau}^{i} \mathbf{W}^{Q}\right)\left(\boldsymbol{\phi}_{\tau} \mathbf{W}^{\mathbf{T}}\right)^{T}}{\sqrt{d_{v}}}eijt​=dv​​(ft−τi​WQ)(ϕτ​WT)T​ (3)

最后将这三个权重,加权合并:eij=eijc+log⁡(eijs)+eijte_{i j}=e_{i j}^{c}+\log \left(e_{i j}^{s}\right)+e_{i j}^{t}eij​=eijc​+log(eijs​)+eijt​ (4)

对权重用softmax归一化::

wij=exp⁡(eij)∑m=1Mexp⁡(eim)w_{i j}=\frac{\exp \left(e_{i j}\right)}{\sum_{m=1}^{M} \exp \left(e_{i m}\right)}wij​=∑m=1M​exp(eim​)exp(eij​)​ (5)

根据权重计算聚合后的特征:

ft−τ,eni=ft−τi+∑j=12Nwijfgj\mathbf{f}_{t-\tau, e n}^{i}=\mathbf{f}_{t-\tau}^{i}+\sum_{j=1}^{2 N} w_{i j} \mathbf{f}_{g}^{j}ft−τ,eni​=ft−τi​+∑j=12N​wij​fgj​ (6)

实验

测试过程如下图:

消融实验结果

TTT为推理时采样关键帧和支持帧的范围大小。

与state-of-the-art方法对比


[1]: Relation networks for object detection: https://arxiv.org/abs/1711.11575v2

【每周论文阅读-第四周】proposal-level 特征聚合视频目标检测方法01相关推荐

  1. 文献阅读——时空域联合的水下未知线谱目标检测方法

    时空域联合的水下未知线谱目标检测方法(DOI: 10.11999/JEIT180796) 参 考 文 献 [1]WITTEKIND D K. A simple model for the underw ...

  2. 论文阅读:EfficientDet:可扩展且高效的目标检测

    0.前言 论文地址:https://arxiv.org/abs/1911.09070 代码地址:https://github.com/google/automl/tree/master/efficie ...

  3. 【视频目标检测论文阅读笔记】Optimizing Video Object Detection via a Scale-Time Lattice

    1.1 论文信息 标题 Optimizing Video Object Detection via a Scale-Time Lattice 会议 CVPR 2018 原文链接 Optimizing ...

  4. 25篇最新CV领域综述性论文速递!涵盖15个方向:目标检测/图像处理/姿态估计/医学影像/人脸识别等方向

    目标检测 1. 综述:深度域适应目标检测 标题:Deep Domain Adaptive Object Detection: a Survey 作者:Wanyi Li, Peng Wang 链接:ht ...

  5. 【推荐】本周值得关注的将开源论文,包含分类、分割、人脸、目标检测、ReID等...

    以下总结的是本周新出的作者声称"将开源"的论文,包含显著目标检测.遥感影像分类.人脸识别.基于视频的人员重识别.跨分辨率人员重识别.医学图像分割.transformer 在视频目标 ...

  6. ECCV 2020 论文大盘点-视频目标检测篇

    本文盘点ECCV 2020 中所有视频目标价检测(Video Object Detection)相关的论文,总计 4 篇,其中 2 篇论文代码将开源. 对视频中的目标进行检测,当然可以转化为对每帧图像 ...

  7. ECCV 2022 | 腾讯优图29篇论文入选,含人脸安全、图像分割、目标检测等多个研究方向...

    来源:腾讯优图 近日,欧洲计算机视觉国际会议ECCV 2022(European Conference on Computer Vision)发布了论文录用结果.本届ECCV 2022论文总投稿数超过 ...

  8. ACM第一名:基于轨迹感知多模态特征的视频关系检测

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来 ...

  9. 基于运动特征的视频质量评价方法(基于H.264)

    Michal Ries等人在论文<Motion Based Reference-Free Quality Estimation for H.264/AVC Video Streaming> ...

  10. 29篇论文简介,含人脸安全、图像分割、目标检测等多个研究方向

    近日,欧洲计算机视觉国际会议ECCV 2022(European Conference on Computer Vision)发布了论文录用结果.本届ECCV 2022论文总投稿数超过8170篇,其中 ...

最新文章

  1. python 的文件读写方法:read readline readlines wirte   writelines
  2. 他们提出了一个大胆的猜想:GWT(深度学习)→通用人工智能
  3. 2014年七月写过的代码,现在看来,还有待改进呀
  4. jQuery源码学习
  5. java 以什么开头_判断字符串以什么开头
  6. Photo Stack效果
  7. 【ArcGIS微课1000例】0014:ArcGIS中如何将kml(kmz)文件转shp,并进行投影转换?
  8. 论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
  9. iOS常用的忽略警告
  10. Codeforces Gym 100187E E. Two Labyrinths bfs
  11. 用Python做入门OJ题
  12. AI英雄 | 论人工智能与自由意志,请看尤瓦尔与李飞飞的这场“激辩”
  13. gateway笔记TODO
  14. Windows server 2012修改输入法
  15. 发明者电子实用宝典_人类发明电话后的第一次通话,竟然是来自发明者的求救声?...
  16. Redis之EXPIRE
  17. PPT格式转换PDF在手机上如何操作
  18. js通过字节长度截取中英文混合字符串
  19. 《数据库系统概念》学习笔记——恢复系统
  20. MathType 快捷键大全——数学建模神器yyds(告别繁杂的公式)

热门文章

  1. Cortex-M3 (NXP LPC1788)之IIS控制器
  2. 使用STVD和Cosmic C编译器开发STM8S快速入门指南
  3. 数据库实验报告--安全性实验
  4. pycharm 安装JPype
  5. Landsat7大气校正后图像变色
  6. 正交性原理与维纳霍夫(正则)方程
  7. Multisim10.0.1汉化时没有stringfiles问题
  8. java菜鸟驿站_阿里巴巴内推(菜鸟驿站)一面总结
  9. 功能磁共振成像统计分析中的 GLM 简介
  10. python鼠标画点连线_浅谈画点连线的步骤以及注意事项