【每周论文阅读-第四周】proposal-level 特征聚合视频目标检测方法01

随着ImageNet VID数据集的提出，专注于在视频中进行目标检测的方法也越来越多。其中以特征聚合的方式去refine单帧检测结果占了很大一部分，例如DFF FGFA等。。但是这些方法大部分是基于光流在帧级对特征的逐像素聚合，这种方式有以下一些限制：

实验证明当物体运动速度越快时，光流估计也越差，这与我们引入视频处理的初衷相悖。
这些方法都只关注于利用相邻帧之间的时间一致性，但是忽略了proposal间的时间和空间位置的关联。
之前的方法只聚合关键帧附近的一些帧，忽略了长时间的时空信息。

以下两种方法关注在proposal级聚合特征，避免了帧级聚合的缺点。

1 Object Detection in Video with Spatial-temporal Context Aggregation

文章链接：https://arxiv.org/abs/1907.04988v1

方法

思想：通过自注意力机制，计算帧间和帧内的proposal的聚合权重，这里聚合权重考虑了proposal之间的时空语义信息，位置信息。

对于两个关键帧Fk={Ft−τ,Ft+τ}F_{k}=\left\{F_{t-\tau}, F_{t+\tau}\right\}Fk={Ft−τ,Ft+τ}和一个支持帧Fs={Ft}F_{s}=\left\{F_{t}\right\}Fs={Ft}，目标是将支持帧中的上述信息聚合到关键帧中。具体而言，每个帧经过feature extractor、RPN、ROI pooing之后得到了每个proposal的特征，fki\mathbf{f}_{k}^{i}fki and fsi∈R1×dv\mathbf{f}_{s}^{i} \in \mathbb{R}^{1 \times d_{v}}fsi∈R1×dv，目标是将支持帧中所有proposal特征（{ftj}j=1N\left\{\mathbf{f}_{t}^{j}\right\}_{j=1}^{N}{ftj}j=1N）的时空语义信息和位置信息和关键帧自己所有proposal特征（{ft−τj}j=1N\left\{\mathbf{f}_{t-\tau}^{j}\right\}_{j=1}^{N}{ft−τj}j=1N或{ft+τj}j=1N\left\{\mathbf{f}_{t+\tau}^{j}\right\}_{j=1}^{N}{ft+τj}j=1N）的位置信息聚合到关键帧的每个proposal(ft−τi\mathbf{f}_{t-\tau}^{i}ft−τi或ft+τi\mathbf{f}_{t+\tau}^{i}ft+τi)中，其中NNN为每个帧的proposal数。

具体如下图。下图中用到了两次聚合，stage one将支持帧中的proposal聚合到了关键帧，第二次将每个关键帧的proposal聚合到另一个关键帧。

下面来看如何聚合特征的不同信息。
注：为了简便，以下说明都是以将支持帧FtF_{t}Ft聚合到Ft−τF_{t-\tau}Ft−τ为例。那么就有来自FtF_{t}Ft和Ft−τF_{t-\tau}Ft−τ组成的candidate proposals集合Gt,t−τ={ft−τi,fti}i=1NG_{t, t-\tau}=\left\{\mathbf{f}_{t-\tau}^{i}, \mathbf{f}_{t}^{i}\right\}_{i=1}^{N}Gt,t−τ={ft−τi,fti}i=1N，此外还有关键帧Ft−τF_{t-\tau}Ft−τ的target proposals集合 Pt−τ={ft−τj}j=1NP_{t-\tau}=\left\{\mathbf{f}_{t-\tau}^{j}\right\}_{j=1}^{N}Pt−τ={ft−τj}j=1N

时空语义信息

根据注意力机制计算两个proposal之间的时空信息注意力权重为eijce_{i j}^{c}eijc：

eijc=(ft−τiWQ)(fgjWK)Tdve_{i j}^{c}=\frac{\left(\mathbf{f}_{t-\tau}^{i} \mathbf{W}^{Q}\right)\left(\mathbf{f}_{g}^{j} \mathbf{W}^{K}\right)^{T}}{\sqrt{d_{v}}}eijc=dv(ft−τiWQ)(fgjWK)T （1）

位置信息

位置信息分为两部分一个为空间位置信息，一个为时间位置信息。

空间位置信息

对于一个target proposal的box 坐标：pi=(xi,yi,wi,hi)p^{i}=\left(x_{i}, y_{i}, w_{i}, h_{i}\right)pi=(xi,yi,wi,hi)和candidate proposal的box 坐标： pj=(xj,yj,wj,hj)p^{j}=\left(x_{j}, y_{j}, w_{j}, h_{j}\right)pj=(xj,yj,wj,hj)。
根据[1] ，我们计算两个proposal之间的位置偏移表示向量：

r=⟨log⁡(∣xi−xj∣wj),log⁡(∣yi−yj∣hj),log⁡(wiwj),log⁡(hihj)⟩\mathbf{r}=\left\langle\log \left(\frac{\left|x_{i}-x_{j}\right|}{w_{j}}\right), \log \left(\frac{\left|y_{i}-y_{j}\right|}{h_{j}}\right), \log \left(\frac{w_{i}}{w_{j}}\right), \log \left(\frac{h_{i}}{h_{j}}\right)\right\rangler=⟨log(wj∣xi−xj∣),log(hj∣yi−yj∣),log(wjwi),log(hjhi)⟩

对于r∈rr \in \mathbf{r}r∈r，计算

ϕ(r,2z)=sin⁡(r10002z/dϕ)ϕ(r,2z+1)=cos⁡(r10002z/dϕ)\begin{aligned} \phi(r, 2 z) &=\sin \left(\frac{r}{1000^{2 z / d_{\phi}}}\right) \\ \phi(r, 2 z+1) &=\cos \left(\frac{r}{1000^{2 z / d_{\phi}}}\right) \end{aligned}ϕ(r,2z)ϕ(r,2z+1)=sin(10002z/dϕr)=cos(10002z/dϕr)

最后得到空间位置权重eijse_{i j}^{s}eijs：

eijs=ϕrWSe_{i j}^{s}=\phi_{\mathbf{r}} \mathbf{W}^{S}eijs=ϕrWS （2）

时间位置信息

只计算空间位置信息存在一个问题，当来自不同帧的proposal位置完全相同时，会认为时同一个proposal，所以又给了空间位置信息一个时间约束。
得到时间位置权重eijte_{i j}^{t}eijt：

eijt=(ft−τiWQ)(ϕτWT)Tdve_{i j}^{t}=\frac{\left(\mathbf{f}_{t-\tau}^{i} \mathbf{W}^{Q}\right)\left(\boldsymbol{\phi}_{\tau} \mathbf{W}^{\mathbf{T}}\right)^{T}}{\sqrt{d_{v}}}eijt=dv(ft−τiWQ)(ϕτWT)T （3）

最后将这三个权重，加权合并：eij=eijc+log⁡(eijs)+eijte_{i j}=e_{i j}^{c}+\log \left(e_{i j}^{s}\right)+e_{i j}^{t}eij=eijc+log(eijs)+eijt (4)

对权重用softmax归一化:：

wij=exp⁡(eij)∑m=1Mexp⁡(eim)w_{i j}=\frac{\exp \left(e_{i j}\right)}{\sum_{m=1}^{M} \exp \left(e_{i m}\right)}wij=∑m=1Mexp(eim)exp(eij) (5)

根据权重计算聚合后的特征：

ft−τ,eni=ft−τi+∑j=12Nwijfgj\mathbf{f}_{t-\tau, e n}^{i}=\mathbf{f}_{t-\tau}^{i}+\sum_{j=1}^{2 N} w_{i j} \mathbf{f}_{g}^{j}ft−τ,eni=ft−τi+∑j=12Nwijfgj (6)

实验

测试过程如下图：

消融实验结果

TTT为推理时采样关键帧和支持帧的范围大小。

与state-of-the-art方法对比

[1]： Relation networks for object detection： https://arxiv.org/abs/1711.11575v2