long 比较大小_Long-Term Feature Banks

原文是:《Long-Term Feature Banks for Detailed Video Understanding》

code是：https://github.com/facebookresearch/video-long-term-feature-banks

本文是一篇视频理解方向的论文，也是由

指导的一篇论文，整体来说本文的思路比较清晰，重点是其在

取得了很好的结果，也就是目前第

优秀的结果，排名第

的是《SlowFast Networks for Video Recognition》，排名第

的似乎是《Timeception for Complex Action Recognition》截至

月。文章的核心在于一个

的设计，其模拟的是人大脑对事物的记忆。

Abstract

人类理解世界的方式总是去进行上下文的思考，承前启后，受启发于此，本文的核心就是去将人类的思考方式融入到视频理解中，因此巧妙地设计一个

作为全文的识别的一个信息支撑。也就是类似于大脑中的记忆。本文的

方式在

上均取得了优异的结果。(现在的数据集感觉越来越难了啊。)

Introduction

人类理解一部电影的时候，记忆一定是尤其重要的一部分。因此本文模拟这点，设计出

去存储丰富，时间索引的特征库去编码信息。有了这个库，就可以更好的助于判断当下的事。作者首先通过一副图来阐述，这幅图的内容也很有趣。也算是一个有趣的开头。

图1 短期很难判断

图

阐述的就是当我们输入的是一个4s的视频的时候，我们很难想象出来，当前的帧的任务具体在做什么。必须需要更长的输入。(其实这个问题也是看不同的情况的,在一次传统的视频数据集上，即使是提取一帧就可以很好的判断出来结果，但有的数据集时间跨度很大，必须要输入足够长的数据才可以很好的判断，对于人类可能还是更多的趋向于自适应的思考吧！)。全部输入卷积，计算能力实力也不允许啊。作者这里提到了一个很有意思的现象，就是我们经常使用一个预训练的网络提取特征，然后又将这些特征当作输入，这样的话，就像是这些特征即包含了过去，有包含了现在。而本文的方法，进行了解耦。

是一个辅助的工具。

图2 更长的片段

如果可以更长一些输入，就可以判断出来是在

，该数据是来自于数据集

。

Related Work

已有的方法还是注重于短期的建模，长期的被探索的不多，本文的建立的方法是三个很好的方面。分别是端对端的强大的短期建模，密集采样以及解耦，灵活的长期建模。而新的计算机视觉任务，时空动作定位现阶段的方法基本上就是在帧级别上的检测，并不包含上下文的语义。

Long-Term Feature Bank Models

要想在计算机视觉上做出更好的预测，一个重要的能力就是能在遥远的过去与现在之间建立联系。本文的设计思路是

。

Method Overview

首先描述本文的方法如何运用在动作定位任务上。经典吃的一些做法就是首先运用目标检测的方式，再提取特征。而本文的核心在于两方面：

充当记忆模块，其计算是通过

计算短期

特征之间的交互。这个交互的计算采用的是

机制，如

的方式。模型的整体框架可以表述为下面：

图3 传统3D与LFB的一个比较

在图

中一个普通的卷积操作，其对应的是短期的视频片段，通常为

秒，在卷积之后通过

得到

的特征。而在

中是本文所显示的方法。左边的部分依旧是普通的

卷积操作，但在右边引入一个长期的特征库

,以及一个特征库操作模块

,其计算短期与长期的一个交互。最终将交互与短期的特征在一起，作为最终分类器的输入。

Long-Term Feature Bank

所以这个

是如何建立的呢？

的作用就是当前识别的时候，去提供相关的上下文信息。这一以动作定位来进行描述，因此，首先需要一个人检测器去贯穿整个视频，去产生一每一帧的检测结果集合。与此同时，一个标准的卷积操作是会出现，以同样的间隔进行卷积，如每隔一秒

如果

是30，也就是一秒30帧

，接着使用

去提取所有

卷积特征后人的

。令

代表着

时间的一个结果。

。每一个时间点

个，每个

维度。从一个直觉上来说，

提供了所有的关于"

"的信息。至此信息库

就建立好了。

Feature Bank Operator

模型引用

中的信息通过的是一个

操作，其中，

是短期的特征，

其实也就是如同一个滑动窗口一般，窗口大小是

。将其拼接在一起得到

，这一块的处理还是觉得很粗暴啊。

。不过这里有一个点就是其在判断当前的时候，即应用了历史信息，也应用了未来信息，这样的作法不可以做到实时视频在线处理。不过后面也说了，可以把窗口只采用历史上的

。最后，

的输出与

共同输入到分类器中。

Implementation Details

的实现其实其实有很多很好的方式，本文的使用就是去一个

的方式，其实验效果最好。

图4 modified non-local block design

魔改的

,接上我们知道其

的输入有两部分组成，

与

。具体的细节可以看上图4。整体上与

相比多了一些放缩以及

。

既然是

，当然也就可以叠加多个，图4的输出是

,下一次的叠加计算就要输入

，输出

。至此整体的框架结构就清晰了很多，该有的每一部分怎么做的大致上是可以的。

Experiments

要注意的是

，

数据集的视频长度都很长。

的设计与之符合。

表1 Charades的结果

作者也做了很多的实验结果，这里只展示

的结果，在最后一行中，其效果是最好的。但是作者最后说了一句很有意思的话，在

上的提升不是特别的明显，作者的解释是，部分因为其是

的粗糙预测。

Discussion

本篇文章从我的个人微弱的感觉上来说，所设计的之处也不是特别的让我感觉很亮眼，可能理解的也不是特别深，但结果却是特别的优秀，比我预期的要高，主要还是觉得很多地方的处理都是有那么一点粗糙的感觉。不过结果很好。相比较来说，有一些工作华丽花哨，这篇是踏实的文章。如何将

很好的结合起来，是一件挺困难的事。现在的视频数据集对时序的要求要来越高，视频也越来越长。期待大佬们的新的突破吧。Swan Lake！