原文是:《Long-Term Feature Banks for Detailed Video Understanding》

code是:https://github.com/facebookresearch/video-long-term-feature-banks

本文是一篇视频理解方向的论文,也是由

指导的一篇论文,整体来说本文的思路比较清晰,重点是其在
取得了很好的结果,也就是目前第
优秀的结果,排名第
的是《SlowFast Networks for Video Recognition》,排名第
的似乎是《Timeception for Complex Action Recognition》 截至
月。文章的核心在于一个
的设计,其模拟的是人大脑对事物的记忆。

Abstract

人类理解世界的方式总是去进行上下文的思考,承前启后,受启发于此,本文的核心就是去将人类的思考方式融入到视频理解中,因此巧妙地设计一个

-
作为全文的识别的一个信息支撑。也就是类似于大脑中的记忆。本文的
方式在
上均取得了优异的结果。(现在的数据集感觉越来越难了啊。)

Introduction

人类理解一部电影的时候,记忆一定是尤其重要的一部分。因此本文模拟这点,设计出

去存储丰富,时间索引的特征库去编码信息。有了这个库,就可以更好的助于判断当下的事。作者首先通过一副图来阐述,这幅图的内容也很有趣。也算是一个有趣的开头。
图1 短期很难判断

阐述的就是当我们输入的是一个4s的视频的时候,我们很难想象出来,当前的帧的任务具体在做什么。必须需要更长的输入。(其实这个问题也是看不同的情况的,在一次传统的视频数据集上,即使是提取一帧就可以很好的判断出来结果,但有的数据集时间跨度很大,必须要输入足够长的数据才可以很好的判断,对于人类可能还是更多的趋向于自适应的思考吧!)。全部输入卷积,计算能力实力也不允许啊。作者这里提到了一个很有意思的现象,就是我们经常使用一个预训练的网络提取特征,然后又将这些特征当作输入,这样的话,就像是这些特征即包含了过去,有包含了现在。而本文的方法,进行了解耦。
是一个辅助的工具。
图2 更长的片段

如果可以更长一些输入,就可以判断出来是在

,该数据是来自于数据集

Related Work

已有的方法还是注重于短期的建模,长期的被探索的不多,本文的建立的方法是三个很好的方面。分别是端对端的强大的短期建模,密集采样以及解耦,灵活的长期建模。而新的计算机视觉任务,时空动作定位现阶段的方法基本上就是在帧级别上的检测,并不包含上下文的语义。

Long-Term Feature Bank Models

要想在计算机视觉上做出更好的预测,一个重要的能力就是能在遥远的过去与现在之间建立联系。本文的设计思路是

-

Method Overview

首先描述本文的方法如何运用在动作定位任务上。经典吃的一些做法就是首先运用目标检测的方式,再提取特征。而本文的核心在于两方面:

-
充当记忆模块,其计算是通过
计算短期
特征之间的交互。这个交互的计算采用的是
机制,如
-
的方式。模型的整体框架可以表述为下面:
图3 传统3D与LFB的一个比较

在图

中一个普通的卷积操作,其对应的是短期的视频片段,通常为
-
秒,在卷积之后通过
得到
-
的特征。而在
中是本文所显示的方法。左边的部分依旧是普通的
卷积操作,但在右边引入一个长期的特征库
,以及一个特征库操作模块
,其计算短期与长期的一个交互。最终将交互与短期的特征在一起,作为最终分类器的输入。

Long-Term Feature Bank

所以这个

是如何建立的呢?
的作用就是当前识别的时候,去提供相关的上下文信息。这一以动作定位来进行描述,因此,首先需要一个人检测器去贯穿整个视频,去产生一每一帧的检测结果集合。与此同时,一个标准的卷积操作是会出现,以同样的间隔进行卷积,如每隔一秒
如果
是30,也就是一秒30帧
,接着使用
去提取所有
卷积特征后人的
。令
代表着
时间的一个结果。
。每一个时间点
个,每个
维度。从一个直觉上来说,
提供了所有的关于"
"的信息。至此信息库
就建立好了。

Feature Bank Operator

模型引用

中的信息通过的是一个
操作,其中,
是短期的特征,
其实也就是如同一个滑动窗口一般,窗口大小是
。将其拼接在一起得到
,这一块的处理还是觉得很粗暴啊。
。不过这里有一个点就是其在判断当前的时候,即应用了历史信息,也应用了未来信息,这样的作法不可以做到实时视频在线处理。不过后面也说了,可以把窗口只采用历史上的
。最后,
的输出与
共同输入到分类器中。

Implementation Details

的实现其实其实有很多很好的方式,本文的使用就是去一个
的方式,其实验效果最好。
图4 modified non-local block design

魔改的

,接上我们知道其
的输入有两部分组成,
。具体的细节可以看上图4。整体上与
相比多了一些放缩以及

既然是

,当然也就可以叠加多个,图4的输出是
,下一次的叠加计算就要输入
,输出
。至此整体的框架结构就清晰了很多,该有的每一部分怎么做的大致上是可以的。

Experiments

要注意的是

数据集的视频长度都很长。
的设计与之符合。
表1 Charades的结果

作者也做了很多的实验结果,这里只展示

的结果,在最后一行中,其效果是最好的。但是作者最后说了一句很有意思的话,在
上的提升不是特别的明显,作者的解释是,部分因为其是
-
的粗糙预测。

Discussion

本篇文章从我的个人微弱的感觉上来说,所设计的之处也不是特别的让我感觉很亮眼,可能理解的也不是特别深,但结果却是特别的优秀,比我预期的要高,主要还是觉得很多地方的处理都是有那么一点粗糙的感觉。不过结果很好。相比较来说,有一些工作华丽花哨,这篇是踏实的文章。如何将

很好的结合起来,是一件挺困难的事。现在的视频数据集对时序的要求要来越高,视频也越来越长。期待大佬们的新的突破吧。Swan Lake!

long 比较大小_Long-Term Feature Banks相关推荐

  1. 论文浏览(27) Long-Term Feature Banks for Detailed Video Understanding

    文章目录 0. 前言 1. 要解决什么问题 2. 用了什么方法 3. 效果如何 4. 还存在什么问题&可借鉴之处 0. 前言 相关资料: arxiv github 论文解读 论文基本信息 领域 ...

  2. 论文阅读笔记三十三:Feature Pyramid Networks for Object Detection(FPN CVPR 2017)

    论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的 ...

  3. TSN、TRN、ECO、 S3D、I3D-GCN、SlowFastNet、LFB

    什么是动作识别?给定一个视频,通过机器来识别出视频里的主要动作类型. 动作识别表面是简单的分类问题,但从本质上来说,是视频理解问题,很多因素都会影响其中,比如不同类型视频中空间时间信息权重不同?视频长 ...

  4. Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读

    Paper:<Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类>翻译与解读 目录 <Multimoda ...

  5. Datawhale-零基础入门NLP-新闻文本分类Task05

    该任务是用Word2Vec进行预处理,然后用TextCNN和TextRNN进行分类.TextCNN是利用卷积神经网络进行文本文类,TextCNN是用循环神经网络进行文本分类. 1.Word2Vec 文 ...

  6. Machine Learning Algorithms Study Notes--Supervised Learning

    转载自:http://www.tuicool.com/articles/VvuIvqU Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Mic ...

  7. Machine Learning Algorithms Study Notes

    2    Supervised Learning    3 2.1    Perceptron Learning Algorithm (PLA)    3 2.1.1    PLA -- " ...

  8. INT303 Big Data 个人笔记

    又来到了经典半个月写一个学期内容的环节 目前更新至Lec{14}/Lec14 依旧是不涉及代码,代码请看学校的jupyter notebook~ Lec1 Introduction 介绍课程 Topi ...

  9. 37 篇! Facebook 今年被 CVPR 收录的论文都说了啥?

    CVPR 2019 已于 6 月 16 日至 20 日在美国加利福利亚州长滩市盛大举办,吸引了超过万人参加,雷锋网 AI 科技评论的记者也前往现场为大家带来了精彩的大会报道.作为工业界的学术实力干将之 ...

最新文章

  1. 高并发负载均衡(三):LVS的DR模型试验搭建
  2. 使用二进制的方式安装mysql实践纪要
  3. java中session对象登录_JavaWeb中Session对象的学习笔记
  4. 数据结构之选择排序:直接选择排序
  5. .NET 3.5(14) - XLINQ(LINQ to XML)之针对XML文件的添加、查询、更新和删除
  6. java的科学记数法_java – 为什么输出是科学记数法?
  7. linux es数据库 head,Elasticsearch可视化插件ES-HEAD安装启动步骤
  8. mnist数据集python导入_关于Pytorch的MNIST数据集的预处理详解
  9. React小书没提到但是很有用的基础知识
  10. ubuntu系统调节电脑亮度
  11. 【直线检测】基于LSD实现直线检测含Matlab源码
  12. 阿里云 语音通知 语音验证码 收不到 白名单
  13. java打印设置_java如何设置系统默认打印机
  14. 做电商网站php开发的流程,如何开发电商平台-电商开发第一步
  15. mp4+html+ipad无法播放,mp4文件不能在IPAD上播放
  16. 2019/07/03 分布式系统概述(01)
  17. 详讲全排列算法,及解决数字搭积木问题
  18. 大话UWB技术之核心命脉:TDOA与TOF
  19. python2和python3 with open as f写中文乱码
  20. 转载分享)移动金融安全风险分析与防护

热门文章

  1. CNN卷积神经网络推导和实现
  2. Python进阶_wxpy学习:常见问题
  3. C语言中Static和Const关键字的的作用
  4. Linux下必须知道的11个网络命令
  5. Centos下重要日志文件及查看方式
  6. this指针的用法详解
  7. [云炬创业基础笔记]第二章创业者测试13
  8. [云炬ThinkPython阅读笔记]2.8 注释
  9. 云炬Android开发笔记 3-2字体图标库集成与封装
  10. Coursera吴恩达《卷积神经网络》课程笔记(2)-- 深度卷积模型:案例研究