论文笔记Long_Term_Feature_Bank
粗读
1. 论文提出了什么?
- 论文提出long-term feature bank来提升现有3D CNN网络性能,主要的特点是long-term feature bank的特征是在整个视频跨度中提取的信息,可以提供过去和未来的global视频信息辅助当前视频片段local信息的预测能力.
- 论文中表示这个module可以被用在诸如video classification, object detection等任务中.
2. 为什么提出?解决了什么问题
- 现有方法的输入是视频clip, 一般跨度就2~5s,并没有利用全局的视频信息
- 现有利用long-range temporal information方法的缺点: 通常情况下是利用与训练的ImageNet网络提取单个frame信息, 然后再利用cnn来处理.缺点是这样提取的feature既表示the present context又表示long-term context
- 作者提出long-term feature bank目的是将the present context和long-term context分离开,使其功能更加explicitly,从而解决上两条提到的问题
3. 方法描述
对于每段视频, 输入一个视频clip提取出short-term features, 同时网络对整段视频提取特征作为long-term features(?整段视频的feature提取方法是怎样的???),这两种feature通过FBO进行交互,共同完成最后的分类,具体方式在后面详细介绍.
精读
1. Long-term feature bank
- a. 通过person detector检测整个视频中所有的detections
- b. 同时,以一定间隔,例如1s, 使用常规3D cnn网络提取feature
- c. 通过ROI pooling提取出person目标的feature
- d. 表示L=L0,L1,...,LT−1L={L_{0}, L_{1}, ..., L_{T-1}}L=L0,L1,...,LT−1, 其中LtL_{t}Lt维度为Nt×dN_{t}\times dNt×d, NtN_{t}Nt为t时刻person目标的数目.
疑问1: 每一个time interval怎么和对应的frame person object对应起来??
Ans: 在论文3.4中提到了将训练好的i3d中temporal stride移除了,所以后面3D cnn的输出时间维度应该和frame是一一对齐的.
2. Feature bank operator(FBO)
short-term 与long-term的结合
- 输入的short-term clip为S_t, 中心时间为t,那么从long-term feature bank中取出以t为中心,窗口为2w+1的feature,也就是在t时刻再往前往后拓展w个time interval(个人观点应该是time interval而不是frame)
3. Short-Term Operator(STO)
- 为了与FBO进行对比, 作者提出一个’degraded’ STO, 对Short-term feature bank进行操作,SFB=LFB(S,S),也就是只有当前片段的信息
FBO Instantiations
LFB NL :使用short-term feature去注意LFB中的特征,并通过shortconnection返回到short-term feature中(具体操作是降维到512之后与short-term feature进行concatenate), 结构如下图.此外,作者使用LN和dropout来改善overfitting问题
LFB Max/Avg : 将long-term feature进行max/avg pooling再与short-term feature进行channel-wise concatenate.
3. 实验
- 通过增加temporal stride来提高模型能cover的视频长度会损害性能
- NL比Max/Avg pooling效果好, 但是在EPIC-Kitchens数据集下,Max/Avg比NL好,作者推断是Kitchens里面大多是单个人物场景,没有人与人之间的交互,所以NL的优势体现不出来
4. 其他的点
embedded Gaussian variant function: 这个是在non-local论文中提出的
(1)式为Non-local计算response的公式,简单说就是计算i与j的相似度,然后再去取j变换后的feature加到i的response中
(2)式为Gaussian Function
(3)式为non-lcoal中对高斯公式的变换,讲元素先进行embed再计算(θ和φ为transformation matrix)
(4)式为普通的dot-product
(5)式为concatenate后再进行变换的dot-product
论文笔记Long_Term_Feature_Bank相关推荐
- ORB-SLAM3 论文笔记
ORB-SLAM3 论文笔记 这篇博客 ORB-SLAM3系统 相机模型的抽象(Camera Model) 重定位的问题 图片矫正的问题 视觉惯性SLAM的工作原理 相关公式 IMU初始化 跟踪和建图 ...
- 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION
一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...
- 最新图神经网络论文笔记汇总(附pdf下载)
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]近年来,图神经网络变得非常火热,每年顶会在该领域内都会出现大量的研究论文,本文为大家提 ...
- [论文笔记] Fast Quality Driven Selection of Composite Web Services (ECOWS, 2006)
Time: 4.0 hours Jae-Ho Jang, Dong-Hoon Shin, Kyong-Ho Lee, "Fast Quality Driven Selection of Co ...
- 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
- 光流 速度_[论文笔记] FlowNet 光流估计
[论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面 个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...
- 论文笔记 《Maxout Networks》 《Network In Network》
原文出处:http://zhangliliang.com/2014/09/22/paper-note-maxout-and-nin/ 论文笔记 <Maxout Networks> & ...
- 论文笔记:HKMF-T: Recover From Blackouts in TaggedTime Series With Hankel Matrix Factorization
论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts_U ...
- 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting
0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...
最新文章
- 如何修改 Linkis 依赖的 Spark、Hive 版本?
- Jenkins学习七:Jenkins的授权和访问控制
- python 温度转换程序_Python程序将米转换为码
- python 如何判断一个函数执行完成_Python 函数为什么会默认返回 None?
- 使用Python 正则匹配两个特定字符之间的字符方法
- 解决mysql无法启动,错误1067
- 二分查找的平均查找长度_二分查找
- HBase的RowKey设计
- 交通规划软件功能分析
- c#连续打印问题,即进销存销售单打印问题完美解决
- linux下anjuta_[分享] Linux下用Anjuta写个Hello World 的C++程序竟如此简单!
- 微信管理工具用什么比较好呀
- 移动跨平台框架ReactNative活动指示器组件【11】
- 禁用win10自动更新bat脚本
- 左除与右除的区别--MATLAB
- kicad最小布线宽度默认是多少_CABLExpress发布了最新的光纤布线最佳实践指南
- 【SAP ABAP问题整理】程序运行超时,修改参数
- LARC DL笔记(二) 训练自己的img
- PROFINET协议解析-DCP
- 一个小众的语言:REBOL(一)
热门文章
- TabLayout选中
- MABSA(Multimodal Aspect-Based Sentiment Analysis)2022ACL 预训练
- Android来电,显示悬浮窗
- vim 删除行首和行尾空格
- Q-Learning的学习及简单应用
- 电磁场常见名词整理(不断更新中)
- GitLab CI 介绍
- sklearn常用工具
- “富强“, “民主“, “文明“, “和谐“, “自由“, “平等“, “公正“, “法治“, “爱国“, “敬业“, “诚信“, “友善“
- Python--paramiko