粗读

1. 论文提出了什么?

  • 论文提出long-term feature bank来提升现有3D CNN网络性能,主要的特点是long-term feature bank的特征是在整个视频跨度中提取的信息,可以提供过去和未来的global视频信息辅助当前视频片段local信息的预测能力.
  • 论文中表示这个module可以被用在诸如video classification, object detection等任务中.

2. 为什么提出?解决了什么问题

  • 现有方法的输入是视频clip, 一般跨度就2~5s,并没有利用全局的视频信息
  • 现有利用long-range temporal information方法的缺点: 通常情况下是利用与训练的ImageNet网络提取单个frame信息, 然后再利用cnn来处理.缺点是这样提取的feature既表示the present context又表示long-term context
  • 作者提出long-term feature bank目的是将the present context和long-term context分离开,使其功能更加explicitly,从而解决上两条提到的问题

3. 方法描述


对于每段视频, 输入一个视频clip提取出short-term features, 同时网络对整段视频提取特征作为long-term features(?整段视频的feature提取方法是怎样的???),这两种feature通过FBO进行交互,共同完成最后的分类,具体方式在后面详细介绍.

精读

1. Long-term feature bank

  • a. 通过person detector检测整个视频中所有的detections
  • b. 同时,以一定间隔,例如1s, 使用常规3D cnn网络提取feature
  • c. 通过ROI pooling提取出person目标的feature
  • d. 表示L=L0,L1,...,LT−1L={L_{0}, L_{1}, ..., L_{T-1}}L=L0,L1,...,LT1, 其中LtL_{t}Lt维度为Nt×dN_{t}\times dNt×d, NtN_{t}Nt为t时刻person目标的数目.

疑问1: 每一个time interval怎么和对应的frame person object对应起来??
Ans: 在论文3.4中提到了将训练好的i3d中temporal stride移除了,所以后面3D cnn的输出时间维度应该和frame是一一对齐的.

2. Feature bank operator(FBO)

short-term 与long-term的结合

  • 输入的short-term clip为S_t, 中心时间为t,那么从long-term feature bank中取出以t为中心,窗口为2w+1的feature,也就是在t时刻再往前往后拓展w个time interval(个人观点应该是time interval而不是frame)

3. Short-Term Operator(STO)

  • 为了与FBO进行对比, 作者提出一个’degraded’ STO, 对Short-term feature bank进行操作,SFB=LFB(S,S),也就是只有当前片段的信息

FBO Instantiations

  • LFB NL :使用short-term feature去注意LFB中的特征,并通过shortconnection返回到short-term feature中(具体操作是降维到512之后与short-term feature进行concatenate), 结构如下图.此外,作者使用LN和dropout来改善overfitting问题

  • LFB Max/Avg : 将long-term feature进行max/avg pooling再与short-term feature进行channel-wise concatenate.

3. 实验

  1. 通过增加temporal stride来提高模型能cover的视频长度会损害性能
  2. NL比Max/Avg pooling效果好, 但是在EPIC-Kitchens数据集下,Max/Avg比NL好,作者推断是Kitchens里面大多是单个人物场景,没有人与人之间的交互,所以NL的优势体现不出来

4. 其他的点

  1. embedded Gaussian variant function: 这个是在non-local论文中提出的

    • (1)式为Non-local计算response的公式,简单说就是计算i与j的相似度,然后再去取j变换后的feature加到i的response中

    • (2)式为Gaussian Function

    • (3)式为non-lcoal中对高斯公式的变换,讲元素先进行embed再计算(θ和φ为transformation matrix)

    • (4)式为普通的dot-product

    • (5)式为concatenate后再进行变换的dot-product

论文笔记Long_Term_Feature_Bank相关推荐

  1. ORB-SLAM3 论文笔记

    ORB-SLAM3 论文笔记 这篇博客 ORB-SLAM3系统 相机模型的抽象(Camera Model) 重定位的问题 图片矫正的问题 视觉惯性SLAM的工作原理 相关公式 IMU初始化 跟踪和建图 ...

  2. 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION

    一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...

  3. 最新图神经网络论文笔记汇总(附pdf下载)

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]近年来,图神经网络变得非常火热,每年顶会在该领域内都会出现大量的研究论文,本文为大家提 ...

  4. [论文笔记] Fast Quality Driven Selection of Composite Web Services (ECOWS, 2006)

    Time: 4.0 hours Jae-Ho Jang, Dong-Hoon Shin, Kyong-Ho Lee, "Fast Quality Driven Selection of Co ...

  5. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

    论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21: ...

  6. 光流 速度_[论文笔记] FlowNet 光流估计

    [论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面 个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...

  7. 论文笔记 《Maxout Networks》 《Network In Network》

    原文出处:http://zhangliliang.com/2014/09/22/paper-note-maxout-and-nin/ 论文笔记 <Maxout Networks> & ...

  8. 论文笔记:HKMF-T: Recover From Blackouts in TaggedTime Series With Hankel Matrix Factorization

    论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts_U ...

  9. 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

    0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...

最新文章

  1. 如何修改 Linkis 依赖的 Spark、Hive 版本?
  2. Jenkins学习七:Jenkins的授权和访问控制
  3. python 温度转换程序_Python程序将米转换为码
  4. python 如何判断一个函数执行完成_Python 函数为什么会默认返回 None?
  5. 使用Python 正则匹配两个特定字符之间的字符方法
  6. 解决mysql无法启动,错误1067
  7. 二分查找的平均查找长度_二分查找
  8. HBase的RowKey设计
  9. 交通规划软件功能分析
  10. c#连续打印问题,即进销存销售单打印问题完美解决
  11. linux下anjuta_[分享] Linux下用Anjuta写个Hello World 的C++程序竟如此简单!
  12. 微信管理工具用什么比较好呀
  13. 移动跨平台框架ReactNative活动指示器组件【11】
  14. 禁用win10自动更新bat脚本
  15. 左除与右除的区别--MATLAB
  16. kicad最小布线宽度默认是多少_CABLExpress发布了最新的光纤布线最佳实践指南
  17. 【SAP ABAP问题整理】程序运行超时,修改参数
  18. LARC DL笔记(二) 训练自己的img
  19. PROFINET协议解析-DCP
  20. 一个小众的语言:REBOL(一)

热门文章

  1. TabLayout选中
  2. MABSA(Multimodal Aspect-Based Sentiment Analysis)2022ACL 预训练
  3. Android来电,显示悬浮窗
  4. vim 删除行首和行尾空格
  5. Q-Learning的学习及简单应用
  6. 电磁场常见名词整理(不断更新中)
  7. GitLab CI 介绍
  8. sklearn常用工具
  9. “富强“, “民主“, “文明“, “和谐“, “自由“, “平等“, “公正“, “法治“, “爱国“, “敬业“, “诚信“, “友善“
  10. Python--paramiko