目录

0、前沿

1、标题

2、摘要

3、结论

4、重要图表

5、解决了什么问题

6、采用了什么方法

7、达到了什么效果


0、前沿

泛读我们主要读文章标题,摘要、结论和图表数据四个部分。需要回答用什么方法,解决什么问题,达到什么效果这三个问题。 需要了解更多视频理解相关文章可以关注视频理解系列目录了解当前更新情况。

Video Transformer Network论文下载: https://arxiv.org/pdf/2102.00719.pdf

1、标题

Video Transformer Network

视频Transformer

2、摘要

This paper presents VTN, a transformer-based framework for video recognition. Inspired by recent developments in vision transformers, we ditch the standard approach in video action recognition that relies on 3D ConvNets and introduce a method that classifies actions by attending to the entire video sequence information. Our approach is generic and builds on top of any given 2D spatial network. In terms of wall runtime, it trains 16.1× faster and runs 5.1× faster during inference while maintaining competitive accuracy compared to other state-of-the-art methods. It enables whole video analysis, via a single end-to-end pass, while requiring 1.5× fewer GFLOPs. We report competitive results on Kinetics-400 and Moments in Time benchmarks and present an ablation study of VTN properties and the trade-off between accuracy and inference speed. We hope our approach will serve as a new baseline and start a fresh line of research in the video recognition domain. Code and models are available at: https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md

本文提出了一种基于Transformer的视频识别框架VTN。受视觉Transformer最近发展的启发,我们抛弃了视频动作识别中依赖于3D卷积网的标准方法,并引入了一种通过关注整个视频序列信息来进行动作分类的方法。我们的方法是通用的,同时可以构建在任何给定的2D空间网络之上。在wall runtime方面,与其他SOTA方法相比,它训练速度快16.1倍,在推断期间运行速度快5.1倍,同时保持相当的准确性。它支持整个视频分析,通过一个单一的端到端通过,同时减少1.5倍的GFLOPs。我们报告了在Kinetics-400和Moments in Time基准上的比赛结果,并提出了一个消融实验,关于VTN特性和准确性和推断速度之间的权衡。我们希望我们的方法将作为一个新的基线,并开始在视频识别领域的一条新的方向。代码放在

https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md

3、结论

We presented a modular transformer-based framework for video recognition tasks. Our approach introduces an efficient way to evaluate videos at scale, both in terms of computational resources and wall runtime. It allows full video processing during test time, making it more suitable for dealing with long videos. Although current video classification benchmarks are not ideal for testing long-term video processing ability, hopefully, in the future, when such datasets become available, models like VTN will show even larger improvements compared to 3D ConvNets.

我们提出了一个基于transformer模块的视频识别任务框架。我们介绍了一种从计算资源和wall runtime方面都有效的评估视频规模的方法。它允许在test期间进行全视频处理,使其更适合处理长视频。虽然目前的视频分类基准对于测试long-term的视频处理能力并不理想,希望在未来,当这些数据集可用时,像VTN这样的模型将显示出比3D卷积更大的潜力。

4、重要图表

图1:视频Transformer。链接三个模块:

一个2D空间骨干网f(x),用于特征提取。

接着是一个基于时间注意力的encoder,它使用特征向量()结合位置编码。

分类MLP的[CLS]被处理成最终的一个分类预测。

图2:从Kinetics-400数据集中的abseiling分类视频中平均提取16帧。分析视频的上下文和关注相关部分,比分析围绕特定帧构建的几个片段更直观,因为许多帧可能会导致错误的预测。

表1:不同骨干网络变体的VTN在Kinetics-400验证集上的性能。使用完整的视频推断,报告了top1和top5的准确率。我们报告了在ImageNet上预训练做的工作,和单裁剪的top-1准确性,() 表示使用了数据增强。

表2: K400上的消融实验。使用全视频在验证集上的top1和top5精度。

图3:举例说明[CLS]令牌的所有单一注意层权重 vs 从一段视频中抽出16帧。高权重用暖色调黄色标记,低权重用冷色调蓝色标记。在abseiling分类的视频上,与使用不相关信息的分片相比表现出了更高的权重。这个模型对视频来说正在“abseiling”。

图4:在K400上,注意力对训练和验证的影响曲线。针对正两种情况,我们训练了一个类似的具有三个Longformer层的ViT-B-VTN。我们在学过的注意力头肩修改注意力头,和固定注意力分别测试。

表3: 测试需要每个模型需要的时间。我们列出训练一个epoch需要多长时间,以及需要多少个epoch才能达到最佳性能。我们比较了每个模型top1和top5精度和参数量。(*)的代码我们使用Facebook的slowfast代码 https://github.com/facebookresearch/slowfast

我们模型用30views报告了精度,为了计算slowfast-16x8-r101在gpu上的时间,我们使用了16size的batch。我们尽可能根据原始的论文报告epoch的数目。所有其他模型,包括NL I3D,都使用我们的代码进行训练,并使用完整的视频推断方法进行评估。(论文代码链接在摘要里。)(†)标记的最后一行的模型,我们进行了广泛的数据增强训练。

图5:我们实现的NL I3D 和 DeiT-B-VTN 在K400上的学习曲线。我们报告了top1的学习和验证曲线。top1精度训练是基于单随机片计算的,而验证我们使用的全视频推断。DeiT-B-VTN在训练和验证的每个步骤都表现了很高的性能,在25个epoch达到最优,而NL I3D需要50个epoch才能达到最优。

表4: 推断的GFLOPs数。(*)模型还是从上面网站上下的。我们使用下载代码,复现了slowfast-8x8-r50结果,报告是77%我们获得了76.45%。当使用全视频推断运行模型时,性能大约下降了8%。我们没有跑slowfast-16x8-r101,因为它没发布。多view的GFLOPs,通过每个view的GFLOPs累加。1层的ViT-B-VTN获得了78.6%的top1精度,与SlowFast-16X8-R101比低了0.3%,但减少1.5X的GFLOPs。

表5:比较MiT-v1和MiT-v2.(*)的代码链接上https://github.com/zhoubolei/moments_models

5、解决了什么问题

大火的tansformer是否可用于视频

6、采用了什么方法

attention时间信息,构建VTN网络

7、达到了什么效果

视频识别上与其他SOTA方法相比,训练速度快16.1倍,推断快5.1倍,准确性不会下降。

VTN泛读【Video Transformer Network】相关推荐

  1. TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】

    目录 0.前沿 1.标题 2.摘要 3.结论 4.重要图表 5.解决了什么问题 6.采用了什么方法 7.达到了什么效果 0.前沿 泛读我们主要读文章标题,摘要.结论和图表数据四个部分.需要回答用什么方 ...

  2. 【论文泛读】 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

    [论文泛读] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift ...

  3. 英语外刊精读(Part 2):day1,泛读;day2, 精读(上);day3, 精读(下)

    目录 阅读方法 day1 day2 day3 宗旨 day1/2笔记 思考 学习安排 第一段 单词 词组.句子 第二段 单词 词组.句子 第三段 单词 词组.句子 第四段 单词 词组.句子 第五段 单 ...

  4. 方面级情感分析论文泛读02:Syntax-Aware Aspect-Level Sentiment Classification with Proximity-Weighted Convolution

    提示1:原文链接 提示1:代码链接 文章目录 前言 一.论文信息 二.笔记要点 2.1. 目前存在的问题 2.2. 目前解决方法: 2.3.本文方法和创新点 2.4. 实验效果 2.5. 模型结构 2 ...

  5. I3D泛读【Que Vadis,Action Recognition?A New Model and the Kinetics Dataset】

    目录 0.前沿 1.标题 2.摘要 3.结论 4.重要图表 5.解决了什么问题 6.采用了什么方法 7.达到了什么效果 0.前沿 泛读我们主要读文章标题,摘要.结论和图表数据四个部分.需要回答用什么方 ...

  6. 【论文泛读】 Deep Learning 论文合集

    [论文泛读] Deep Learning 论文合集 文章目录 [论文泛读] Deep Learning 论文合集 Batch Normalization: Accelerating Deep Netw ...

  7. [Video Transformer] UniFormer:Unified Transformer for Efficient Spatial-Temporal Representation Lear

    UniFormer:Unified Transformer for Efficient Spatial-Temporal Representation Learning https://arxiv.o ...

  8. DUF:Deep Video Super-Resolution Network Using Dynamic Upsampling Filters ...阅读笔记

    DUF:Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Com ...

  9. 会在精读和泛读中自由切换的神经网络

    雷锋网(公众号:雷锋网)按:本文原作者为深度好奇研究组,原发表于公众号"深度好奇AI"(deeplycurious).雷锋网已获授权转载. 论文题目:Zooming Network ...

  10. 【论文泛读】 ResNet:深度残差网络

    [论文泛读] ResNet:深度残差网络 文章目录 [论文泛读] ResNet:深度残差网络 摘要 Abstract 介绍 Introduction 残差结构的提出 残差结构的一些问题 深度残差网络 ...

最新文章

  1. jquery 图片裁剪 java_[Java教程]5 款最新的 jQuery 图片裁剪插件
  2. boost::push_front相关的测试程序
  3. python程序把文件编码转换
  4. JVM调优总结(十一)JVM 几个重要的参数
  5. python怎么解释语言_python是解释型语言吗
  6. 互联网日报 | 安邦保险集团将申请解散并清算;360中原总部落户郑州;英伟达400亿美元收购ARM...
  7. 宾利为什么卖这么贵?
  8. python模态窗口_python webdriver 对模态窗口的处理
  9. NOJ——[1480] 懒惰的风纪委Elaine
  10. 平板电脑可以用手写的计算机软件,手写平板电脑哪款好 手写平板电脑有哪些推荐...
  11. 将洛奇的MML乐谱转为beep(蜂鸣器)乐谱
  12. win10磁盘管理_一步一步的详细讲解Win10磁盘分区教程
  13. xp打开网页显示服务器错误怎么办,winxp系统IE浏览器出现Internet无法打开站点错误提示怎么办...
  14. 关于技术型人才与研究型人才
  15. 软件测试面试-为什么选择软件测试?
  16. MyBatis引起的SQL语法错误
  17. R数据分析:生存分析的列线图的理解与绘制详细教程
  18. 媒体查询 iPad 竖屏
  19. 【mac】禁用烦人的系统快捷键(⌘M、 ⌘H....)
  20. Linux | 将文件移动到指定文件夹中

热门文章

  1. 直播购物平台应开发的功能
  2. xsmax进入dfu模式_iPhone XR/XS/XS Max 何如进入恢复模式或 DFU 模式?
  3. IOS越狱和Android Root检测
  4. Python写个小游戏:看图猜成语(上)
  5. matlab 不见了,matlab命令窗口不见了
  6. python相关性分析的散点图怎么做_相关性分析 散点图
  7. 凤凰院凶真 解题报告
  8. java中方法重载和重写的区别
  9. yaml 格式错误 did not find expected key
  10. GAN的量化评估方法——IS和FID,及其pytorch代码