SlowFast使用了一个慢速高分辨率CNN(Slow通道)来分析视频中的静态内容(环境),同时使用一个快速低分辨率CNN(Fast通道)来分析视频中的动态内容(动作)

为了更好的提取slow分支特征,slow通道的计算会更加复杂,Slow通道的计算成本要比Fast通道高4倍。

双分支提取

Slow通道和Fast通道都使用3D RestNet模型,捕捉若干帧之后立即运行3D卷积操作。

Slow通道使用一个较大的时序跨度(即每秒跳过的帧数),通常设置为16,这意味着大约1秒可以采集2帧。
Fast通道使用一个非常小的时序跨度τ/α,其中α通常设置为8,以便1秒可以采集15帧。Fast通道通过使用小得多的卷积宽度(使用的滤波器数量)来保持轻量化,通常设置为慢通道卷积宽度的⅛,这个值被标记为β。使用小一些的卷积宽度的原因是Fast通道需要的计算量要比Slow通道小4倍,虽然它的时序频率更高。

3D卷积核的尺寸记作{T×S², C} ,其中T、S和C分别表示时序Temporal(time), 空间Spatial(weight x height)和频道Channel(channel)的尺寸。跨度记作{temporal stride, spatial stride ^ 2}。速度比率(跳帧率) 为 α = 8 ,频道比率为1/β = 1/8。τ 设置为 16。绿色表示高一些的时序分辨率,Fast通道中的橙色表示较少的频道。

特征融合


如图中所示,来自Fast通道的数据通过侧向连接被送入Slow通道,这使得Slow通道可以了解Fast通道的处理结果。单一数据样本的shape在两个通道间是不同的(Fast通道是{αT, S², βC} 而Slow通道是 {T, S², αβC}),这要求SlowFast对Fast通道的结果进行数据变换,然后融入Slow通道。论文给出了三种进行数据变换的技术思路,其中第三个思路在实践中最有效。
效果:(3)>(1)>(2)

(1)Time-to-channel:将{αT, S², βC} 变形转置为 {T , S², αβC},就是说把α帧压入一帧
(2)Time-strided采样:简单地每隔α帧进行采样,{αT , S², βC} 就变换为 {T , S², βC}
(3)Time-strided卷积: 用一个5×12的核进行3d卷积, 2βC输出频道,跨度= α.

有趣的是,研究人员发现双向侧链接,即将Slow通道结果也送入Fast通道,对性能没有改善。

在每个通道的末端,SlowFast执行全局平均池化,一个用来降维的标准操作,然后组合两个通道的结果并送入一个全连接分类层,该层使用softmax来识别图像中发生的动作。

行为识别框架Slowfast解读相关推荐

  1. cvpr2020 人脸检测与识别_CVPR 2020 | 元学习人脸识别框架详解

    本文介绍的是CVPR2020 oral论文<Learning Meta FaceRecognition in Unseen Domains(MFG[1])>,作者来自明略科技集团明略科学院 ...

  2. 论文推介:CaTT-KWS—基于级联Transducer-Transformer的多阶段自定义关键词识别框架

    关键词识别(Keyword Spotting,KWS)旨在从连续的音频流中检测特定的关键词,被广泛应用于各种端侧设备中作为语音交互的入口组件,例如智能家居的设备唤醒(WuW)和设备操控(Comand& ...

  3. CVPR2020行人重识别算法论文解读

    CVPR2020行人重识别算法论文解读 Cross-modalityPersonre-identificationwithShared-SpecificFeatureTransfer 具有特定共享特征变换 ...

  4. CVPR 2020 | 元学习人脸识别框架详解

    2020-05-15 23:07:48 本文介绍的是CVPR2020 oral论文<Learning Meta FaceRecognition in Unseen Domains(MFG[1]) ...

  5. ML:MLOps系列讲解之《MLOps的State(工具和框架)》解读

    ML:MLOps系列讲解之<MLOps的State(工具和框架)>解读 目录 MLOps系列讲解之<MLOps的State(工具和框架)>解读 9.MLOps的State(工具 ...

  6. OpenGait:首个步态识别框架开源了!

    关注公众号,发现CV技术之美 本文转自于仕琪团队. 远远地,看一眼你走路方式,就知道你是谁!这就是步态识别技术. 首个步态识别框架OpenGait正式发布了!OpenGait由南方科技大学计算机系于仕 ...

  7. OIF-BSO:一种用于多模优化问题的头脑风暴优化的优化识别框架

    OIF-BSO:一种用于多模优化问题的头脑风暴优化的优化识别框架 参考文献 <An optima-identified framework with brain storm optimizati ...

  8. CVPR 2022 ActivityNet竞赛冠军:中科院深圳先进院提出高低分双模态行为识别框架...

    来源:新智元 本文约2400字,建议阅读10+分钟本文为CVPR 2022 ActivityNet竞赛冠军的方案详解,该方案主要解决真实监控场景下的低分辨率行为识别. 前言 安防监控是智慧城市的重要组 ...

  9. 基于PyTorch的人脸识别框架(翻译)

    内容来源:https://github.com/XiaohangZhan/face_recognition_framework 基于PyTorch的人脸识别框架 Face recognition fr ...

最新文章

  1. [luogu4799 CEOI2015 Day2] 世界冰球锦标赛(折半搜索)
  2. linux网络服务器框架转载
  3. 【Leetcode】刷题题单记录
  4. wxWidgets:wxTopLevelWindow类用法
  5. B08_NumPy 广播(Broadcast)
  6. mysql+order+in索引吗_mysql – 为什么ORDER BY不使用索引?
  7. 去掉字符串不需要的HTML标记(正则表达式)
  8. 【转载】svn代码回滚命令
  9. 第一讲 ISO 17799/27001 标准简介
  10. 异常解决 java.lang.UnsupportedOperationException: Required method destroyItem was not overridden
  11. 容易的面试问题变得更加困难:给定数字1..100,在正好缺少k的情况下,找到缺失的数字
  12. 开发一款系统软件大概需要多少钱呢
  13. 婴儿体重身高增长标准对照表
  14. 常见PCIE X1/X4/X8/X16插槽作用与区别
  15. Cesium中对geojson的处理
  16. 藏宝阁显示角色可买服务器,梦幻西游:刚买角色的藏宝阁上居然有东西,客服说是原号主出售的...
  17. 走对路!在智能时代别捡了芝麻丢了西瓜!
  18. 火车头采集器百度知道聚合采集插件说明文档!
  19. Python与STM32
  20. 面试题:MySQL优化

热门文章

  1. eclipse离线安装PMD(含PMD离线包)
  2. 关于pytorch配置中遇到的问题1(YOLOV5)
  3. 《网络安全应急响应技术实战指南》知识点总结(第9章 数据泄露网络安全应急响应)
  4. Jupyter notebook 如何进入D盘
  5. win10去除桌面快捷方式小箭头
  6. 使用veil进行木马生成
  7. Android5.0录屏
  8. 软件构造复习——面向对象编程(PPT7)
  9. Google Play_SDK(官方API)
  10. ARIMA(Autoregressive Integrated Moving Average Model)