文章题目:Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition(CVPR2018)

http://openaccess.thecvf.com/content_cvpr_2018/papers/Sun_Optical_Flow_Guided_CVPR_2018_paper.pdf

摘要部分:开头一句话指出motion representation在人体动作识别中起着至关重要的作用,然后就直接切入自己的模型的简介,本文引入了一个新的紧凑的motion representation,叫做optical flow guided feature(OFF)。OFF是从optical flow的定义中发源而来的,并且和optical flow正交。之后又介绍了一些其他OFF的特征,最后简介了一下实验情况。

既然是叫optical flow guided feature,又和optical flow正交,那么就要先介绍一下optical flow。传统的optical flow当中有一个很著名的限制,叫做brightness constant constraint

这里面I表示像素值,x,y,t分别是空间两个维度和时间一个维度,△x,y,t表示的是很小的变化量。而对于feature level,也就是从原始像素值中用函数得到的feature,也有类似的表述

也就是不仅亮度在时空上具有连续性,对于坐标值的小改变是不变的,由亮度值计算出来的feature也是具有这种稳定性的。用p=(x,y,t)来表示一个位置,那么将上式可改写为

如果两边都除以△t,那么就得到

这里面的vx和vy两个东西物理意义暂不明确,被称作volecity of feature point at p,feature点的速度,而对于x,y,t求的偏导数也就是对空间和时间求的梯度。当,也就是说没有在原始像素值基础上进行特征提取时,这时候的就被称作optical flow。将optical flow从的情况推广到的情况,就被改称为feature flow,从上式可以看出,和包含了feature flow的向量是垂直的,当feature flow改变的时候也跟着改变,也就是说是guided by feature level optical flow(也就是feature flow)的,因此就将称为optical flow guided feature(OFF)。

网络结构的概览可以用下图表述

整个网络有三个子网络,,三个子网络各有各的用处。分别是feature generation sub-network,OFF sub-network,classification sub-network。feature generation sub-network就用普通的CNN网络抓取出一些基础的feature,然后OFF sub-network再从中抓取出OFF feature,接着,这些feature会输入到一些堆叠在一起的residual block之中进一步获得更加精细的feature,这两个sub-network输出的feature再输入到classification sub-network得到最终的分类结果,更加精细的网络结构图可以见下图

首先,基础的feature 是用加了ReLU和max-pooling的卷积网络抓取出来的,网络结构选择的是BN-Inception,这个feature generation network也可以用其他网络结构代替。OFF sub-network包含多个OFF unit,不同的unit使用不同深度的特征,就像图中所示。每一个OFF unit包含一个OFF layer,用来生成OFF,生成OFF的过程其实可以用下图表示

首先输入的feature map的每一个位置都会使用一个1×1的卷积核将feature的channel数变成所需的固定大小,本文中是无论输入多少都变成128维的。之后用sobel算子计算空间维度上的梯度,用相邻帧对应位置像素值相减获得时间维度的梯度,这些梯度都计算完了就是得到了OFF了,将他们连接在一起并且连接上上一个level输出的lower level OFF feature,之后输入到residual network中,sobel算子其实很简单,如下所示

这个是分别生成x和y方向的梯度数据,也就是一个固定权重的kernel,用来计算像素值的差值。

在连接不同OFF unit的residual block中,OFF的dimension还会进一步减小,节约计算资源。residual block使用的是ResNet-20,不使用batchnorm,作者声称是为了避免过拟合。此外,OFF unit其实是可以加到一般的CNN layer中来辅助模型的。

最后是classification sub-network,classification sub-network将不同来源(指的应该是figure3中的三个score,但是有一点很疑惑,就是t和t+△t不都是原video吗?这两个的输出score有啥区别呢)feature拿来,分别使用inner-product classifier得到相应的classification score,对于所有sampled frames得到的classification score(这里说的又像是从video中提出的每一帧feature map都要计算一个相应的classification score)通过取平均值的方式合并在一起。这里其实不是很清楚最终的分类结果到底是怎么输出的,之后作者又介绍了,采取和TSN一样的设置,video中不是每一个frame都参与计算的,是要抽样的,抽取出来的每一个frame对应一个segment(一般来讲segment不一定是frame),每一个segment都会输出一个class score,对于OFF sub-network的各个segment的输出score通过average pooling来得到一个sub-network level的score,为了获得video-level的score,还需要考虑feature generation sub-network的输出score,也可以采取同样的average pooling的方法进行处理。此外,本文的feature generation sub-network和OFF sub-network是分开训练的,第一阶段是用已有的手段训练feature generation sub-network,第二阶段是固定feature generation sub-network,然后训练OFF sub-network。

总结一下,本文提出的representation名字叫做optical flow guided feature,但是实际计算的是时空的梯度,好像只是介绍了一下这个feature和feature level optical flow正交,之后就再也没用到过optical flow。此外,我觉得这个对时空计算梯度,计算差值的思想其实是本文的关键,因为处理video的问题,需要抓取的就是变化的信息,有一篇skeleton based action recognition的论文中也采取了类似的手段,计算了相邻两帧的关节坐标值的差值作为motion data,然后再进行feature extraction。

读书笔记22:Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recogni相关推荐

  1. Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition 翻译

    光流引导特征:视频动作识别的快速鲁棒运动表示 项目地址:https://github.com/kevin-ssy/Optical-Flow-Guided-Feature 摘要 运动表示在视频中的人类动 ...

  2. 《阅读的方法》读书笔记2-2:遥远的地方

    Day11 他顾,书读多了,好奇心起来了,就不免想找来些许禁书来读,一方面是想看看不同人的不同视角,帮助自己全面思考,另一方面是想知道究何原因被禁,有没有因被禁而湮没的事实.当然这就要求我们有一定的甄 ...

  3. 数论概论读书笔记 22.二次互反律

    二次互反律 对于一个给定的数aaa,我们要确定哪些素数p" role="presentation">ppp以aaa为二次剩余.在前一章中解决了a=−1" ...

  4. 论文阅读:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

    文章目录 1. 论文总述 2. RAFT结构被传统算法所启发 3. RAFT的三个重大创新点 4. 光流算法需要解决的难点 5. 传统光流算法简介及缺点 6. Fast DIS 有可能存在的问题 7. ...

  5. 程序的加载和执行(四)——《x86汇编语言:从实模式到保护模式》读书笔记24

    程序的加载和执行(四)--<x86汇编语言:从实模式到保护模式>读书笔记24 通过本文能学到什么? 怎样跳转到用户程序 用户程序通过调用内核过程完成自己的功能 怎样从用户程序返回到内核 接 ...

  6. 论文笔记【A Comprehensive Study of Deep Video Action Recognition】

    论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...

  7. 视觉里程计 | OF-VO:Robust and Efficient Stereo Visual Odometry Using Points and Feature Optical Flow

    博主github:https://github.com/MichaelBeechan 博主CSDN:https://blog.csdn.net/u011344545 代码执行环境:Windows 8 ...

  8. 小啊呜产品读书笔记001:《邱岳的产品手记-12》第22讲 产品经理的图文基本功(上):产品文档 23讲产品经理的图文基本功(下):产品图例

    小啊呜产品读书笔记001:<邱岳的产品手记-12>第22讲 产品经理的图文基本功(上):产品文档 & 23讲产品经理的图文基本功(下):产品图例 一.今日阅读计划 二.泛读& ...

  9. 《Deep Learning With Python second edition》英文版读书笔记:第十一章DL for text: NLP、Transformer、Seq2Seq

    文章目录 第十一章:Deep learning for text 11.1 Natural language processing: The bird's eye view 11.2 Preparin ...

最新文章

  1. Vue项目中使用svg文件
  2. java难学还是pythonnanxue_关于python:为什么numpy中的“ NaN”比“ -np.inf”更小?
  3. “scikit-learn(sklearn) 官方文档中文版”
  4. css3直线运动_纯css3动画--边框线条动画
  5. Typescript1-基本语法
  6. 考研小作文真题、范文及讲解
  7. Ubuntu下载安装VSCode(解决安装失败问题)
  8. 电脑广告弹窗如何操作过滤屏蔽,经验技巧!怎样设置弹窗自动拦截?
  9. 爬虫练习——爬取2020kpl王者荣耀职业联赛
  10. 小学三年级另类语文题难住大学副教授(图)
  11. 生产计划排程为什么会这么难?
  12. 实现 JavaScript 哈希算法 包含 md5, sha1 sha256
  13. 作为产品助理的这一年
  14. 谷歌浏览器连接超时_系统超时重试机制(OpenResty/Nginx)
  15. 仿ios桌面vivo_vivo仿ios主题教程 vivo设置ios主题的方法
  16. 输电线路在线监测覆冰预警系统
  17. 用友二次开发之科脉TOT3凭证接口
  18. UCS-2、UCS-4
  19. Qtree LCT系列
  20. 商家中心设计 多sku商品发布_拼多多商品及sku发布规则

热门文章

  1. 经济学计算机化,经济学/经济学与计算机交叉方向master项目介绍
  2. Transformer框架时间序列模型Informer内容与代码解读
  3. C++制作汉字版国际象棋(3)
  4. tcp伪报头_常用网络数据包报头结构
  5. JavaWEB三:Javascript
  6. 深入了解Zookeeper系列
  7. java strtotime_PHP strtotime()与mktime():日期转时间戳
  8. js 毫秒转天时分秒
  9. making sure all `forward` function outputs participate in calculating loss.
  10. 奥可视gps连连看 哪款与你最为匹配