这是期刊论文的版本,不是会议论文的版本。看了论文之后,只能说,太TM聪明了。膜拜~~

视频的表示方法有很多,一般是把它看作帧的序列。论文提出一种新的方法去表示视频,用ranking function的参数编码视频的帧序列。它使用一个排序函数(ranking function)主要基于这样的假设:帧的appearance的变化与时间相关,如果帧vt+1在vt后面,则定义;此外,假设同一动作的视频帧序列,学习到的排序函数的参数,应该的大致一致的。但实际上,后面的假设并没有给出严格的证明,只能说实验的结果证明了这样的想法。

参数定义

假设输入的原始帧为x,则一个视频的帧序列为。把原始帧序列经过smooth操作,得到新的序列。但实际上,这个新的序列,可以是与原始帧有同样大小的image,也可以是原始帧的特征向量。视频的实际动态信息为D,而使用一个线性排序函数编码视频的动态信息为,u是函数的参数,也就是需要学习的对象,并用它来表示一个视频。那么,学习的目标就是

Rank pooling

Rank pooling 的方法是使用一个RankSVM的学习排序算法计算的。整个Rank pooling的学习过程可以总结如下:(1)输入的数据为处理过的帧序列V,由于RankSVM实际上是有监督学习,所以序列的顺序是知道的(2)如上定义了序列的先后顺序,定义正例样本为,其中时间ti在tj之后,反例样本为它的相反数。(3)可以通过SVM的学习算法,学习如下的凸优化问题

(4)如果学习到的参数为u,则一个vi的score定义为,并且有

Rank pooling方法的优点

(1)与其他的pooling方法对比,如max pooling,average pooling对比,它的鲁棒性更好。

(2)训练的过程是一个最优化问题,所以它的参数可以很好地表达数据的隐含结构。

其他参数化的视频表示方法

论文在这里主要介绍了一种PCA的方法,提取k个特征向量,达到降维的目标,这k个主成分同样反映了视频序列的结构。

Smooth操作

这里使用的smooth的操作是time varying mean vector,定义一个mean为,则smooth后的image为。使用time varying mean vector学习RankSVM之后的向量u,计算每一帧的score,如下图

可以看到,它几乎是有序严格上升的,这表明可以很好地区分出帧的先后顺序。从另一个方面而言,这种方法可以看到它刻画了帧与时间的关系。

非线性的rank pooling

通过对输入应用一个非线性映射来获得。由于RankSVM其实也是学习SVM,所以可以应用一个非线性的核,论文选用的是Hellinger核:

训练的过程

(1)对输入的每一帧,计算它们的特征向量(HOG、HOF、MBH、TRJ)(2)对特征向量进行smooth,然后通过学习RankSVM得到参数u(3)通过训练数据来类别的SVM。

对于第1、2步的提取特征向量一步,似乎并不是必要的,个人认为。

转载于:https://www.cnblogs.com/jie-dcai/p/5755650.html

【CV论文阅读】Rank Pooling for Action Recognition相关推荐

  1. 【CV论文阅读笔记】使用DRN网络(双重回归网络)解决SR问题

    [CV论文阅读笔记]使用DRN网络(双重回归网络)解决SR问题 本篇笔记来自CVPR2020年论文:Closed-loop Matters: Dual Regression Networks for ...

  2. 《论文阅读》EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa

    <论文阅读>EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa 简介 思路出发点 任务定义 模 ...

  3. 【CV论文阅读】 Fast RCNN + SGD笔记

    Fast RCNN的结构: 先从这幅图解释FAST RCNN的结构.首先,FAST RCNN的输入是包含两部分,image以及region proposal(在论文中叫做region of inter ...

  4. 【CV论文阅读】:Rich feature hierarchies for accurate object detection and semantic segmentation...

    R-CNN总结 不总结就没有积累 R-CNN的全称是 Regions with CNN features.它的主要基础是经典的AlexNet,使用AlexNet来提取每个region特征,而不再是传统 ...

  5. 【论文阅读】Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling

    利用视觉对齐顺序坐标建模改进表格识别 论文来源 论文内容 Abstract Introduction Related Work Task Definition Methodology CNN图像编码器 ...

  6. [论文阅读笔记44]Named Entity Recognition without Labelled Data:A Weak Supervision Approach

    一,题目 Named Entity Recognition without Labelled Data:A Weak Supervision Approach 无标记数据的命名实体识别: 一种弱监督方 ...

  7. 记录 之 最近阅读的动作识别(action recognition)工作

    介绍: 其中C3D是3d卷积的比较有意义的开端,I3d在C3D之后做了一系列研究,包括引入双流网络,和LSTM网络,并使用已经训练好的2D图像分类模型的参数维数扩充后用做3D网络的预训练模型.S3D是 ...

  8. 论文阅读笔记 (CVPR 2019) Gait Recognition via Disentangled Representation Learning

    一.论文摘要   步态是个体的行走方式,是最重要的生物特征识别手段之一.现有的步态识别方法大多以轮廓或关节体模型为步态特征.这些方法在处理诸如服装.携带和视角等混杂变量时会导致识别性能下降.为了解决这 ...

  9. 论文阅读:CVPR2016 Paper list

    原文地址:http://blog.csdn.net/xizero00/article/details/51386667 在过几天CVPR2016就要召开了,先放个list. ORAL SESSION ...

最新文章

  1. SharePoint2010 内容类型剖析
  2. PHPCMS V9自定义分页函数
  3. OpenCV放大视频Upscaling video
  4. 四川中级职称计算机考试考b级,四川省职称计算机B级考试1卷
  5. python 复数求模_Python基础语法知识汇总(学习党的最爱!)
  6. 图形用户界面和交互输入方法---图形用户界面的设计
  7. java中的关键事件是_java – 自定义关键事件
  8. Android图形显示系统——下层显示1:基础知识与相关文件
  9. 装饰工程预算软件测试自学,学预算要多久能学出来 预算没人带怎么自学
  10. html实心圆点特殊符号,和平精英名称添加圆点符号的方法 和平精英圆点符号代码分享...
  11. dell进入u盘启动模式_戴尔主板bios设置u盘启动
  12. 每日学英语之041104
  13. 荣耀10手机计算机科学计算器,荣耀赵明回应手机计算器10%问题:国外计算小费使用...
  14. 4.3 Matplotlib 图中图
  15. 如何获取伪装ip下的真实ip地址
  16. Angular4与PrimeNG
  17. Ansible playbook
  18. ggplot2学习笔记7:通过图层逐层构建图形
  19. c3p0的坑导致并发性能问题
  20. [转] 高度近视也不用带眼镜了 只要有恒心,坚持三年,即使800度近视也可以根治。

热门文章

  1. 关于mysql中外键关联的一些个人理解
  2. [BZOJ 1588] [HNOI 2002] 营业额统计
  3. 天空之城 matlab,[转载]matlab演奏《天空之城》代码
  4. python编程口诀_科学网—Python编程技巧汇总 - 高关胤的博文
  5. Eigen(2) 模块与头文件
  6. 中值滤波medianBlur
  7. golang mysql 崩溃_mysql连接问题,goruntime里执行总是出错,程序一直崩溃
  8. apk去除签名验证工具安卓版_App 签名过期或泄露怎么办?别担心,Google 已经给出解决方案!...
  9. 汽车电子嵌入式技术篇(二) -autosar中的嵌入式系统函数的调用
  10. 神经网络最常用的10个激活函数,一文详解数学原理及优缺点