【CV论文阅读】Rank Pooling for Action Recognition
这是期刊论文的版本,不是会议论文的版本。看了论文之后,只能说,太TM聪明了。膜拜~~
视频的表示方法有很多,一般是把它看作帧的序列。论文提出一种新的方法去表示视频,用ranking function的参数编码视频的帧序列。它使用一个排序函数(ranking function)主要基于这样的假设:帧的appearance的变化与时间相关,如果帧vt+1在vt后面,则定义;此外,假设同一动作的视频帧序列,学习到的排序函数的参数,应该的大致一致的。但实际上,后面的假设并没有给出严格的证明,只能说实验的结果证明了这样的想法。
参数定义
假设输入的原始帧为x,则一个视频的帧序列为。把原始帧序列经过smooth操作,得到新的序列。但实际上,这个新的序列,可以是与原始帧有同样大小的image,也可以是原始帧的特征向量。视频的实际动态信息为D,而使用一个线性排序函数编码视频的动态信息为,u是函数的参数,也就是需要学习的对象,并用它来表示一个视频。那么,学习的目标就是
Rank pooling
Rank pooling 的方法是使用一个RankSVM的学习排序算法计算的。整个Rank pooling的学习过程可以总结如下:(1)输入的数据为处理过的帧序列V,由于RankSVM实际上是有监督学习,所以序列的顺序是知道的(2)如上定义了序列的先后顺序,定义正例样本为,其中时间ti在tj之后,反例样本为它的相反数。(3)可以通过SVM的学习算法,学习如下的凸优化问题
(4)如果学习到的参数为u,则一个vi的score定义为,并且有。
Rank pooling方法的优点
(1)与其他的pooling方法对比,如max pooling,average pooling对比,它的鲁棒性更好。
(2)训练的过程是一个最优化问题,所以它的参数可以很好地表达数据的隐含结构。
其他参数化的视频表示方法
论文在这里主要介绍了一种PCA的方法,提取k个特征向量,达到降维的目标,这k个主成分同样反映了视频序列的结构。
Smooth操作
这里使用的smooth的操作是time varying mean vector,定义一个mean为,则smooth后的image为。使用time varying mean vector学习RankSVM之后的向量u,计算每一帧的score,如下图
可以看到,它几乎是有序严格上升的,这表明可以很好地区分出帧的先后顺序。从另一个方面而言,这种方法可以看到它刻画了帧与时间的关系。
非线性的rank pooling
通过对输入应用一个非线性映射来获得。由于RankSVM其实也是学习SVM,所以可以应用一个非线性的核,论文选用的是Hellinger核:
训练的过程
(1)对输入的每一帧,计算它们的特征向量(HOG、HOF、MBH、TRJ)(2)对特征向量进行smooth,然后通过学习RankSVM得到参数u(3)通过训练数据来类别的SVM。
对于第1、2步的提取特征向量一步,似乎并不是必要的,个人认为。
转载于:https://www.cnblogs.com/jie-dcai/p/5755650.html
【CV论文阅读】Rank Pooling for Action Recognition相关推荐
- 【CV论文阅读笔记】使用DRN网络(双重回归网络)解决SR问题
[CV论文阅读笔记]使用DRN网络(双重回归网络)解决SR问题 本篇笔记来自CVPR2020年论文:Closed-loop Matters: Dual Regression Networks for ...
- 《论文阅读》EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa
<论文阅读>EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa 简介 思路出发点 任务定义 模 ...
- 【CV论文阅读】 Fast RCNN + SGD笔记
Fast RCNN的结构: 先从这幅图解释FAST RCNN的结构.首先,FAST RCNN的输入是包含两部分,image以及region proposal(在论文中叫做region of inter ...
- 【CV论文阅读】:Rich feature hierarchies for accurate object detection and semantic segmentation...
R-CNN总结 不总结就没有积累 R-CNN的全称是 Regions with CNN features.它的主要基础是经典的AlexNet,使用AlexNet来提取每个region特征,而不再是传统 ...
- 【论文阅读】Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling
利用视觉对齐顺序坐标建模改进表格识别 论文来源 论文内容 Abstract Introduction Related Work Task Definition Methodology CNN图像编码器 ...
- [论文阅读笔记44]Named Entity Recognition without Labelled Data:A Weak Supervision Approach
一,题目 Named Entity Recognition without Labelled Data:A Weak Supervision Approach 无标记数据的命名实体识别: 一种弱监督方 ...
- 记录 之 最近阅读的动作识别(action recognition)工作
介绍: 其中C3D是3d卷积的比较有意义的开端,I3d在C3D之后做了一系列研究,包括引入双流网络,和LSTM网络,并使用已经训练好的2D图像分类模型的参数维数扩充后用做3D网络的预训练模型.S3D是 ...
- 论文阅读笔记 (CVPR 2019) Gait Recognition via Disentangled Representation Learning
一.论文摘要 步态是个体的行走方式,是最重要的生物特征识别手段之一.现有的步态识别方法大多以轮廓或关节体模型为步态特征.这些方法在处理诸如服装.携带和视角等混杂变量时会导致识别性能下降.为了解决这 ...
- 论文阅读:CVPR2016 Paper list
原文地址:http://blog.csdn.net/xizero00/article/details/51386667 在过几天CVPR2016就要召开了,先放个list. ORAL SESSION ...
最新文章
- SharePoint2010 内容类型剖析
- PHPCMS V9自定义分页函数
- OpenCV放大视频Upscaling video
- 四川中级职称计算机考试考b级,四川省职称计算机B级考试1卷
- python 复数求模_Python基础语法知识汇总(学习党的最爱!)
- 图形用户界面和交互输入方法---图形用户界面的设计
- java中的关键事件是_java – 自定义关键事件
- Android图形显示系统——下层显示1:基础知识与相关文件
- 装饰工程预算软件测试自学,学预算要多久能学出来 预算没人带怎么自学
- html实心圆点特殊符号,和平精英名称添加圆点符号的方法 和平精英圆点符号代码分享...
- dell进入u盘启动模式_戴尔主板bios设置u盘启动
- 每日学英语之041104
- 荣耀10手机计算机科学计算器,荣耀赵明回应手机计算器10%问题:国外计算小费使用...
- 4.3 Matplotlib 图中图
- 如何获取伪装ip下的真实ip地址
- Angular4与PrimeNG
- Ansible playbook
- ggplot2学习笔记7:通过图层逐层构建图形
- c3p0的坑导致并发性能问题
- [转] 高度近视也不用带眼镜了 只要有恒心,坚持三年,即使800度近视也可以根治。
热门文章
- 关于mysql中外键关联的一些个人理解
- [BZOJ 1588] [HNOI 2002] 营业额统计
- 天空之城 matlab,[转载]matlab演奏《天空之城》代码
- python编程口诀_科学网—Python编程技巧汇总 - 高关胤的博文
- Eigen(2) 模块与头文件
- 中值滤波medianBlur
- golang mysql 崩溃_mysql连接问题,goruntime里执行总是出错,程序一直崩溃
- apk去除签名验证工具安卓版_App 签名过期或泄露怎么办?别担心,Google 已经给出解决方案!...
- 汽车电子嵌入式技术篇(二) -autosar中的嵌入式系统函数的调用
- 神经网络最常用的10个激活函数,一文详解数学原理及优缺点