Paper:https://arxiv.org/abs/1711.08496v1
Code:https://github.com/metalbubble/TRN-pytorch
作者:Bolei Zhou, Alex Andonian, Antonio Torralba (CSAIL, MIT)

简述

时间关系推理(Temporal relational reasoning)是指理解物体/实体在时间域的变化关系的能力。受启发于Relation Network,本文提出了Temporal Relation Network(TRN),用于学习和推理视频帧之间的时间依赖关系。relational resaoning一直是近期研究的热点,从图1中我们可以看出对于视频来说时序关系是重要的。

方法

给定视频V,2帧之间的Temporal Relation T2(V)T2(V)T_2(V)可以表示成下式:

其中fifif_i和fjfjf_j表示的是视频第i帧和第j帧的特征,gϕgϕg_\phi表示的就是两帧之间关系矩阵,hθhθh_\theta表示的是如何融合多个帧间的关系得到最终分类的结果。在文中,gϕgϕg_\phi和hθhθh_\theta是用简单的多层感知机(MLP)实现的。具体地,从代码上看,和TSN的代码很像(关于TSN,不知道是啥的同学,可以出门左转看这篇:【论文笔记】视频分类系列 Temproal Segment Networks (TSN))。
TSN的最后一个fc层是直接输出了NFrames*NClasses的score,TRN则是去掉这个fc,然后以3个fc来实现temporal relation:首先两个fc构成了gϕgϕg_\phi的结构,-> NFrames*256D -> NFrames*512D(或256D)。最后1个fc构成了hθhθh_\theta的结构,即输出NFrames*NClasses的score。

同理,3帧之间的Temporal Relation T3(V)T3(V)T_3(V)z则可以表示成下式:

那么如果要实现Multi-scale Temporal Relation,则可以通过简单地相加得到:

比如,考虑2帧relation,3帧relation和4帧relation的情况,则首先随机取出视频中固定数量的帧,做gθgθg\theta和hδhδh\delta得到对应帧数的relation,然后进行最后简单的相加融合,得到最终的检测结果,如下图。

实验

实验主要在Something-Something,Jester,Charades三个数据集上进行。不用UCF101和Kinetics的原因,作者说是因为数据集的采集方式不同导致对temporal reasoning的效果有影响,这个后面实验有解释。UCF101和Kinetics两个数据集是从Youtube上下载视频然后进行标注的。而像Something-Something,Jester,Charades则是完全靠人工根据给定的动作类别来完成动作,所以有清楚的动作开始和结束的分界点,对于说明temporal relational reasoning的重要性有更加好的效果。

在Something-Something数据集上的表现如下,其他数据集见原文。

另外实验部分我觉得比较有意思的是下面这个部分。
为了确定Temporal Relation,即时间顺序关系的重要性,作者做了一个实验。在训练TRN的时候,给出的frame的顺序分别是顺序和shuffle过的,shuffle就是在relation的模块随机shuffle输入frame的顺序。

结果显示,在Something-Something数据集上,是否shuffle对于结果的影响非常大,说明时序对于动作识别的重要性。
但是有意思的是,在UCF101上得到的结果看,是否shuffle并没有什么影响,说明对于UCF101这样的youtube-type的视频来说,动作识别的temporal reasoning的能力并不是那么重要,原因是这类视频对于一个正在进行的动作并没有那么多随意的关系发生(there are not so many casual relations associated with an already on-going activity)。这也是之前说到没有用UCF101和kinetics做实验的原因。嗯实验效果不好就换一个数据集。

另外为了确定时序到底是怎么影响TRN的,作者进一步分析了Something-Something数据集中受shuffle影响最大和最小的类。

发现对于有强烈的方向性的动作(actions with strong directionality and large, one-way movements),比如‘Moving something down’,受益于时序信息最为明显。另外有意思的是,对于相对来说静止的动作,shuffle frames并没有带来精度的下降,反而在某些时候带来了精度的上升,比如类别‘putting something that can’t roll onto a slanted surface so it stays where it is’。对于这种情况,简单地学习帧之间的一致性,而不是temporal transformation可能能带来更好的效果。

所以带来的思考就是,有没有一个模型可以比较好地同时解决上面两种情况,即指导什么时候用temporal relation好,什么时候直接学习帧的表观特征就很好。

【论文笔记】视频分类系列 Temporal Relational Reasoning in Videos (TRN)相关推荐

  1. 【论文笔记】End-to-End Knowledge-Routed Relational Dialogue System for Automatic Diagnosis

    写在前面 hello大家好,我是fantasy,今天起打算在这里分享自己在NLP上的所学所得,第一篇博客相当于对整篇论文的翻译,并不能算严格意义上的论文"笔记",希望之后可以越写越 ...

  2. 行为识别(CVPR2020南京大学腾讯) ~ TEA论文笔记 ~《TEA: Temporal Excitation and Aggregation for Action Recognition》

    有兴趣的朋友可以相互讨论技术 论文:https://arxiv.org/abs/2004.01398 官方代码:https://github.com/Phoenix1327/tea-action-re ...

  3. 【VINS论文笔记】Online Temporal Calibration for Monocular Visual-Inertial Systems 单目视觉惯性系统在线时间标定

    前言 港科大VINS-Mono目前已集成了IMU和cam的在线时间偏差标定.本人就其相关论文进行了阅读,并进行内容整理. 原文:Online Temporal Calibration for Mono ...

  4. 【论文笔记】Exploring Temporal Coherence for More General Video Face Forgery Detection

    * Exploring Temporal Coherence for More General Video Face Forgery Detection 题目:探索更一般的视频人脸伪造检测的时间相干性 ...

  5. TRN:Temporal Relational Reasoning in Videos---论文阅读

    paper https://arxiv.org/pdf/1711.08496v1.pdf code https://github.com/zhoubolei/TRN-pytorch 论文翻译 http ...

  6. 论文笔记:Revisiting Temporal Modeling for Video Super-resolution(重新审视视频超分辨率的时间建模) Part1 系咁嘅啦

    ** 摘要: 视频超分辨率在监控视频分析和超高清视频显示中起着重要的作用,在研究界和工业界都引起了广泛的关注.尽管已经提出了许多基于深度学习的VSR方法,但是由于不同的损失函数和训练数据集对超分辨率结 ...

  7. [论文笔记] chatgpt系列 2.1 DeepSpeed-chat 简介

    DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub

  8. 论文笔记目录(ver2.0)

    1 时间序列 1.1 时间序列预测 论文名称 来源 主要内容 论文笔记:DCRNN (Diffusion Convolutional Recurrent Neural Network: Data-Dr ...

  9. 文献阅读笔记:EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning

    文献阅读笔记 摘要 1 引言 2 相关工作 3 Problem formulation 4 EvolveGraph 5 Experiments 6 结论 EvolveGraph: Multi-Agen ...

  10. 论文浅尝 | 基于神经网络的推理(DeepMind Relational Reasoning)

    本文转载自公众号:徐阿衡. 论文:A simple neural network module for relational reasoning(2017) github代码: https://git ...

最新文章

  1. 开启Linux下Telnet服务
  2. sharepoint列表EventHandle的开发 -转
  3. python getopt模块_python里argparse模块和getopt模块的区别
  4. UVA11349 Symmetric Matrix【数学】
  5. Guava - Collections - Immutable collections
  6. ZStack源码剖析之核心库鉴赏——Defer
  7. 设计一个递归算法由二叉树BT复制产生另一棵二叉树BT1(假设二叉树采用二叉链存储结构)
  8. 【易语言界面开发系列教程之(EX_UI使用系列教程--EX组件(一键换肤))】
  9. 【预测模型】加权移动平均法预测煤炭产值
  10. 国产操作系统(1)UOS安装QT
  11. 关于GX WORKS2中M8002、M8012、M8013无法使用的问题
  12. 移动直播技术秒开优化经验(含PPT)
  13. 极光笔记丨百亿级数据的实时存取优化与实践
  14. Webpack 使用
  15. 一文搞定hive之insert into 和 insert overwrite与数据分区
  16. 软考-信息系统项目管理师-项目风险管理
  17. 侯,旬,月,季,年转换为时间
  18. nginx+keepalived+tomcat+memcache负载均衡搭建小集群
  19. SimSum.ttf下载
  20. RactNative---react-native-storage使用

热门文章

  1. 谷歌跟oracle_Google vs Oracle –判决临近,Oracle的知识产权案件步履蹒跚
  2. xdg在Linux中的用法,Linux – XDG (X Desktop Group)
  3. 软件过程模型的管道理论
  4. 如何用命令行更改计算机用户名,修改计算机用户名,系统自带输入法无法切换(电脑系统win10)...
  5. 4.VEH(向量化异常处理)
  6. xp系统从u盘启动计算机,电脑高手教你如何用u盘启动装xp系统!
  7. 洛谷5339 BZOJ5510 TJOI2019 唱、跳、rap和篮球 容斥 dp 组合数
  8. 华为交换机配置IPSG防止DHCP动态主机私自更改IP地址
  9. 南财计算机专业学科评估,江苏软件工程专业大学排名:江苏哪些大学软件工程比较好?...
  10. 不定式和动名词复合结构是什么