2019年, video captioning论文汇总
目录
- CVPR2019:GRU
- CVPR2019:OA-BTG
- CVPR2019:MLE+HybirdDis
- CVPR2019:MARN
- CVPR2019:SDVC
- AAAI2019:FCVC-CF&IA
- AAAI2019:TAMoE
- AAAI2019:MGSA
- AAAI2019:TDConvED
- ICCV2019:POSSG-GFN
- ICCV2019:SRL-VCT
- ICCVW2019:Tale
- ICCVW2019:EtENet-IRv2
- IJCAI2019:ViCap(new task)
- TCSVT2019:DS-RNN
- TIP2019:CAM-RNN
- TMM2019:STAT
CVPR2019:GRU
- 题目
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
下载链接 - 动机
现有的方法主要关注使用RNN生成captions,visual features都是直接通过CNN提取。作者认为visual features也是很重要的,于是提出使用层级快速傅里叶变换得到视频的时序信息。此外,本文还从object detector中获取高级语义信息。 - 贡献
- 本文提出一种visual encoding技术,可以有效的编码video的时空信息,并将相关的高级语义信息嵌入到visual codes中。
- 本文提取的visual features中包含objects的属性、出现频率、位置变化情况。
- 本文建立了一个GRU-based language model,达到了最新的state-of-the-art。
- 方法
本文方法的整体框架如下图所示。
从图中可以看出,本文对video frames同时使用2D-CNN和3D-CNN提取特征,将提取到的特征进行如下图所示的傅里叶变换。整体框架图中,最上侧和最下侧有两条红色的流程线,上侧的代表object的高级语义信息,下侧的代表action的语义信息,分别和Dictionary取交集后,得到特征向量。最后,将2D特征、3D特征、两种语义信息输入到Sequence model中,即可得到模型输出。
- 实验
在MSVD数据集上的实验结果。GRU表示使用了两层GRU,MP表示使用均值池化处理视频的时间维度,C3D和IRV2代表计算visual code的方法,CI表示将C3D和IRV2一起使用,EVEhft\rm EVE_{hft}EVEhft表示使用傅里叶变换,EVEhft+sem\rm EVE_{hft+sem}EVEhft+sem表示使用傅里叶变换和高级语义信息。
结果展示:
CVPR2019:OA-BTG
- 题目
Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
下载链接
本文出自Facebook AI - 动机
captions的质量往往依赖于video representations,因此,找出视频中的显著物体,并了解它们的运动轨迹,对提升captions的质量有很大帮助。 - 贡献
- 使用Bidirectional Temporal Graph(双向时序图)捕获显著物体的时序信息和global context,从而生成更准确的captions。
- 基于显著物体和和global frame使用Object-aware Aggregation得到更具有判别力的特征,并使用分层注意力机制得到不同objects的contributions。
- 方法
本文方法的整体框架如下图所示,共分为三部分:Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。
第一部分,Bidirectional Temporal Graph。 这部分先使用目标检测方法处理视频的关键帧,提取出Object Regions。然后,使用相似性度量处理出object的时序图,正序和反序的都要处理。相似性度量主要从三方面(特征相似性、IoU、面积)考虑,具体计算公式形如公式(1)。
第二部分,Object-aware Aggregation。 这部分使用VLAD模型,对区域序列和全局帧序列进行处理。由于区域序列和全局帧序列均有正序和反序,故得到四组特征序列。第三部分,Decoder。 对于区域序列,使用分层注意力机制(时间(or 时序)注意力+空间注意力)。对于全局帧序列,使用时序注意力。添加attention后,将特征输入到GRU中得到captions。
- 实验
在MSVD数据集上的实验结果
在MSR-VTT数据集上的实验结果
消融实验
Successful结果展示
Failed结果展示,感觉生成的也挺对的。
CVPR2019:MLE+HybirdDis
- 题目
Adversarial Inference for Multi-Sentence Video Description
下载链接 - 动机
现有的video captioning方法中,先将视频分为多个events,再对每个event生成caption。这样得到的captions对于单个event看起来比较好,但是从整个视频来看,多个captions之间存在冗余和不连贯。因此,本文从上述问题出发,提出了Adversarial Inference方法。
- 贡献
- 使用对抗学习生成video captions (descriptions),基于判别器得到的score选择最优sentence。
- 提出hybrid discriminator(混合判别器),由三种特定的判别器组合而成,取得了比单一判别器更好的结果。
- 在多个标准上和其他方法进行了对比,在human evaluation中得到了最优的结果。
- 方法
本文方法的整体框架如下图所示。整体上共分为三部分:Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中,Generator用于编码event的特征(本文假设segment已经给出),提取三种特征,分别是:帧级别的特征、使用3D卷积提取的特征和区域特征。并对特征添加了attention,再将三种特征拼接,使用fc得到最终特征。Sampling from the Generator。Selecting the sentence based on the Discriminator使用Discriminator(判别器)选择最优sentence。
判别器的结构如下图所示,使用三类信息对sentence进行判别,分别是:Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中,Visual Discriminator用于判断sentence和event的关联程度,这部分和Generator有些类似,提取出video的三种特征,同时提取sentence的BOW特征(词袋特征),将四者结合得到score。Language Discriminator用于判断句子的结构和语义信息,这部分使用双向LSTM对sentence进行编码,在通过fc层回归出score。Pairwise Discriminator用于判断多个sentences之间的关联程度,使用双向LSTM对相邻的sentence进行编码,再通过fc层回归出score。
- 实验
在ActivityNet Captions数据集上的实验结果:
消融实验结果展示:
CVPR2019:MARN
- 题目
Memory-Attended Recurrent Network for Video Captioning
下载链接
本文出自腾讯和南科大王向荣老师 - 动机
已有的video captioning方法的框架大多是encoder-decoder,在生成captions时,只能从一个video中读取信息。而本文作者发现,有很多actions和context在不同的训练数据中会反复出现,只使用一个video生成caption会丢失很多有用信息。故提出了Memory-Attended Recurrent Network,通过在传统的encoder-decoder框架中添加attended memory decoder模块,利用多个video来辅助当前处理的video生成caption。
- 贡献
- 本文方法可以capture每个单词与多种similar visual contexts的关系。
- 本文模型可以对每个单词获得更加全面的理解,提高captions的质量。
- 本文的built memory结构可以显式地对相邻单词的兼容性进行建模,不像大多数现有模型那样要求模型进行隐式学习。
- 实验结果表明,本文方法已超过state-of-the-art。
- 方法
本文方法的整体架构如下图所示,共分为三个部分:Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中,Encoder和Attention-based Recurrent Decoder和传统的Encoder-Decoder架构基本一样。Encoder部分,首先对video进行2D和3D特征提取,并添加attention,再进行concatenate,得到最终特征。Decoder部分,使用GRU生成captions。
本文主要的方法在Attended Memory Decoder。这部分用于辅助Attention-based Recurrent Decoder,提高captions的质量。具体的作用在于:①对于每个单词,可以从多个video scenes中捕获有用信息;②传统方法中,预测下一个单词通常只依赖于当前单词和其context,本文方法可以明确的对相邻单词的兼容性进行建模。Attender Memory Decoder的核心在于Memory Structure。在本文的memory中,存储的是单词www到描述ddd的映射<w,d><w,d><w,d>。而ddd主要包括三方面信息:视觉上下文(visual context)grg_rgr、词嵌入(word embedding)wrw_rwr和辅助特征(auxiliary features)uru_rur。其中,grg_rgr的生成方式如下图所示,提取所有和单词wrw_rwr相关的videos的2D和3D特征,添加attention后,选Top-k个,进行标准化,再加和即可。ere_rer使用的是Attention-based Recurrent Decoder训练得到的。uru_rur是辅助特征,本文使用的是video类别信息。
除上文以外,本文还提出了AC Loss,形如公式(13)。主要思想是,在对2D特征添加attention时,相邻两帧的权重应该相差不大,故在损失中添加了抑制项∣ai,t(n)−ai−1,t(n)∣|a^{(n)}_{i,t}-a^{(n)}_{i-1,t}|∣ai,t(n)−ai−1,t(n)∣。
在训练时,本文先训练传统的Encoder-Decoder部分,再训练Attender Memory Decoder。 - 实验
在MSR-VTT和MSVD数据集上进行的消融实验
对memory components进行的消融实验
在MAR-VTT数据集上,与其他模型的对比
在MSVD数据集上,与其他模型的对比
实验结果展示
CVPR2019:SDVC
- 题目
Streamlined Dense Video Captioning
下载链接 - 动机
这篇文章是做Dense Video Captioning(以下简称DVC),就是在一个长视频中找出所有的events,然后对每一个event生成caption。在这个问题中,现有的方法都是分为两个步骤,首先,提取event proposals,然后,生成captions。这会导致生成的captions存在冗余和不一致,因为没有考虑events之间的时间依赖性。
- 贡献
- 提出一个新颖的DVC方法,可以利用events之间的时间依赖性生成captions。
- 提出使用two-level (episode, event) rewards的强化学习方法,可以提高captions之间的一致性和event description的质量。
- 可以达到state-of-the-art。
- 方法
和现有方法对比,Event Detection的区别如下图所示。已有的方法都是提取独立的event,本文将提取的event进行排序,生成序列的captions,加强captions之间的关联性。
本文方法的整体框架如下图所示,主要分为三部分:Event Proposal Network(以下简称EPN)、Event Sequence Generation Network(以下简称ESGN)和Sequential Captioning Network(以下简称SCN)。其中,EPN模块用于提取event,follow了CVPR2017的SST。ESGN模块用于对上一个模块得到的events进行排序,先将候选的proposals按照开始时间排序,然后输入到RNN中,在每一步,生成每个proposal的概率,概率最大的proposal作为当前步的event。SCN模块用于生成captions,使用双层RNN结构,同时考虑visual context和linguistic context。
由于具有三个模块,本文使用的损失也分为三部分,与三个模块分别对应。损失的具体形式如下,这里不一一介绍了。值得注意的是,SCN部分使用强化学习进行训练,公式(14)是reward。
- 实验
ActivityNet Captions validation set上的实验结果
ActivityNet Captions validation set上的消融实验
实验结果展示
AAAI2019:FCVC-CF&IA
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
AAAI2019:TAMoE
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
AAAI2019:MGSA
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
AAAI2019:TDConvED
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
ICCV2019:POSSG-GFN
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
ICCV2019:SRL-VCT
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
ICCVW2019:Tale
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
ICCVW2019:EtENet-IRv2
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
IJCAI2019:ViCap(new task)
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
TCSVT2019:DS-RNN
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
TIP2019:CAM-RNN
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
TMM2019:STAT
- 题目
XXX
下载链接 - 动机
- 贡献
- 方法
- 实验
2019年, video captioning论文汇总相关推荐
- 2020年, video captioning论文汇总
目录 CVPR2020:ORG-TRL CVPR2020:STG-KD TIP2020:OSTG TPAMI2020:SibNet(MM2018) WACV2020:DSD WACV2020:STaT ...
- 2019年, image captioning论文汇总
目录 CVPR2019:UIC CVPR2019:SGAE CVPR2019:RND ICCV2019:CNM ICCV2019:Graph-Align CVPR2019:UIC 题目 Unsuper ...
- iccv2020论文汇总_ICCV2019 最佳论文出炉,附1987~2019历届ICCV最佳论文汇总( 提供下载)...
微信公众号:极市平台 极市小编整理了ICCV 2019( IEEE International Conference on Computer Vision)的全部接收论文,大会目前正在韩国首尔如火如荼 ...
- 2020年, image captioning论文汇总
目录 CVPR2020:ASG CVPR2020:POS-SCAN CVPR2020:SLL-SLE CVPR2020:ASG 题目 Say As You Wish: Fine-grained Con ...
- CVPR 2019 目标检测论文汇总
CVPR 2019 目标检测论文汇总(0506更新中)极市平台已认证的官方帐号84 人赞同了该文章前段时间,计算机视觉顶会CVPR 2019 公布了接收结果,极市也对此做了相关报道 ,目前官方公布了 ...
- CVPR 2019 论文汇总(按方向划分,0409 更新中)[转载]
转载链接:http://bbs.cvmart.net/topics/302/cvpr2019paper 作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办) ...
- 2000 ~2019 年历届 CVPR 最佳论文汇总
原文链接:http://bbs.cvmart.net/topics/665/CVPR-Best-Paper 本文汇总了从 2000 ~ 2019年历届 CVPR 会议最佳论文,附上作者和论文链接(论文 ...
- 论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning 这篇论文发表 ...
- 【论文阅读】 Reinforced Video Captioning with Entailment Rewards
这篇论文主要有两个亮点: 以往的seq2seq模型在训练时都是经过word-level的交叉熵损失优化的,该损失与最终评估任务的sentence-level的度量没有很好的相关性:并且,以往的模型会遭 ...
最新文章
- android中有关invisible,visible,gone的区别
- 大厂面试必问!给培训班出身的程序员一些建议
- UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP
- 函数学习-delattr()
- 约数个数 (排列组合中的乘法原理)
- JavaEE笔记(九)
- webpack图解-学习笔记
- 今天,送你一份交通行业最全数据集(共享单车、自动驾驶、网约出租车、交通信号识别)
- Autorize插件的使用方法
- iOS 如果刷新TableViewCell上得数据是空的 添加尾部暂无数据提示
- (计算机组成原理)第二章数据的表示和运算-第三节3:浮点数加减运算
- MySQL内核调试_内核调试技巧
- ad采样频率_带你了解AD的工作原理!!!
- PROE_CONFIG
- somachine3.1 注册
- 分享怎样自己做网站赚钱年入40万
- Aegisub彩虹字特效代码
- 机器学习sklearn----通过轮廓系数确定适合的n_clusters
- He's a Pirate---David Garrett
- amazon aws 亚马逊云服务概述