目录

  • CVPR2019:GRU
  • CVPR2019:OA-BTG
  • CVPR2019:MLE+HybirdDis
  • CVPR2019:MARN
  • CVPR2019:SDVC
  • AAAI2019:FCVC-CF&IA
  • AAAI2019:TAMoE
  • AAAI2019:MGSA
  • AAAI2019:TDConvED
  • ICCV2019:POSSG-GFN
  • ICCV2019:SRL-VCT
  • ICCVW2019:Tale
  • ICCVW2019:EtENet-IRv2
  • IJCAI2019:ViCap(new task)
  • TCSVT2019:DS-RNN
  • TIP2019:CAM-RNN
  • TMM2019:STAT

CVPR2019:GRU

  • 题目
    Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
    下载链接
  • 动机
    现有的方法主要关注使用RNN生成captions,visual features都是直接通过CNN提取。作者认为visual features也是很重要的,于是提出使用层级快速傅里叶变换得到视频的时序信息。此外,本文还从object detector中获取高级语义信息。
  • 贡献
  1. 本文提出一种visual encoding技术,可以有效的编码video的时空信息,并将相关的高级语义信息嵌入到visual codes中。
  2. 本文提取的visual features中包含objects的属性、出现频率、位置变化情况。
  3. 本文建立了一个GRU-based language model,达到了最新的state-of-the-art。
  • 方法
    本文方法的整体框架如下图所示。

    从图中可以看出,本文对video frames同时使用2D-CNN和3D-CNN提取特征,将提取到的特征进行如下图所示的傅里叶变换。整体框架图中,最上侧和最下侧有两条红色的流程线,上侧的代表object的高级语义信息,下侧的代表action的语义信息,分别和Dictionary取交集后,得到特征向量。最后,将2D特征、3D特征、两种语义信息输入到Sequence model中,即可得到模型输出。
  • 实验
    在MSVD数据集上的实验结果。GRU表示使用了两层GRU,MP表示使用均值池化处理视频的时间维度,C3D和IRV2代表计算visual code的方法,CI表示将C3D和IRV2一起使用,EVEhft\rm EVE_{hft}EVEhft表示使用傅里叶变换,EVEhft+sem\rm EVE_{hft+sem}EVEhft+sem表示使用傅里叶变换和高级语义信息。

    结果展示:

CVPR2019:OA-BTG

  • 题目
    Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
    下载链接
    本文出自Facebook AI
  • 动机
    captions的质量往往依赖于video representations,因此,找出视频中的显著物体,并了解它们的运动轨迹,对提升captions的质量有很大帮助。
  • 贡献
  1. 使用Bidirectional Temporal Graph(双向时序图)捕获显著物体的时序信息和global context,从而生成更准确的captions。
  2. 基于显著物体和和global frame使用Object-aware Aggregation得到更具有判别力的特征,并使用分层注意力机制得到不同objects的contributions。
  • 方法
    本文方法的整体框架如下图所示,共分为三部分:Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。

    第一部分,Bidirectional Temporal Graph。 这部分先使用目标检测方法处理视频的关键帧,提取出Object Regions。然后,使用相似性度量处理出object的时序图,正序和反序的都要处理。相似性度量主要从三方面(特征相似性、IoU、面积)考虑,具体计算公式形如公式(1)。



    第二部分,Object-aware Aggregation。 这部分使用VLAD模型,对区域序列和全局帧序列进行处理。由于区域序列和全局帧序列均有正序和反序,故得到四组特征序列。

    第三部分,Decoder。 对于区域序列,使用分层注意力机制(时间(or 时序)注意力+空间注意力)。对于全局帧序列,使用时序注意力。添加attention后,将特征输入到GRU中得到captions。

  • 实验
    在MSVD数据集上的实验结果

    在MSR-VTT数据集上的实验结果

    消融实验

    Successful结果展示

    Failed结果展示,感觉生成的也挺对的。

CVPR2019:MLE+HybirdDis

  • 题目
    Adversarial Inference for Multi-Sentence Video Description
    下载链接
  • 动机
    现有的video captioning方法中,先将视频分为多个events,再对每个event生成caption。这样得到的captions对于单个event看起来比较好,但是从整个视频来看,多个captions之间存在冗余和不连贯。因此,本文从上述问题出发,提出了Adversarial Inference方法。
  • 贡献
  1. 使用对抗学习生成video captions (descriptions),基于判别器得到的score选择最优sentence。
  2. 提出hybrid discriminator(混合判别器),由三种特定的判别器组合而成,取得了比单一判别器更好的结果。
  3. 在多个标准上和其他方法进行了对比,在human evaluation中得到了最优的结果。
  • 方法
    本文方法的整体框架如下图所示。整体上共分为三部分:Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中,Generator用于编码event的特征(本文假设segment已经给出),提取三种特征,分别是:帧级别的特征、使用3D卷积提取的特征和区域特征。并对特征添加了attention,再将三种特征拼接,使用fc得到最终特征。Sampling from the GeneratorSelecting the sentence based on the Discriminator使用Discriminator(判别器)选择最优sentence。

    判别器的结构如下图所示,使用三类信息对sentence进行判别,分别是:Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中,Visual Discriminator用于判断sentence和event的关联程度,这部分和Generator有些类似,提取出video的三种特征,同时提取sentence的BOW特征(词袋特征),将四者结合得到score。Language Discriminator用于判断句子的结构和语义信息,这部分使用双向LSTM对sentence进行编码,在通过fc层回归出score。Pairwise Discriminator用于判断多个sentences之间的关联程度,使用双向LSTM对相邻的sentence进行编码,再通过fc层回归出score。
  • 实验
    在ActivityNet Captions数据集上的实验结果:

    消融实验结果展示:

CVPR2019:MARN

  • 题目
    Memory-Attended Recurrent Network for Video Captioning
    下载链接
    本文出自腾讯和南科大王向荣老师
  • 动机
    已有的video captioning方法的框架大多是encoder-decoder,在生成captions时,只能从一个video中读取信息。而本文作者发现,有很多actions和context在不同的训练数据中会反复出现,只使用一个video生成caption会丢失很多有用信息。故提出了Memory-Attended Recurrent Network,通过在传统的encoder-decoder框架中添加attended memory decoder模块,利用多个video来辅助当前处理的video生成caption。
  • 贡献
  1. 本文方法可以capture每个单词与多种similar visual contexts的关系。
  2. 本文模型可以对每个单词获得更加全面的理解,提高captions的质量。
  3. 本文的built memory结构可以显式地对相邻单词的兼容性进行建模,不像大多数现有模型那样要求模型进行隐式学习。
  4. 实验结果表明,本文方法已超过state-of-the-art。
  • 方法
    本文方法的整体架构如下图所示,共分为三个部分:Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中,Encoder和Attention-based Recurrent Decoder和传统的Encoder-Decoder架构基本一样。Encoder部分,首先对video进行2D和3D特征提取,并添加attention,再进行concatenate,得到最终特征。Decoder部分,使用GRU生成captions。

    本文主要的方法在Attended Memory Decoder。这部分用于辅助Attention-based Recurrent Decoder,提高captions的质量。具体的作用在于:①对于每个单词,可以从多个video scenes中捕获有用信息;②传统方法中,预测下一个单词通常只依赖于当前单词和其context,本文方法可以明确的对相邻单词的兼容性进行建模。

    Attender Memory Decoder的核心在于Memory Structure。在本文的memory中,存储的是单词www到描述ddd的映射<w,d><w,d><w,d>。而ddd主要包括三方面信息:视觉上下文(visual context)grg_rgr、词嵌入(word embedding)wrw_rwr和辅助特征(auxiliary features)uru_rur。其中,grg_rgr的生成方式如下图所示,提取所有和单词wrw_rwr相关的videos的2D和3D特征,添加attention后,选Top-k个,进行标准化,再加和即可。ere_rer使用的是Attention-based Recurrent Decoder训练得到的。uru_rur是辅助特征,本文使用的是video类别信息。

    除上文以外,本文还提出了AC Loss,形如公式(13)。主要思想是,在对2D特征添加attention时,相邻两帧的权重应该相差不大,故在损失中添加了抑制项∣ai,t(n)−ai−1,t(n)∣|a^{(n)}_{i,t}-a^{(n)}_{i-1,t}|ai,t(n)ai1,t(n)

    在训练时,本文先训练传统的Encoder-Decoder部分,再训练Attender Memory Decoder。

  • 实验
    在MSR-VTT和MSVD数据集上进行的消融实验

    对memory components进行的消融实验

    在MAR-VTT数据集上,与其他模型的对比

    在MSVD数据集上,与其他模型的对比

    实验结果展示

CVPR2019:SDVC

  • 题目
    Streamlined Dense Video Captioning
    下载链接
  • 动机
    这篇文章是做Dense Video Captioning(以下简称DVC),就是在一个长视频中找出所有的events,然后对每一个event生成caption。在这个问题中,现有的方法都是分为两个步骤,首先,提取event proposals,然后,生成captions。这会导致生成的captions存在冗余和不一致,因为没有考虑events之间的时间依赖性。
  • 贡献
  1. 提出一个新颖的DVC方法,可以利用events之间的时间依赖性生成captions。
  2. 提出使用two-level (episode, event) rewards的强化学习方法,可以提高captions之间的一致性和event description的质量。
  3. 可以达到state-of-the-art。
  • 方法
    和现有方法对比,Event Detection的区别如下图所示。已有的方法都是提取独立的event,本文将提取的event进行排序,生成序列的captions,加强captions之间的关联性。

    本文方法的整体框架如下图所示,主要分为三部分:Event Proposal Network(以下简称EPN)、Event Sequence Generation Network(以下简称ESGN)和Sequential Captioning Network(以下简称SCN)。其中,EPN模块用于提取event,follow了CVPR2017的SST。ESGN模块用于对上一个模块得到的events进行排序,先将候选的proposals按照开始时间排序,然后输入到RNN中,在每一步,生成每个proposal的概率,概率最大的proposal作为当前步的event。SCN模块用于生成captions,使用双层RNN结构,同时考虑visual context和linguistic context。

    由于具有三个模块,本文使用的损失也分为三部分,与三个模块分别对应。损失的具体形式如下,这里不一一介绍了。值得注意的是,SCN部分使用强化学习进行训练,公式(14)是reward。





  • 实验
    ActivityNet Captions validation set上的实验结果

    ActivityNet Captions validation set上的消融实验

    实验结果展示

AAAI2019:FCVC-CF&IA

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


AAAI2019:TAMoE

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


AAAI2019:MGSA

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


AAAI2019:TDConvED

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


ICCV2019:POSSG-GFN

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


ICCV2019:SRL-VCT

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


ICCVW2019:Tale

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


ICCVW2019:EtENet-IRv2

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


IJCAI2019:ViCap(new task)

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


TCSVT2019:DS-RNN

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


TIP2019:CAM-RNN

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


TMM2019:STAT

  • 题目
    XXX
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


2019年, video captioning论文汇总相关推荐

  1. 2020年, video captioning论文汇总

    目录 CVPR2020:ORG-TRL CVPR2020:STG-KD TIP2020:OSTG TPAMI2020:SibNet(MM2018) WACV2020:DSD WACV2020:STaT ...

  2. 2019年, image captioning论文汇总

    目录 CVPR2019:UIC CVPR2019:SGAE CVPR2019:RND ICCV2019:CNM ICCV2019:Graph-Align CVPR2019:UIC 题目 Unsuper ...

  3. iccv2020论文汇总_ICCV2019 最佳论文出炉,附1987~2019历届ICCV最佳论文汇总( 提供下载)...

    微信公众号:极市平台 极市小编整理了ICCV 2019( IEEE International Conference on Computer Vision)的全部接收论文,大会目前正在韩国首尔如火如荼 ...

  4. 2020年, image captioning论文汇总

    目录 CVPR2020:ASG CVPR2020:POS-SCAN CVPR2020:SLL-SLE CVPR2020:ASG 题目 Say As You Wish: Fine-grained Con ...

  5. CVPR 2019 目标检测论文汇总

    CVPR 2019 目标检测论文汇总(0506更新中)极市平台​已认证的官方帐号84 人赞同了该文章前段时间,计算机视觉顶会CVPR 2019 公布了接收结果,极市也对此做了相关报道 ,目前官方公布了 ...

  6. CVPR 2019 论文汇总(按方向划分,0409 更新中)[转载]

    转载链接:http://bbs.cvmart.net/topics/302/cvpr2019paper 作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办) ...

  7. 2000 ~2019 年历届 CVPR 最佳论文汇总

    原文链接:http://bbs.cvmart.net/topics/665/CVPR-Best-Paper 本文汇总了从 2000 ~ 2019年历届 CVPR 会议最佳论文,附上作者和论文链接(论文 ...

  8. 论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

    Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning 这篇论文发表 ...

  9. 【论文阅读】 Reinforced Video Captioning with Entailment Rewards

    这篇论文主要有两个亮点: 以往的seq2seq模型在训练时都是经过word-level的交叉熵损失优化的,该损失与最终评估任务的sentence-level的度量没有很好的相关性:并且,以往的模型会遭 ...

最新文章

  1. android中有关invisible,visible,gone的区别
  2. 大厂面试必问!给培训班出身的程序员一些建议
  3. UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP
  4. 函数学习-delattr()
  5. 约数个数 (排列组合中的乘法原理)
  6. JavaEE笔记(九)
  7. webpack图解-学习笔记
  8. 今天,送你一份交通行业最全数据集(共享单车、自动驾驶、网约出租车、交通信号识别)
  9. Autorize插件的使用方法
  10. iOS 如果刷新TableViewCell上得数据是空的 添加尾部暂无数据提示
  11. (计算机组成原理)第二章数据的表示和运算-第三节3:浮点数加减运算
  12. MySQL内核调试_内核调试技巧
  13. ad采样频率_带你了解AD的工作原理!!!
  14. PROE_CONFIG
  15. somachine3.1 注册
  16. 分享怎样自己做网站赚钱年入40万
  17. Aegisub彩虹字特效代码
  18. 机器学习sklearn----通过轮廓系数确定适合的n_clusters
  19. He's a Pirate---David Garrett
  20. amazon aws 亚马逊云服务概述

热门文章

  1. [云炬python3玩转机器学习] 5-6最好的衡量线性回归法的指标: R Squared
  2. python数字处理技巧(2): Numpy、矩阵运算、随机、字符串日期
  3. SQL SERVER视图
  4. 网页编程中的模态对话框
  5. jQuery对象和DOM对象
  6. 构建linux根文件系统
  7. 指针的引用做函数的参数
  8. python-pygame激动时刻你我共享
  9. 【CyberSecurityLearning 62】文件包含
  10. BugkuCTF-Misc:白哥的鸽子