CVPR2020：ORG-TRL

题目
Object Relational Graph with Teacher-Recommended Learning for Video Captioning
下载链接
动机
贡献
方法
实验

CVPR2020：STG-KD

题目
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
下载链接
动机
已有的video captioning方法中，使用object-level或scene-level的信息生成captions，而不考虑objects之间的交互，这样生成的captions缺乏可解释性。本文提出在空间和时间两个维度上考虑objects之间的关系。
贡献

本文提出了新颖的时空图网络（ spatio-temporal graph network），用于video captioning。
本文提出了基于对象感知的知识蒸馏机制（object-aware knowledge distillation mechanism），用于处理时空图网络中的noisy features。

方法
本文方法的整体框架如下图所示。其中，从Transformer到output之间存在一条线，作者为了图像清晰没有画出来。
实验
在MSR-VTT上的实验结果：

在MSVD上的实验结果：

在MSVD上的消融实验：

一些实验结果，其中对比的方法出自ICCV 2019。

TIP2020：OSTG

题目
Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
下载链接
动机
本文方法和STG-KD几乎一致，作者认为准确的video captioning需要不仅需要考虑整体内容和显著物体，还要考虑物体间的关系（时间+空间）。
贡献

双向时间对齐（Bidirectional temporal alignment）。在两个时间方向上对objects进行对齐，可以实现互补。
基于图的空间关系学习（Graph based spatial relation learning）。使用图卷积捕获每帧中的物体之间的关系，将结果输入到后续的处理中，提高captions的准确性。
基于对象感知的特征聚合（Object-aware feature aggregation）。本文在物体的双向轨迹（the bidirectional trajectories of objects）上构造trainable VLAD（Vector of Locally Aggregated Descriptors），可以学到每个物体的具有判别力的特征。

方法
本文方法的整体框架如下图所示。其中，VLAD（vector of locally aggregated descriptors）出自
实验
在 MSVD数据集上的实验结果：

在MSR-VTT上的实验结果：

消融实验：

TPAMI2020：SibNet（MM2018）

题目
SibNet: Sibling Convolutional Encoder for Video Captioning
下载链接
动机
现有的方法中，编码video的信息时，常使用“一条线”（a single flow），本文为了更好的编码video信息，提出了“两条线”（two-branch）方法。其中，第一个分支（内容分支，content branch）使用自编码器编码video的视觉内容。第二个分支（语义分支，semantic branch）使用视觉-语义嵌入编码video的语义信息。然后，使用soft-attention将二者联合，再使用RNN进行解码，得到最终输出。
贡献

提出Sibling Convolutional Encoder (SibNet)，由两个分支组成，内容分支负责捕获视觉信息，语义分支用于生成“特定语义（semantic-specific）”的表示，这种表示可以捕获某些帧在语义上的重要性，为内容分支提供补充。
本文设计了新的损失函数，由三项组成，分别是：content loss、semantic loss、decoder loss。

方法
本文方法的整体架构如下图所示。

上图中，TCB（temporal convolutional blocks）是本文提出的一个模块，其结构如下图所示。
实验
在MSVD上的实验结果：

在MSR-VTT上的实验结果：

消融实验：

与其他模型的参数量对比：

一些实验结果展示：

WACV2020：DSD

题目
Domain-Specific Semantics Guided Approach to Video Captioning
下载链接
动机
这篇文章的出发点有些类似于Tracking中的MDNet，基于video features进行domain分类，对于每个domain都有一个语义特定的decoder。
贡献

提出领域特定（domain-specific）方法，使用领域特定的语义tags进行video captioning。
提出一种同时使用视觉特征和语义特征对video进行domain分类的方法。
提出一种视频共享的方法生成不同domain的decoder。
提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的视频帧的描述符。

方法
本文方法的整体框架如下图所示。关于domain，本文使用tags进行聚类，得到多个domain。
实验
消融实验：

在MSVD数据集上的实验结果：

在MSR-VTT数据集上的实验结果：

实验结果展示：

WACV2020：STaTS

题目
Spatio-Temporal Ranked-Attention Networks for Video Captioning
下载链接
动机
本文从空间和时间的角度出发，提出在模型中同时添加两种不同的attention，并分两条线、两种顺序添加。第一条线是先S后T，另一条线是先T后S。并在第一条线上添加了本文提出的Ranked Attention。
贡献

提出s-t和t-s模型，两条线可以实现互补。
提出ranked attention，使用LSTM对rank-SVM进行仿真。
实验表明达到了sota。

方法
本文方法的整体架构如下图所示。

其中，ST模块的结构如下图所示。其中，Ranked Attention即为ST中的T。

其中，TS模块的结构如下图所示。
实验
使用不同特征，在MSVD和MSR-VTT上的实验结果：

在MSVD上与SOTA相比：

在MSR-VTT上与SOTA相比：

2020年, video captioning论文汇总相关推荐

2020年, image captioning论文汇总
目录 CVPR2020:ASG CVPR2020:POS-SCAN CVPR2020:SLL-SLE CVPR2020:ASG 题目 Say As You Wish: Fine-grained Con ...
2019年, video captioning论文汇总
目录 CVPR2019:GRU CVPR2019:OA-BTG CVPR2019:MLE+HybirdDis CVPR2019:MARN CVPR2019:SDVC AAAI2019:FCVC-CF& ...
CVPR2020最佳论文下载、解读历届（2000～2020） CVPR 最佳论文汇总
本文汇总了从 2000 ~ 2020年历届CVPR 会议最佳论文 ,附上作者和论文链接(论文题目含超链),部分含论文解读和代码.文末有最佳论文合集的下载链接~ 值得注意的是:香港中文大学汤晓鸥教授. ...
【KDD 2020】推荐系统领域论文汇总
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要9分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家收集整理了KDD 2020 会议上推荐系统方面的一些论文汇总. ACM SIG ...
2020年计算机视觉综述论文汇总！涵盖14个方向：目标检测/图像分割/医学影像/人脸识别等方向
导读:本文共汇总了从2020年4月至今的计算机视觉领域综述性论文,共54篇,涵盖图像分割. 图像识别.人脸识别/检测.医学影像.目标检测.3D方向(自动驾驶/深度估计).GAN.文本检测与识别.姿态估 ...
2019年, image captioning论文汇总
目录 CVPR2019:UIC CVPR2019:SGAE CVPR2019:RND ICCV2019:CNM ICCV2019:Graph-Align CVPR2019:UIC 题目 Unsuper ...
CVPR 2020代码开源的论文最全合集
前言之前Amusi整理了1467篇CVPR 2020所有论文PDF下载资源,详见:全在这里了! CVPR2020-Code CVPR 2020 论文开源项目合集,同时欢迎各位大佬提交issue,分享 ...
300+篇CVPR 2020代码开源的论文，全在这里了！
CVPR 2020代码开源项目一放出,得到不少CVers的关注,重点是:开源和根据方向分类.目前star数已经来到2000+,期间也有不少国内外的CVPR 2020论文作者提交issue,分享他们的工 ...
300+篇CVPR 2020代码开源的论文，全在这里了
300+篇CVPR 2020代码开源的论文,全在这里了! CVPR 2020代码开源项目一放出,得到不少CVers的关注,重点是:开源和根据方向分类.目前star数已经来到2000+,期间也有不少国内 ...

2020年, video captioning论文汇总

目录

CVPR2020：ORG-TRL

CVPR2020：STG-KD

TIP2020：OSTG

TPAMI2020：SibNet（MM2018）

WACV2020：DSD

WACV2020：STaTS

2020年, video captioning论文汇总相关推荐

最新文章

热门文章