2020年, video captioning论文汇总
目录
- CVPR2020:ORG-TRL
- CVPR2020:STG-KD
- TIP2020:OSTG
- TPAMI2020:SibNet(MM2018)
- WACV2020:DSD
- WACV2020:STaTS
CVPR2020:ORG-TRL
- 题目
Object Relational Graph with Teacher-Recommended Learning for Video Captioning
下载链接 - 动机
- 贡献
- 方法
- 实验
CVPR2020:STG-KD
- 题目
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
下载链接 - 动机
已有的video captioning方法中,使用object-level或scene-level的信息生成captions,而不考虑objects之间的交互,这样生成的captions缺乏可解释性。本文提出在空间和时间两个维度上考虑objects之间的关系。
- 贡献
- 本文提出了新颖的时空图网络( spatio-temporal graph network),用于video captioning。
- 本文提出了基于对象感知的知识蒸馏机制(object-aware knowledge distillation mechanism),用于处理时空图网络中的noisy features。
- 方法
本文方法的整体框架如下图所示。其中,从Transformer到output之间存在一条线,作者为了图像清晰没有画出来。
- 实验
在MSR-VTT上的实验结果:
在MSVD上的实验结果:
在MSVD上的消融实验:
一些实验结果,其中对比的方法出自ICCV 2019。
TIP2020:OSTG
- 题目
Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
下载链接 - 动机
本文方法和STG-KD几乎一致,作者认为准确的video captioning需要不仅需要考虑整体内容和显著物体,还要考虑物体间的关系(时间+空间)。
- 贡献
- 双向时间对齐(Bidirectional temporal alignment)。在两个时间方向上对objects进行对齐,可以实现互补。
- 基于图的空间关系学习(Graph based spatial relation learning)。使用图卷积捕获每帧中的物体之间的关系,将结果输入到后续的处理中,提高captions的准确性。
- 基于对象感知的特征聚合(Object-aware feature aggregation)。本文在物体的双向轨迹(the bidirectional trajectories of objects)上构造trainable VLAD(Vector of Locally Aggregated Descriptors),可以学到每个物体的具有判别力的特征。
- 方法
本文方法的整体框架如下图所示。其中,VLAD(vector of locally aggregated descriptors)出自
- 实验
在 MSVD数据集上的实验结果:
在MSR-VTT上的实验结果:
消融实验:
TPAMI2020:SibNet(MM2018)
- 题目
SibNet: Sibling Convolutional Encoder for Video Captioning
下载链接 - 动机
现有的方法中,编码video的信息时,常使用“一条线”(a single flow),本文为了更好的编码video信息,提出了“两条线”(two-branch)方法。其中,第一个分支(内容分支,content branch)使用自编码器编码video的视觉内容。第二个分支(语义分支,semantic branch)使用视觉-语义嵌入编码video的语义信息。然后,使用soft-attention将二者联合,再使用RNN进行解码,得到最终输出。
- 贡献
- 提出Sibling Convolutional Encoder (SibNet),由两个分支组成,内容分支负责捕获视觉信息,语义分支用于生成“特定语义 (semantic-specific)”的表示,这种表示可以捕获某些帧在语义上的重要性,为内容分支提供补充。
- 本文设计了新的损失函数,由三项组成,分别是:content loss、semantic loss、decoder loss。
- 方法
本文方法的整体架构如下图所示。
上图中,TCB(temporal convolutional blocks)是本文提出的一个模块,其结构如下图所示。
- 实验
在MSVD上的实验结果:
在MSR-VTT上的实验结果:
消融实验:
与其他模型的参数量对比:
一些实验结果展示:
WACV2020:DSD
- 题目
Domain-Specific Semantics Guided Approach to Video Captioning
下载链接 - 动机
这篇文章的出发点有些类似于Tracking中的MDNet,基于video features进行domain分类,对于每个domain都有一个语义特定的decoder。
- 贡献
- 提出领域特定(domain-specific)方法,使用领域特定的语义tags进行video captioning。
- 提出一种同时使用视觉特征和语义特征对video进行domain分类的方法。
- 提出一种视频共享的方法生成不同domain的decoder。
- 提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的视频帧的描述符。
- 方法
本文方法的整体框架如下图所示。关于domain,本文使用tags进行聚类,得到多个domain。
- 实验
消融实验:
在MSVD数据集上的实验结果:
在MSR-VTT数据集上的实验结果:
实验结果展示:
WACV2020:STaTS
- 题目
Spatio-Temporal Ranked-Attention Networks for Video Captioning
下载链接 - 动机
本文从空间和时间的角度出发,提出在模型中同时添加两种不同的attention,并分两条线、两种顺序添加。第一条线是先S后T,另一条线是先T后S。并在第一条线上添加了本文提出的Ranked Attention。 - 贡献
- 提出s-t和t-s模型,两条线可以实现互补。
- 提出ranked attention,使用LSTM对rank-SVM进行仿真。
- 实验表明达到了sota。
- 方法
本文方法的整体架构如下图所示。
其中,ST模块的结构如下图所示。其中,Ranked Attention即为ST中的T。
其中,TS模块的结构如下图所示。
- 实验
使用不同特征,在MSVD和MSR-VTT上的实验结果:
在MSVD上与SOTA相比:
在MSR-VTT上与SOTA相比:
2020年, video captioning论文汇总相关推荐
- 2020年, image captioning论文汇总
目录 CVPR2020:ASG CVPR2020:POS-SCAN CVPR2020:SLL-SLE CVPR2020:ASG 题目 Say As You Wish: Fine-grained Con ...
- 2019年, video captioning论文汇总
目录 CVPR2019:GRU CVPR2019:OA-BTG CVPR2019:MLE+HybirdDis CVPR2019:MARN CVPR2019:SDVC AAAI2019:FCVC-CF& ...
- CVPR2020最佳论文下载、解读历届(2000~2020) CVPR 最佳论文汇总
本文汇总了从 2000 ~ 2020年历届CVPR 会议最佳论文 ,附上作者和论文链接(论文题目含超链),部分含论文解读和代码.文末有最佳论文合集的 下载链接~ 值得注意的是:香港中文大学汤晓鸥教授. ...
- 【KDD 2020】推荐系统领域论文汇总
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要9分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家收集整理了KDD 2020 会议上推荐系统方面的一些论文汇总. ACM SIG ...
- 2020年计算机视觉综述论文汇总!涵盖14个方向:目标检测/图像分割/医学影像/人脸识别等方向
导读:本文共汇总了从2020年4月至今的计算机视觉领域综述性论文,共54篇,涵盖图像分割. 图像识别.人脸识别/检测.医学影像.目标检测.3D方向(自动驾驶/深度估计).GAN.文本检测与识别.姿态估 ...
- 2019年, image captioning论文汇总
目录 CVPR2019:UIC CVPR2019:SGAE CVPR2019:RND ICCV2019:CNM ICCV2019:Graph-Align CVPR2019:UIC 题目 Unsuper ...
- CVPR 2020代码开源的论文最全合集
前言 之前Amusi整理了1467篇CVPR 2020所有论文PDF下载资源,详见:全在这里了! CVPR2020-Code CVPR 2020 论文开源项目合集,同时欢迎各位大佬提交issue,分享 ...
- 300+篇CVPR 2020代码开源的论文,全在这里了!
CVPR 2020代码开源项目一放出,得到不少CVers的关注,重点是:开源和根据方向分类.目前star数已经来到2000+,期间也有不少国内外的CVPR 2020论文作者提交issue,分享他们的工 ...
- 300+篇CVPR 2020代码开源的论文,全在这里了
300+篇CVPR 2020代码开源的论文,全在这里了! CVPR 2020代码开源项目一放出,得到不少CVers的关注,重点是:开源和根据方向分类.目前star数已经来到2000+,期间也有不少国内 ...
最新文章
- 合理规划您的硬盘分区
- emacs的使用方法
- sha-1算法的实现 c语言,SHA-1算法的C语言实现
- APP中的第三方“支付”功能该如何测试
- java用一个方法对变量初始化_java中怎么给变量初始化?
- 3gpp协议_春天工作室lt;3GPP规范翻译系列gt;1:TS37340协议翻译(导读)第一部分...
- Java Web学习总结(2)——Servlet入门
- tmux new-s 远程连接服务器,断网断连接程序运行不断
- 每日小记2012.5.1
- LEWITT莱维特STREAM4x5、DGT260声卡安装调试教程
- 【f1c200s/f1c100s】PWM驱动适配
- 模块化机房建设指导书_模块化机房建设方案
- javascript广告漂浮效果代码
- 成功者的13个良好习惯
- 路由器老掉线的原因之一
- 企业微信可以取消实名认证吗?如何操作?
- 最新wifi大师独立版4.0.5分销小程序搭建教程
- Linux下学习C语言编程(一)系统环境配置
- 解决禅道升级报错:Column not found: 1054 Unknown column 'readme' in 'zt_im_client'
- the mesh is compo…