目录

  • CVPR2020:ORG-TRL
  • CVPR2020:STG-KD
  • TIP2020:OSTG
  • TPAMI2020:SibNet(MM2018)
  • WACV2020:DSD
  • WACV2020:STaTS

CVPR2020:ORG-TRL

  • 题目
    Object Relational Graph with Teacher-Recommended Learning for Video Captioning
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


CVPR2020:STG-KD

  • 题目
    Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
    下载链接
  • 动机
    已有的video captioning方法中,使用object-level或scene-level的信息生成captions,而不考虑objects之间的交互,这样生成的captions缺乏可解释性。本文提出在空间和时间两个维度上考虑objects之间的关系。
  • 贡献
  1. 本文提出了新颖的时空图网络( spatio-temporal graph network),用于video captioning。
  2. 本文提出了基于对象感知的知识蒸馏机制(object-aware knowledge distillation mechanism),用于处理时空图网络中的noisy features。
  • 方法
    本文方法的整体框架如下图所示。其中,从Transformer到output之间存在一条线,作者为了图像清晰没有画出来。
  • 实验
    在MSR-VTT上的实验结果:

    在MSVD上的实验结果:

    在MSVD上的消融实验:

    一些实验结果,其中对比的方法出自ICCV 2019。

TIP2020:OSTG

  • 题目
    Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
    下载链接
  • 动机
    本文方法和STG-KD几乎一致,作者认为准确的video captioning需要不仅需要考虑整体内容和显著物体,还要考虑物体间的关系(时间+空间)。
  • 贡献
  1. 双向时间对齐(Bidirectional temporal alignment)。在两个时间方向上对objects进行对齐,可以实现互补。
  2. 基于图的空间关系学习(Graph based spatial relation learning)。使用图卷积捕获每帧中的物体之间的关系,将结果输入到后续的处理中,提高captions的准确性。
  3. 基于对象感知的特征聚合(Object-aware feature aggregation)。本文在物体的双向轨迹(the bidirectional trajectories of objects)上构造trainable VLAD(Vector of Locally Aggregated Descriptors),可以学到每个物体的具有判别力的特征。
  • 方法
    本文方法的整体框架如下图所示。其中,VLAD(vector of locally aggregated descriptors)出自
  • 实验
    在 MSVD数据集上的实验结果:

    在MSR-VTT上的实验结果:

    消融实验:

TPAMI2020:SibNet(MM2018)

  • 题目
    SibNet: Sibling Convolutional Encoder for Video Captioning
    下载链接
  • 动机
    现有的方法中,编码video的信息时,常使用“一条线”(a single flow),本文为了更好的编码video信息,提出了“两条线”(two-branch)方法。其中,第一个分支(内容分支,content branch)使用自编码器编码video的视觉内容。第二个分支(语义分支,semantic branch)使用视觉-语义嵌入编码video的语义信息。然后,使用soft-attention将二者联合,再使用RNN进行解码,得到最终输出。
  • 贡献
  1. 提出Sibling Convolutional Encoder (SibNet),由两个分支组成,内容分支负责捕获视觉信息,语义分支用于生成“特定语义 (semantic-specific)”的表示,这种表示可以捕获某些帧在语义上的重要性,为内容分支提供补充。
  2. 本文设计了新的损失函数,由三项组成,分别是:content loss、semantic loss、decoder loss。
  • 方法
    本文方法的整体架构如下图所示。

    上图中,TCB(temporal convolutional blocks)是本文提出的一个模块,其结构如下图所示。
  • 实验
    在MSVD上的实验结果:

    在MSR-VTT上的实验结果:

    消融实验:

    与其他模型的参数量对比:

    一些实验结果展示:

WACV2020:DSD

  • 题目
    Domain-Specific Semantics Guided Approach to Video Captioning
    下载链接
  • 动机
    这篇文章的出发点有些类似于Tracking中的MDNet,基于video features进行domain分类,对于每个domain都有一个语义特定的decoder。
  • 贡献
  1. 提出领域特定(domain-specific)方法,使用领域特定的语义tags进行video captioning。
  2. 提出一种同时使用视觉特征和语义特征对video进行domain分类的方法。
  3. 提出一种视频共享的方法生成不同domain的decoder。
  4. 提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的视频帧的描述符。
  • 方法
    本文方法的整体框架如下图所示。关于domain,本文使用tags进行聚类,得到多个domain。
  • 实验
    消融实验:

    在MSVD数据集上的实验结果:

    在MSR-VTT数据集上的实验结果:

    实验结果展示:

WACV2020:STaTS

  • 题目
    Spatio-Temporal Ranked-Attention Networks for Video Captioning
    下载链接
  • 动机
    本文从空间和时间的角度出发,提出在模型中同时添加两种不同的attention,并分两条线、两种顺序添加。第一条线是先S后T,另一条线是先T后S。并在第一条线上添加了本文提出的Ranked Attention。
  • 贡献
  1. 提出s-t和t-s模型,两条线可以实现互补。
  2. 提出ranked attention,使用LSTM对rank-SVM进行仿真。
  3. 实验表明达到了sota。
  • 方法
    本文方法的整体架构如下图所示。

    其中,ST模块的结构如下图所示。其中,Ranked Attention即为ST中的T。

    其中,TS模块的结构如下图所示。
  • 实验
    使用不同特征,在MSVD和MSR-VTT上的实验结果:

    在MSVD上与SOTA相比:

    在MSR-VTT上与SOTA相比:

2020年, video captioning论文汇总相关推荐

  1. 2020年, image captioning论文汇总

    目录 CVPR2020:ASG CVPR2020:POS-SCAN CVPR2020:SLL-SLE CVPR2020:ASG 题目 Say As You Wish: Fine-grained Con ...

  2. 2019年, video captioning论文汇总

    目录 CVPR2019:GRU CVPR2019:OA-BTG CVPR2019:MLE+HybirdDis CVPR2019:MARN CVPR2019:SDVC AAAI2019:FCVC-CF& ...

  3. CVPR2020最佳论文下载、解读历届(2000~2020) CVPR 最佳论文汇总

    本文汇总了从 2000 ~ 2020年历届CVPR 会议最佳论文 ,附上作者和论文链接(论文题目含超链),部分含论文解读和代码.文末有最佳论文合集的 下载链接~ 值得注意的是:香港中文大学汤晓鸥教授. ...

  4. 【KDD 2020】推荐系统领域论文汇总

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要9分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家收集整理了KDD 2020 会议上推荐系统方面的一些论文汇总. ACM SIG ...

  5. 2020年计算机视觉综述论文汇总!涵盖14个方向:目标检测/图像分割/医学影像/人脸识别等方向

    导读:本文共汇总了从2020年4月至今的计算机视觉领域综述性论文,共54篇,涵盖图像分割. 图像识别.人脸识别/检测.医学影像.目标检测.3D方向(自动驾驶/深度估计).GAN.文本检测与识别.姿态估 ...

  6. 2019年, image captioning论文汇总

    目录 CVPR2019:UIC CVPR2019:SGAE CVPR2019:RND ICCV2019:CNM ICCV2019:Graph-Align CVPR2019:UIC 题目 Unsuper ...

  7. CVPR 2020代码开源的论文最全合集

    前言 之前Amusi整理了1467篇CVPR 2020所有论文PDF下载资源,详见:全在这里了! CVPR2020-Code CVPR 2020 论文开源项目合集,同时欢迎各位大佬提交issue,分享 ...

  8. 300+篇CVPR 2020代码开源的论文,全在这里了!

    CVPR 2020代码开源项目一放出,得到不少CVers的关注,重点是:开源和根据方向分类.目前star数已经来到2000+,期间也有不少国内外的CVPR 2020论文作者提交issue,分享他们的工 ...

  9. 300+篇CVPR 2020代码开源的论文,全在这里了

    300+篇CVPR 2020代码开源的论文,全在这里了! CVPR 2020代码开源项目一放出,得到不少CVers的关注,重点是:开源和根据方向分类.目前star数已经来到2000+,期间也有不少国内 ...

最新文章

  1. 合理规划您的硬盘分区
  2. emacs的使用方法
  3. sha-1算法的实现 c语言,SHA-1算法的C语言实现
  4. APP中的第三方“支付”功能该如何测试
  5. java用一个方法对变量初始化_java中怎么给变量初始化?
  6. 3gpp协议_春天工作室lt;3GPP规范翻译系列gt;1:TS37340协议翻译(导读)第一部分...
  7. Java Web学习总结(2)——Servlet入门
  8. tmux new-s 远程连接服务器,断网断连接程序运行不断
  9. 每日小记2012.5.1
  10. LEWITT莱维特STREAM4x5、DGT260声卡安装调试教程
  11. 【f1c200s/f1c100s】PWM驱动适配
  12. 模块化机房建设指导书_模块化机房建设方案
  13. javascript广告漂浮效果代码
  14. 成功者的13个良好习惯
  15. 路由器老掉线的原因之一
  16. 企业微信可以取消实名认证吗?如何操作?
  17. 最新wifi大师独立版4.0.5分销小程序搭建教程
  18. Linux下学习C语言编程(一)系统环境配置
  19. 解决禅道升级报错:Column not found: 1054 Unknown column 'readme' in 'zt_im_client'
  20. the mesh is compo…

热门文章

  1. 科大星云诗社动态20210331
  2. 云炬Android开发教程 查看android studio版本
  3. delphi中的提前声明
  4. 技术贴]强大的DELPHI RTTI–兼谈需要了解多种开发语言
  5. 有子对象的派生类的构造函数
  6. docker 上关于hyper-v和wsl2的一些要点
  7. 10 个常用的软件架构模式
  8. Java中抽象类、接口、父类直接的区别与联系
  9. 一文搞定C语言本地变量和全局变量
  10. STM32开发 -- 添加头文件