CVPR2020：ASG

题目
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
下载链接
吴琦老师组的新作, 一作是人大的博士生陈师哲.
动机
现有的方法与用户交互性差, 生成的句子多样性低, 不考虑用户感兴趣的内容.
贡献

提出ASG(抽象场景图), 可以以细粒度的方式设定一个描述物体的"模式".
根据给定的ASG, 能够识别ASG中的节点并生成图像描述.
对于没有ASG标注的数据集, 可以自动生成ASG标注.

方法
整体框架如下:

ASG
ASG中的节点共分为三类, object, attribute 和 relationship. 可以根据用户的感兴趣程度自定义ASG.
ASG2Caption
2.1 Role-aware Graph Encoder. 对于给定的image和ASG, 首先经过Role-aware Graph Encoder (角色感知编码器) 进行编码, 这部分通过role-aware node embedding (角色感知节点嵌入) 和MR-GCN (多关系-图卷积神经网络) 实现. 角色感知节点嵌入用于区分每个节点的意图，文中给出了详细的计算过程, 使用MR-GCN是为了结合每个节点的的相邻节点的上下文信息, 来更好的理解节点的语义和角色.

2.2 Graph-based Attention. 使用MR-GCN对图编码后, 我们需要同时考虑编码信息中的语义信息和图结构信息. 语义信息反映了图中的实际语义, 图结构信息反映了ASG的结构. 本文为了同时考虑这两种信息, 使用了两种不同的注意力, 分别为Graph Content Attention (图语义注意力) 和Grpah Flow Attention (图流向注意力). 并在最后进行了融合.

2.3 Graph Updating. 用于对图节点进行更新, 动态记录图节点的访问状态.

实验
消融实验

在不同baseline上添加ASG后的实验结果对比

和state-of-the-art的对比

不同ASG生成的结果

CVPR2020：POS-SCAN

题目
More Grounded Image Captioning by Distilling Image-Text Matching Model
下载链接
动机
本文的出发点是grounded image captioning，意思就是，captioner在生成words时，应在images上注意到正确的objects。但是，想在保留captioning质量的同时，提升模型的grounding准确性，需要数据集具有word-region alignment的标注作为训练时的监督，这很expensive。本文针对上述问题，基于SCAN提出了POS-SCAN(Part-Of-Speech)，使用知识蒸馏的方法达到more grounded image captioning。
贡献

本文提出了POS-SCAN，在传统的captioners上添加POS-SCAN可以提高grounding的准确性。
本文使用了SCST(Self-Critical Sequence Training)，使用图像-文本匹配的分数作为reward，进行强化学习，进一步提高了grounding的准确性。

方法
本文方法的整体如下图所示，主要分为两个模块：Captioner和Pre-trained Matcher。Captioner采用的是Up-Down，Pre-trained Matcher即为本文提出的POS-SCAN。对于Captioner没什么好说的，下面说一下POS-SCAN和SCAN的区别。

在SCAN中，计算图片 $I$ 和句子 $T$ 的相似度公式如下式所示。

其中， $R(e_t,a_t^v)$ 用于计算word特征 $e_t$ 和添加了注意力的图片特征 $a_t^v$ 之间的相似度，具体公式如下：

通过实验发现，SCAN模型在grounding上的表现不如Up-Down。作者认为，这是由于句子中包含过多的non-visual words，故采用下式计算图片 $I$ 和句子 $T$ 的相似度，其本质是，通过指示函数 $1_{y_t^*=y^{none}}$ 来筛选出名词。

在训练时，POS-SCAN是预训练好的，参数保持不变。训练共分为两阶段，第一阶段就是传统的监督训练；第二阶段是使用强化学习进一步提升captioner的能力，这里使用了SCST中的方法，使用CIDEr作为一部分reward，并使用 $S (I, T)$ 作为另一部分reward。
实验
首先是在Flickr30k Entities val set上Attention Acc。

下图是在Flickr30k Entities val set上进行的消融实验。

在Flickr30k Entities test set上的实验结果。

在MS-COCO Karpathy test set上的实验结果， $*$ 表示使用的是原文中实验结果。[3]就是SCST那篇论文。

下面是一些结果展示，红色方框内是不添加POS-SCAN方法，绿色方框内是添加POS-SCAN方法。

下面是一些failure cases。

CVPR2020：SLL-SLE

题目
Better Captioning with Sequence-Level Exploration
下载链接
动机
动机就一句话：提高模型的recall指标。最开始，captioning方法中使用交叉熵做word级别的监督，尽可能提高每个单词的准确率。由于训练时使用GT word作为输入，测试时用predicted word作为输入，这导致训练和测试之间存在gap。然后，大家提出了sequence级别的监督，即使用生成的sentence进行监督。sequence级别的监督也存在问题：1. 理论上，忽视了recall问题。2. 实验上，在recall相关的metrics上指标不高。
贡献

分析了现有的sequence-level的不足之处
提出了新的学习目标
在精准率和召回率上，指标均有提升

方法
本文方法：在损失函数中添加sequence level exploration term，最大化生成的captions的距离。
实验
在image captioning上的结果：

在video captioning上的结果：

2020年, image captioning论文汇总相关推荐

2020年, video captioning论文汇总
目录 CVPR2020:ORG-TRL CVPR2020:STG-KD TIP2020:OSTG TPAMI2020:SibNet(MM2018) WACV2020:DSD WACV2020:STaT ...
【KDD 2020】推荐系统领域论文汇总
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要9分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家收集整理了KDD 2020 会议上推荐系统方面的一些论文汇总. ACM SIG ...
CVPR2020最佳论文下载、解读历届（2000～2020） CVPR 最佳论文汇总
本文汇总了从 2000 ~ 2020年历届CVPR 会议最佳论文 ,附上作者和论文链接(论文题目含超链),部分含论文解读和代码.文末有最佳论文合集的下载链接~ 值得注意的是:香港中文大学汤晓鸥教授. ...
2020年计算机视觉综述论文汇总！涵盖14个方向：目标检测/图像分割/医学影像/人脸识别等方向
导读:本文共汇总了从2020年4月至今的计算机视觉领域综述性论文,共54篇,涵盖图像分割. 图像识别.人脸识别/检测.医学影像.目标检测.3D方向(自动驾驶/深度估计).GAN.文本检测与识别.姿态估 ...
2019年, image captioning论文汇总
目录 CVPR2019:UIC CVPR2019:SGAE CVPR2019:RND ICCV2019:CNM ICCV2019:Graph-Align CVPR2019:UIC 题目 Unsuper ...
2019年, video captioning论文汇总
目录 CVPR2019:GRU CVPR2019:OA-BTG CVPR2019:MLE+HybirdDis CVPR2019:MARN CVPR2019:SDVC AAAI2019:FCVC-CF& ...
超100篇！CVPR 2020最全GAN论文梳理汇总！
点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! 戳我,查看GAN的系列专辑~! 下述论文已分类打包好!共116篇,事实上仍有一些 ...
AAAI2020录用论文汇总（三）
本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家. AAAI2020论文汇总(part 3) [401] Justific ...
ECCV2020 收录论文汇总（持续更新中）附打包下载
2020极市计算机视觉开发者榜单已于2020年7月20日开赛,8月31日截止提交,基于火焰识别.电动车头盔识别.后厨老鼠识别.摔倒识别四个赛道,47000+数据集,30万奖励等你挑战!点击这里报名极 ...

2020年, image captioning论文汇总

目录

CVPR2020：ASG

CVPR2020：POS-SCAN

CVPR2020：SLL-SLE

2020年, image captioning论文汇总相关推荐

最新文章

热门文章