Context and Attribute Grounded Dense Captioning

原文地址

时间:2019 CVPR

Intro

本文要解决的是dense caption的问题，传统方法中，对于每个proposal 单独生成caption而不结合上下文，结果可能因为局部的模糊性而错误，或者就是融入全局的信息，但有时也会导致全局与局部信息的冲突，如图所示，局部上无法识别黄色的裤子（误认为气球），全局上错误的识别为风筝（因为背景是天空）

本文设计了一个Contxt and Attribute Grounded Network(CAG-Net)，使用上下文信息（local,neighboring,global）来给出multi-scale的上下文信息辅助caption，包括两个部分

Contextual Feature Extractor:在不同的ROI之间根据它们的空间位置和类别建立相似度图
Attribute-Grounded Caption Generator:使用LSTM融合上下文信息来生成caption

本文贡献

设计了一个基于上下文和属性的dense caption模型
提出了一个由粗到细的语义属性监督方法来提高模型的识别能力
实验证明了CAG-Net在VG数据集上的有效性

Approach

网络先使用Faster RCNN来学习视觉特征和proposals，然后通过Contextual Feature Extractor(CFE)来生成global、neighboring和local的cue，然后使用Attribute Grounded Caption Generator(AGCG)来融合，为了生成丰富和细致的caption并巩固由粗到细的caption生成，在AGCG的输出上加一个辅助监督机制——Linguistic Attribute，模型的目标是最小化caption损失和二分类交叉熵损失（attribute losses）

Contextual Feature Extractor

记一幅图的ROI为R={Ri∣i=1,2,...,N}\mathcal{R}=\{R_i|i=1,2,...,N\}R={Ri∣i=1,2,...,N}，整幅图为R∗R*R∗，RiR_iRi的neighboring region为Rin=R/Ri\mathcal{R}^n_i=\mathcal{R}/R_iRin=R/Ri，对于目标regionRiR_iRi，记local,neighboring和global特征分别为Fil,Fin,FigF_i^l,F^n_i,F^g_iFil,Fin,Fig，其中FigF^g_iFig是从整幅图中得到的特征，FilF^l_iFil是从target region得到的特征，Contextual Feature Extractor(CFE)就是为了找到neighboring特征Fin=f(Ri,Rin)F^n_i=f(R_i,R^n_i)Fin=f(Ri,Rin)

其中

也就是用局部特征的点积来加权得到neighboring feature，对于jjj，我们选择与RiR_iRi的IOU的top-k个区域来节省计算量

Attribute Grounded Caption Generator

本节包括两部分：使用contextual cue integrator来融合CFE生成的特征，使用Attribute Grounded Coarse-to-Fine Generator分别在coarse level和fined level上的语义属性损失，来作为额外的监督，以提高可识别性
Contextual Cue Integrator(CCI)，如图(a)所示
Attribute Grounded Coarse-to-Fine Generator
为了提高模型的表达能力，我们引入了coarse-to-fine的caption generation procedure，其中包括coarse stage和refined stage，由辅助的分级语言属性损失监督，如图所示

attribute loss就是二分类损失（有或没有），每个词被独立地衡量，类似multi-label，不考虑词序

refined LSTM作为一个fine-grained decoder来decode由coarse LSTM生成的 coarse regional description

attribute label是由nltk在原句子上得到的

结果

在VG1.0上的结果

结论

本文提出了Context and Attribute Grounded Dense Captioning(CAG-Net)，模型的两个部分（CFE、ACGC）即是模型的特点，CFE过程得到模型的local、neighboring和global的特征，ACGC对这些加以融合，并且通过引入coarse-to-fine的损失来辅助caption的生成