Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

题目：如你所愿:用抽象场景图精细控制图像标题生成。

来源：CVPR2020

本文提出了一种基于抽象场景图的图像字幕模型。

1 Motivation

图像字幕模型结合了多种计算机视觉技术，具有广泛的应用前景，但存在图像细节描述不足等问题。
按图像内容进行拼接式描述的图像字幕模型极大地阻碍了字幕的多样性，无法表达对图像的完整理解。

2 Contirbution

第一个提出用抽象场景图对图像标题生成进行细粒度控制
提出的ASG2Caption模型用于自动识别抽象的图形节点，生成具有预期内容和顺序的字幕。
实现了最先进的可控性给定指定ASGs在两个数据集。

3 Approach

3.1 抽象场景图

本文首先提出一种抽象场景图（Abstract Scene Graph），用来表达图像内部对象属性及对象之间的关联性，如下图所示，对于图像 $I\mathcal{I}$ ，其ASG定义为 $G=(V,E)\mathcal{G}=(\mathcal{V}, \mathcal{E})$ ，其中的 $V\mathcal{V}$ 和 $E\mathcal{E}$ 分别表示ASG的节点和边。如下图所示，节点根据意图角色分为三种类型，即对象节点 $o$ ，属性节点 $a$ 和关系节点 $r$ 。

ASG的构造规则如下：

首先用户添加其感兴趣的对象节点 $o_i$ ， $o_i$ 以图像 $I\mathcal{I}$ 为基础，并且带有在图像中的边界框，以表示目标在图像中的位置；

如果用户想了解关于 $o_i$ 的更多信息，可以在图中给 $o_i$ 添加多个属性节点 $a_i$ ，并分配有向边，用一个额外变量 $l_i|$ 表示对象 $o_i$ 的属性节点个数；

如果用户想描述两个对象节点 $o_i$ 和 $o_j$ 之间的关系，添加关系节点 $r_{i,j}$ ，并分配从 $o_i→r_{i,j}$ 以及 $r_{i,j}→o_j$ 的有向边。

由此，用户即可方便地构造以细粒度方法描述用户对图像 $I\mathcal{I}$ 进行描述的ASG模型。

构造抽象场景图的过程也可以通过简单的分类神经网络与对象建议网络自动生成。

3.2 ASG2Caption模型

这一部分阐述了作者通过使用给定图像 $I\mathcal{I}$ 和其ASG训练图像字幕模型的过程。本质上来说ASG2Caption模型是一个编码-解码网络，整个网络框架如下所示：

3.2.1 角色感知图编码器

该编码器将ASG中基于给定图像 $I\mathcal{I}$ 的节点编码成一系列的节点嵌入 $X={x1,⋯,x∣V∣}\mathcal{X}=\left\{x_{1}, \cdots, x_{|\mathcal{V}|}\right\}$ ，每一个 $x_{i}$ 不仅需要反映节点对应的视觉信息，还应该表达出节点的意图，因为对于对象节点和其对应的属性节点，其对应于图像中的区域可能是相同的。因此本文提了一个角色感知图编码器，包括一个角色感知节点嵌入模块（Role-aware Node Embedding.），以区分节点意图，还包括一个多关系图卷积神经网络（Multi-relational Graph Convolutional Network.），用来进行上下文编码。

3.2.1.1 角色感知节点嵌入模块

对于来自图 $G\mathcal{G}$ 中的第 $i$ 个节点，首先将其初始化为对应的图像特征 $v_i$ ，具体来说，目标节点 $o_i$ 的特征提取自其在图像中对应的边界框；属性标节点 $a_i$ 的特征提取自与其对应目标节相同的边界框区域；关系节点 $r_i$ 的特征提取自与其关联的两个目标节点的联合边界框。

由于只有视觉特征还无法对节点意向进行描述，在前面提取出图像特征 $v_i$ 的基础上，还进一步对每个节点进行角色嵌入增强，最终得到角色感知节点嵌入的表达形式：
$i∈r.x_{i}^{(0)}=\left\{\begin{array}{cl} v_{i} \odot W_{r}[0], & \text { if } i \in o； \\ v_{i} \odot\left(W_{r}[1]+\operatorname{pos}[i]\right), & \text { if } i \in a； \\ v_{i} \odot W_{r}[2], & \text { if } i \in r. \end{array}\right.$
上式中， $Wr∈R3×dW_{r} \in \mathbb{R}^{3 \times d}$ 表示角色嵌入的可学习矩阵， $d$ 代表特征维度，其每一行分别对应不同的节点。在属性节点嵌入过程中，还额外增加了一个 $pos⁡[i]\operatorname{pos}[i]$ 区分连接同一对象的不同属性。

3.2.1.1 多关系图卷积网络

虽然在本文的ASG中，节点之间的关系是单向的，但实际上节点之间会互相影响，而且由于节点类型不同，从一种类型节点传递信息到另一类型节点的方式与其逆过程不同。因此，作者对之前提出的ASG进行了拓展，得到用于上下文编码的多关系图 $Gm=(V,E,R)\mathcal{G}_{m}=(\mathcal{V}, \mathcal{E},\mathcal{R})$ ：

具体地说， $R\mathcal{R}$ 包含了六种边来捕捉相邻节点之间的相互关系，分别是从对象到属性、对象到关系、对象到对象以及这三种关系的逆方向。

在明确了节点之间的关系之后，使用MR-GCN网络对进行角色感知嵌入之后的特征继续进行编码，采用如下方式：
$xi(l+1)=σ(W0(l)xi(l)+∑r~∈R∑j∈Nir1∣Nir~∣Wr~(l)xj(l))x_{i}^{(l+1)}=\sigma\left(W_{0}^{(l)} x_{i}^{(l)}+\sum_{\tilde{r} \in \mathcal{R} } \sum_{j \in \mathcal{N}_{i}^{r} } \frac{1}{\left|\mathcal{N}_{i}^{\tilde{r}}\right|} W_{\tilde{r} }^{(l)} x_{j}^{(l)}\right)$
上式中， $x_{i}^{(l+1)}$ 表示节点 $i$ 的特征经过第 $l + 1$ 层之后的上下文编码嵌入结果，直观地解释就是在上一层的基础上，额外添加了与该节点临近所有节点在不同关系下的平均值之和，即引入了临近节点的信息，可以体现该节点与其他节点的关系。 $σ\sigma$ 代表的是ReLU激活函数。

取所有节点嵌入的平均值作为全局图嵌入：
$gˉ=1∣V∣∑ixi\bar{g}=\frac{1}{|\mathcal{V}|} \sum_{i} x_{i}$
将其与全局图像特征进行融合，得到全局编码特征 $vˉ\bar{v}$ 。

3.2.2 图语言解码器

图解码器的目的是将编码之后的ASG图解码为图像标题，本文采用的解码器包含两层LSTM结构，分别是注意力LSTM以及语言LSTM。

注意力LSTM以全局编码特征 $vˉ\bar{v}$ 、前一个词嵌入 $w_{t-1}$ 、和上一层语言LSTM的输出 $h_{t-1}^{l}$ 作为输入，输出注意力查询 $h_{t}^{a}$ ：中括号中的参数拼接在一起作为输入。
$hta=LSTM⁡([vˉ;wt−1;ht−1l],ht−1a;θa)h_{t}^{a}=\operatorname{LSTM}\left(\left[\bar{v} ; w_{t-1} ; h_{t-1}^{l}\right], h_{t-1}^{a} ; \theta^{a}\right)$
对于语言LSTM，注意力查询 $h_{t}^{a}$ 被用来提取第 $t$ 步的节点嵌入 $Xt\mathcal{X}_t$ 的上下文向量 $z_t$ ，之后将 $z_t$ 和 $h_{t}^{a}$ 作为输入，以此生成单词：
$htl=LSTM⁡([zt;hta],ht−1l;θl)p(yt∣y<t)=softmax⁡(Wphtl+bp)\begin{aligned} h_{t}^{l} &=\operatorname{LSTM}\left(\left[z_{t} ; h_{t}^{a}\right], h_{t-1}^{l} ; \theta^{l}\right) \\ p\left(y_{t} \mid y_{<t}\right) &=\operatorname{softmax}\left(W_{p} h_{t}^{l}+b_{p}\right) \end{aligned}$
在生成单词 $y_t$ 之后，本文还提出了一个图更新机制用来更新节点嵌入 $Xt→Xt+1\mathcal{X}_t \to \mathcal{X}_{t+1}$ 。

3.2.2.1 基于图的注意力机制

本文将图的注意力分成语义内容和图结构两方面，分别称为图内容注意（graph content attention）和图流注意（graph flow attention）。图注意的作用是用来计算上下文向量 $z_t$ 。

1）图内容注意

图内容注意重点考虑节点嵌入 $Xt\mathcal{X}_t$ 和注意力查询 $h_{t}^{a}$ 之间的语义相关性，通过如下方法计算语义得分：
$α~t,ic=wcTtanh⁡(Wxcxt,i+Whchta)αtc=softmax⁡(α~tc)\begin{aligned} \tilde{\alpha}_{t, i}^{c} &=w_{c}^{T} \tanh \left(W_{x c} x_{t, i}+W_{h c} h_{t}^{a}\right) \\ \boldsymbol{\alpha_{t}^{c} }&=\operatorname{softmax}\left(\boldsymbol{\tilde{\alpha}_{t}^{c} }\right) \end{aligned}$
这是一个比较基础的注意力网络，其中的 $W$ 与 $w$ 都是内容注意力网络的可学参数。

2）图流注意力

图流注意力的作用是捕获原始ASG中隐含的用户希望生成标题时的预期顺序（比如说如果当前参与的节点是关系节点，根据图的关系，下一个节点很可能是对象节点）。

对于图流，与ASG相比分配了一个额外的开始符号，并且对象节点与属性节点之间是双向连接关系，实际的连接方向由文本流畅性决定，此外，当一个节点没有输出边时，将为该节点构建一个自环路边（走不通时返回），确保图上的注意力不消失。

图流的转移有三种情况：

1）原地不动：当使用多个词描述一个节点时。
$αt,0f=αt−1\alpha_{t, 0}^{f}=\alpha_{t-1}$
2）前进一步：从一个关系节点转移到其对象节点时。
$αt,1f=(Mf)αt−1\alpha_{t, 1}^{f}=\left(M_{f}\right) \alpha_{t-1}$
3）前进两步：从关系节点转移到属性节点时。
$αt,2f=(Mf)2αt−1\alpha_{t, 2}^{f}=\left(M_{f}\right)^{2} \alpha_{t-1}$
$M_{f}$ 表示的是邻接矩阵，每一行表示对某一个节点的归一化转移情况。

最终的流注意是一个由动态阀门控制的流量分数软插值：
$st=softmax⁡(Wsσ(Wshhta+Wszzt−1))αtf=∑k=02st,kαt,kf\begin{aligned} s_{t} &=\operatorname{softmax}\left(W_{s} \sigma\left(W_{s h} h_{t}^{a}+W_{s z} z_{t-1}\right)\right) \\ \boldsymbol{\alpha_{t}^{f}} &=\sum_{k=0}^{2} s_{t, k} \boldsymbol{\alpha_{t, k}^{f} } \end{aligned}$
完整图流注意形式流程图：

个人理解，图流注意的思想是，首先对图进行改造，构造一个新的图，包含了不同的流动关系，然后以注意力LSTM模型计算出的注意力查询 $h_{t}^{a}$ 以及上一步的上下文向量 $z_t$ 作为不同三种流的流量阀门，控制采纳的权重得分，最终确定最终的图流。即确定下一个进行文本解析的节点。

3）注意力融合

在计算出图内容注意力 $α~tc\boldsymbol{\tilde{\alpha}_{t}^{c}}$ 与图流注意力 $αtf\boldsymbol{\alpha_{t}^{f}}$ 之后，使用一个可学网络学习注意力融合权重，进行注意力动态融合，具体表达式如下：
$βt=sigmoid⁡(wgσ(Wghhta+Wgzzt−1))αt=βtα~tc+(1−βt)αtf\begin{array}{l} \beta_{t}=\operatorname{sigmoid}\left(w_{g} \sigma\left(W_{g h} h_{t}^{a}+W_{g z} z_{t-1}\right)\right) \\ \boldsymbol{\alpha_{t}}=\beta_{t} \boldsymbol{\tilde{\alpha}_{t}^{c} }+\left(1-\beta_{t}\right) \boldsymbol{\alpha_{t}^{f} } \end{array}$
4）上下文向量计算

在学习到注意力向量之后，求每一个节点与其对应注意力的加权和，即得到 $t$ 步时最终的上下文向量
$zt=∑i=1∣V∣αt,ixt,iz_{t}=\sum_{i=1}^{|\mathcal{V}|} \alpha_{t, i} x_{t, i}$

3.2.2.2 图更新机制

在进行图像字幕工作时，每一个节点的访问强度被注意力矩阵保存下来，因此，参与更多的节点会被更新得更多，同时，有一些介词和助词虽然访问了图节点，但是并不代表节点的含义，这种情况下不应该对节点进行更新。本文提出了一种视觉哨兵门对注意力强度进行修正：
$ut=sigmoid⁡(fvs(htl;θvs))αt\boldsymbol{u}_{\boldsymbol{t}}=\operatorname{sigmoid}\left(f_{v s}\left(h_{t}^{l} ; \theta_{v s}\right)\right) \boldsymbol{\alpha}_{\boldsymbol{t} }$
上式代表了一个使用sigmoid激活的全连接层网络，用来输出一个标量，指示参与被访问的节点是否由被生成的文本所表示。

更新机制来源于NTM方法，每个节点特征的更新分为两个部分：1）擦除；2）添加。

1）擦除

首先根据每个节点在 $t$ 步时的更新强度 $u_{t,i}$ 进行擦除操作，具体来说，还是使用了一个全连接层网络计算擦除强度：
$et,i=sigmoid⁡(fers([htl;xt,i];θers))x^t+1,i=xt,i(1−ut,iet,i)\begin{aligned} e_{t, i} &=\operatorname{sigmoid}\left(f_{\text {ers}}\left(\left[h_{t}^{l} ; x_{t, i}\right] ; \theta_{e r s}\right)\right) \\ \hat{x}_{t+1, i} &=x_{t, i}\left(1-u_{t, i} e_{t, i}\right) \end{aligned}$
之后，根据擦除强度对节点的特征进行擦除操作。

2）添加

对于重要节点，需要把被擦除的部分进行返还，这部分同样训练了一个全连接层网络计算动态添加强度：
$at,i=σ(fadd([htl;xt,i];θadd))xt+1,i=x^t+1,i+ut,iat,i\begin{aligned} a_{t, i} &=\sigma\left(f_{a d d}\left(\left[h_{t}^{l} ; x_{t, i}\right] ; \theta_{a d d}\right)\right) \\ x_{t+1, i} &=\hat{x}_{t+1, i}+u_{t, i} a_{t, i} \end{aligned}$
再根据添加强度进行添加操作。

3.2.3 损失函数

网络的损失函数是图像字幕翻译时每一步的翻译准确概率的对数和，是一个比较经典的LSTM模型的训练损失。
$L=−log⁡∑t=1Tp(yt∣y<t,G,I)L=-\log \sum_{t=1}^{T} p\left(y_{t} \mid y_{<t}, \mathcal{G}, \mathcal{I}\right)$

4 Experiment

本文实验数据库使用的是图像字幕中常用的VisuakGenome 和MSCOCO，自动构建出三元数据（image $I\mathcal{I}$ ，ASG $G\mathcal{G}$ ，caption $y\mathcal{y}$ ）。三元数据的构建使用的是其他论文的方法。

本文对模型质量的评价从可控性和多样性两方面进行评估。

对于可控性的评估，使用与ground truth图像标题对其的ASG作为控制信号，具体的指标包括BLEU，METEOR，ROUGE，CIDEr，SPICE。评价思想是如果语义识别正确，句子结构应该与ASG比较符合，得分较高。

对于多样性的评估，首先采样相同数量的标题，之后通过两个指标评估采样出来的标题的相似性。

其一是DIV-n：评估长度为n个字节的词段在整个标题中出现的频率；其二是SelfCIDEr，派生自CIDEr的一种评测方法。

具体实验时，使用在VisualGennome上预训练的Faster-RCNN提取ASG的节点特征，使用在ImageNet上预训练的ResNet152提取全局图像表征。

4.1 可控性评估

评估了他们的模型与一些其他方法在可控性指标上的表现：

具体图像字幕的可视化：

4.2 不同组件效果的消融研究

对不同模块的添加对模型表现进行了评估：

第一二行是两个baseline，对三四行的评估发现添加图上下文编码能够提升模型表现，五六行比较了图流结果与图更新机制之间的表现差异，七八行评估了在本文提出的模型基础上，添加集束搜索（beam search，一种对贪心算法的改进）之后，模型表现达到了最优。

4.3 不同关心角度对字幕生成的影响

根据不同关心角度构建的不同ASG，可能会输出完全不同的图像字幕结果，同时，具有大致相同结构的ASG会生成相似的标题，但是存在不同描述。证明模型细粒度级别上的敏感性。

4.4 多样性评估

在两个数据集上与不同模型进行对比，评价多样性水平：

使用不同ASG，生成了很不同的文本描述：

。证明模型细粒度级别上的敏感性。

4.4 多样性评估

在两个数据集上与不同模型进行对比，评价多样性水平：

使用不同ASG，生成了很不同的文本描述：