手绘图像检索：Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

摘要

文中提出了一种新的FG-SBIR(Fine-Grained Sketch-Based Image Retrieval)模型，虽然其本质上是一个常用的多分枝深度结构，不过相比于其它模型，其有以下特点：

1）在每一个深度神经网络上都添加了注意力模块，因此使其对特征的学习可以更多的关注到显著性区域。

2）通过对一个特征融合的方式将粗糙和细致的语义信息进行了融合。

3）引入了一个基于高阶可学习的能量损失（距离）函数，建立了两个模态特征之间的关联关系，使其对不同模态未对齐的特征具有更好的鲁棒性。

关于attention

Sotf attention 因为可微分、可参与端到端的训练因此使用比较广泛。而hard attention由于不可微分，因此常通过强化学习的方式进行学习。在本文中，采用了soft attention模型。当给一个从CNN任意一层计算得到的feature map, soft attention模型将会将该feature map作为输入并生成一个attention mask。之后，利用该mask对输入的feature map进行权重计算从而生成一个attended feature map以传入网络的下一层。如下图所示，文中的attention模块加到了最后一层卷积层的后边。

用 $f_{i,j}$ 表示feature map f在空间(i,j)上的值，其相应的attention得分 $s_{i,j}$ 和最终的mask α可由以下两个公式得到：

其中 $Fatt\left( \cdot \right)$ 是通过attention module学习得到的mapping function， ${W_a}$ 是attention module的权重。文中attention module包含两个卷基层。

Attended feature map:

不过，由于特征与图像之间的空间不齐问题会导致上式得到的attended map一方面容易受到噪声影响，另一方面也会丢失原始feature map上的一些重要信息，因此最终的attended feature map通过下式获取：

Coarse-fine 特征融合

尽管由attention module得到的attended feature对空间及细节比较敏感，但是在通过全连接层后很大程度上会丢失这些细节。为了解决该细节丢失的问题，文中对attented feature map和全连接层输出的特征进行了融合。融合的方式为简单的拼接(concatenation operation)，在拼接前对attended feature map利用全局average pooling进行了降维操作。

高阶损失函数（HOLEF, higher-order learnable energy function）

一阶损失函数的不足

常用的triplet loss形式如下所示：

当其中的距离函数D()是一阶函数时，比如欧式距离，其关注点仅仅是两个向量对应点之间的减法，而无法考虑非对应点之间的关系，因此无法体现cross-channel之间的关系。为了克服一阶距离的缺陷，文中借助outer subtraction引入了二阶距离函数。outer subtraction 的形式如下：

考虑到并不是所有outer subtraction得到的项都是有价值的，文中引入了权重因子，并最终得到了二阶距离函数：

由此设计的triplet loss: