细粒度识别——LIO方法概述

一、概要

和细粒度识别中的DCL方法不同，LIO（Look-into-object）方法的作者认为仅仅通过学习不同种类物体的可区分视觉模式进行分类是不严谨的，更重要的是要对物体的整体结构进行建模，这是从视觉机制得到的启发：人类在看到目标后，首先是锁定目标的范围，然后在目标所在范围内分析目标的内部结构特征，进而做出判断。基于此，提出了OEL（目标范围学习）和SCL（空间上下文学习）两个可插拔的学习模块，来实现细粒度目标分类。

同时，LIO方法无需额外的标注工作量，通过自监督的方式实现了OEL和SCL模块的学习。最终的推理阶段，OEL和SCL模块可以完全去掉，几乎没有额外的推理开销。

二、架构

图1是LIO的概要图，输入经过骨干网提取特征映射，特征映射分别输入OEL和SCL模块进行学习，两个模块共同促进骨干网学习定位对象和对象内部区域的相对位置。

图2是LIO的网络结构。1、绿色区域是Backbone，负责预测输出类别标签，同时输出的特征映射分别接入OEL和SCL模块；2、蓝色区域表示OEL模块，其输出一个Mask接入到SCL模块；3、灰色区域是SCL模块，同时接收到Backbone和OEL的Mask输入。注意：橙色虚线仅在前向传播时起作用，反向传播时是不起作用的。

三、OEL

Object Extent Learning，用于学习定位目标的大致范围，学的好与坏将直接关系到最终分类的性能。确定目标范围一般需要事先进行标注，然后进行训练，但这样做成本很大。OEL另辟蹊径，为了学习图像 $I$ 中目标的范围，它通过采样一定数目与 $I$ 同类别的图像，并进行计算得出一个语义Mask，该Mask矩阵反映了目标的大致范围，实现了自监督学习。流程如下：

采样N个同类别样本；
在Backbone上前向传播得到 N 个样本的特征映射集合 $F$ ；
每个特征映射与 $I$ 对应的特征映射 $f$ 做区域相似性计算，得到多个Mask矩阵（相似性计算通过向量点乘实现）；
将多个Mask矩阵融合为一个Mask；

图 3 是经过区域相似性计算得出的一个Mask。融合后的Mask会参与到OEL的损失函数中，驱动骨干网学习输出和Mask矩阵一致的目标输出。使用多个Mask融合的原因是考虑到了图像存在的视角和形变因素，也许鲁棒性会更好。

四、SCL

Spatial Context Learning，空间上下文学习，旨在建模目标区域中不同部分的位置关系，依赖OEL模块学习到的特征映射。具体方法是对目标区域的非中心部分与目标区域的中心部分（极坐标原点）的极坐标进行预测。

极坐标的采用是一大亮点。目标存在不同的形态，采用笛卡尔坐标系建模不同部分之间的位置关系，需要对绝对位置进行建模，而绝对位置对参考坐标系很敏感，建模会比较困难。极坐标不存在该问题，它采用相对坐标，所有位置都是相对极点进行计算，建模相对容易。

SCL的损失是距离损失 + 极角损失。距离损采用MSE，极角损失是一个方差的形式，目的是增强模型的预测稳定性，能hold住不同形态下的坐标预测，鲁棒性更好。

五、Backbone + OEL + SCL

Backbone，OEL和SCL三个模块互相配合，各司其职。OEL定位目标，SCL学习目标不同部分的位置关系，Backbone结合OEL和SCL的反馈，对特征做进一步加工，做最终的分类预测。

六、LIO与DCL的比较

根据论文原文解释，LIO和DCL都适用于细粒度图像分类任务，但是成文思路不同。

DCL目的是学习辨识对象的局部区域；
LIO目的是建模或理解对象的整体结构；

所以，LIO在柔性物体的细粒度分类方面要比DCL好一些（比如区分不同鸟类），但是在刚性物体分类方面DCL要更好一些，原文的实验中，汽车和飞行器的实验结果是DCL由于LIO，而CUB(鸟类数据集)上的结果LIO要明显由于DCL。