@[TOC](Distilling Object Detectors with Fine-grained Feature Imitation(2019 CVPR KD))

Abstract

我们表明，将传统的知识蒸馏应用到检测模型中可以获得较小的增益。针对检测模型中知识提取的挑战，提出了一种利用特征响应的交叉位置差异的细粒度特征模仿方法。我们的直觉是，探测器更关心局部近目标区域。因此，近目标锚位置上的特征响应的差异揭示了教师模型倾向于如何概括的重要信息。我们设计了一种新的机制来估计这些位置，并让学生模型在这些位置上模仿老师，以获得增强的性能。

1. Introduction

前景和背景实例的极度不平衡也使得边界框注释不那么庞大。我们发现，仅仅增加蒸馏损失对学生来说只能起到很小的促进作用

Hint traing通过最小化教师和学生模型的全部高级特征的差异来改进学生模型。但是我们发现在检测模型上直接应用提示学习会损害性能。直觉上，检测器更关心与 gt 重叠的局部区域，而分类模型更关注全局背景。因此，直接进行全特征模仿将不可避免地从未被遮挡的区域引入大量噪声，尤其是对于背景情况多种多样的目标检测。

图1。所提出方法的原理说明。选择了左边两幅图像上的红色和绿色边界框是表示相应位置上的锚框。
红色anchors 表示与 gt 边界框重叠最大，绿色锚点表示附近的物体样本。
其目的是，近物体锚位置上的特征响应的差异（绿色anchor 和红色的 anchor 的差异）揭示了学习后的教师模型如何倾向于这种产生 ( 例如，教师如何在拥挤物体的那些交叉点上的响应与物体上的位置相比反映了它如何分离和检测那些拥挤的实例 )。因此，我们的方法首先定位这些知识密集的位置，并让学生模型模仿教师对它们的高级特征响应。

什么意思？

我的理解就是作者表明的是学生要学习的是老师的 gt 和预测anchor的分布位置。

我们的方法有效地解决了上述挑战:

1)我们不像在分类模型的普通知识提炼中那样依赖于教师模型的软化输出，而是依赖于教师高级特征响应的位置间差异。
2)在分类和定位头部之前的细粒度特征模仿改善了两个子任务。我们在第4.4.2节和第4.4.3节中表明，我们的方法有效地增强了学生模型的类别区分和定位能力。
3)我们的方法避免了那些噪声信息较少的背景区域，这些背景区域会导致全特征模拟的性能下降，第4.4.5节中对高级特征图上的每通道方差的研究验证了这种直觉。

2. Related Works

objection detection

knowledge distillation

Hint training[32]探索了另一种提炼方式，其中来自教师模型的监督来自高级特征。[38]建议强制学生模型在注意力图指定的特征上模仿教师模型。[6]提出利用不同样品之间的关系，并利用交叉样品的相似性来改进蒸馏。[18]将蒸馏形式化为分配匹配问题，以优化学生模型。最近的一些工作探索了压缩检测模型的蒸馏方法。[5]尝试在检测头上添加全特征模仿和特定蒸馏损失，但我们发现全特征模仿会降低学生模型的性能，并且不清楚如何处理区域建议[11]在执行蒸馏时教师和学生之间的不一致。[20]建议仅转移建议区域下的知识，但模拟区域取决于模型本身的输出，不适用于单级检测器。

[38] Sergey Zagoruyko and Nikos Komodakis. Paying more at-
tention to attention: Improving the performance of convolu-
tional neural networks via attention transfer. arXiv preprint
arXiv:1612.03928, 2016.
[6] Y untao Chen, Naiyan Wang, and Zhaoxiang Zhang. Dark-
rank: Accelerating deep metric learning via cross sample
similarities transfer. arXiv preprint arXiv:1707.01220, 2017
[18] Zehao Huang and Naiyan Wang. Like what you like: Knowl-
edge distill via neuron selectivity transfer. arXiv preprint
arXiv:1707.01219, 2017

Model acceleration

3. Method

In this work, we developed a simple to implement fine-grained feature imitation method utilizing inter-location discrepancy of teacher’s feature response on near object anchor locations for distilling the knowledge in cumber-some detection models. Our Intuition is that the discrepancy of feature response on the near object anchor locations reveals important information of how large detector tends to generalize, with which learned knowledge can be distilled. Specifically, we propose a novel mechanism to estimate those anchor locations which forms fine-grained local feature regions close to object instances, and let a student model imitate teacher model’s high level feature response on those regions to get enhanced performance. This intuitive method is general for current state-of-the-art anchor based detection models (e.g., Faster R-CNN [31], SSD [24],YOLOV2 [30]), and is orthogonal to other model acceleration methods including network pruning and quantization.

这里看原文好理解（中文帮助理解）
在这项工作中，我们开发了一种简单易实现的细粒度特征模拟方法，利用教师对临近 gt 的特征响应 anchors 的位置间差异来kd繁琐检测模型中的知识。我们的直觉是，接近目标锚点位置上的特征响应差异揭示了大型探测器趋向于泛化的重要信息，利用这些信息可以提取所学知识。具体地说，我们提出了一种新的机制来估计那些在对象实例附近形成细粒度局部特征区域的锚点位置，并让学生模型在这些区域上模仿教师模型的高级特征响应，以获得更好的性能。这种直观的方法适用于当前最先进的基于锚的检测模型（例如，更快的R-CNN[31]、SSD[24]、YOLOV2[30]），并且与其他模型加速方法（包括网络修剪和量化）正交。

简单来说，学生网络学习老师网络中靠近 gt 的 anchors 的分布信息可以帮助学生网络提升模型泛化。

图2.所提出的细粒度特征模拟方法的说明。学生检测器通过地 gt 监督和模仿教师在近距离物体 anchors 位置上的特征响应来训练。特征适配层使学生的引导特征层与教师兼容。为了识别信息位置，我们迭代地计算每个 gt 的 anchors的IOU图，过滤并组合候选，并生成最终的模仿掩码。详情见3.1。

3.1. Imitation region estimation

我们利用地面真值包围盒和锚先验为每个独立图像计算这些区域的maskI，并通过阈值因子ψ控制区域的大小。在下文中，对于要素图，我们总是参考在[31]中定义了锚点先验的最后一个要素。具体如图2所示，对于每个地面真值框，我们计算其与所有锚点之间的IOU，形成W × H × K的IOU图m，这里W和H表示特征图的宽度和高度，K表示K个预设锚点框。然后我们找到最大的IOU值M = max(m)，乘以阈值因子ψ，得到一个滤波器阈值F =ψ∫M，用F对IOU maptokeepthoselargerthenF位置进行滤波，并结合or运算得到一个W × H掩码。

I 是计算 gt 和所有的 anchors的IOU MASK。
简单来说，对一张图（W X H）来说，计算所有的 gt 和 priors anchors（K个）的 IOU ，得到 W x H x K 的 IOU map m 的矩阵，里面存的IOU值
取出最大的IOU的值 , M = max（m）
设定阈值 F = φ x M （ φ 相当于一个参数因子）来过滤临近 gt 的 anchors 。
φ = 0.5 比较好

3.2. Fine-grained feature imitation

s为学生模型的引导特征图，t为对应的教师特征图。对于宽度W和高度H的特征地图上的每个接近目标的anchors位置(I，j)，

学习教师检测模型的知识。连同所有估计anchors 位置（MASK I），蒸馏目标是最小化:

Np 是MASK中的正例数，fadap()是适配函数。那么学生模型的总体训练损失是:

4.Experiment

4.1. Lightweight detector

4.2. Imitation with lightweight detectors

我们首先将所提出的方法应用于上述 lightweight detectors 。我们使用基础模型作为教师(表示为1×),并直接将学生模型的每一层的通道减半。具体来说，我们将教师模型减半一次得到 0.5× 模型，减半两次 (去除75%的通道) 得到0.25×模型。
众所周知，参数和计算的减少总是带来指数级的性能下降，与老师相比，0.5×模型仅牺牲了4.7 mAP左右，而0.25×减半导致16.7 mAP下降。在这种困难的情况下，该方法对学生模型仍然取得了显著的提升，即0.5×模型得到了2.5 mAP的提升，0.25×模型提升了6.6 mAP (0.25×-I)，是未模仿模型的14.7%。

后续看论文。

看到这，感觉这个因模型而异。不一定要有效，这里的意思是说，老师模型剪枝后虽然他的map下降，但依然对学生网络有指导意义。

4.3. Imitation with Faster R-CNN

Halved student model

教师网络减半作为学生网络，学生网络教师网络，将会有所提升。

Shallow student network

教师和学生网络的backbone相似会使得学生网络学习也会有收益。

Multi-layer imitation —>FPN

以前的模拟实验是用单层特征映射进行的，我们用特征金字塔网络(FPN)的开创性工作将实验进一步扩展到多层模拟[21]。FPN结合fast R-CNN框架，以不同的锚先验大小在不同的层上进行区域提议，并根据roi大小在相应的层上汇集特征。我们用相应的先验锚计算每一层上的模仿区域，让学生模型模仿每一层上的特征响应。教师检测模型是一个基于Resnet50 FPN更快的R-CNN，而学生是一个减半的对应。如表5所示，被模拟学生在帕斯卡风格平均精度下获得3.2的绝对mAP增益，在可可风格平均精度下获得3.6的mAP增益。

这个可以试试。针对老师和学生网络FPN的结构试一试

Distilling Object Detectors with Fine-grained Feature Imitation(2019 CVPR KD)相关推荐

[目标检测知识蒸馏2] [CVPR19] Distilling Object Detectors with Fine-grained Feature Imitation
[CVPR19] Distilling Object Detectors with Fine-grained Feature Imitation Introduction: 在 Faster RCNN ...
【没有哪个港口是永远的停留~ 论文简读】2019 Distilling Object Detectors with Fine-grained Feature Imitation
链接:2019 Distilling Object Detectors with Fine-grained Feature Imitation 代码:https://github.com/twangn ...
【CVPR 2021】基于解耦特征的目标检测知识蒸馏：Distilling Object Detectors via Decoupled Features
[CVPR 2021]基于解耦特征的目标检测知识蒸馏:Distilling Object Detectors via Decoupled Features 论文地址: 主要问题: 主要思路: 具体实现 ...
Distilling Object Detectors with Fine-grained Feature Imitation
Motivation 检测起更focus在物体出现的区域 Detectors care more about local near object regions. 物体出现的周围特征变化其实包含了更多 ...
【Distill 系列：二】CVPR 2019 Distilling Object Detectors with Fine-grained Feature Imitation
cvpr 2019 detectors care more about local near object regions motivation Fitnets: Hints for thin dee ...
Distilling Object Detectors with Fine-grained Feature Imitation论文解读
论文链接文章目录 1.简介 2.方法 2.1 模仿区域的估计 2.2 细粒度特征模仿 1.简介对于以往应用于知识蒸馏的目标检测存在两种方法.第一种来自于论文FitNets: Hints for T ...
Distilling Object Detectors via Decoupled Features
Abstract 相比于图像分类而言,目标检测器更加复杂,具有多个损失函数.而目前的的检测中,其主要将注意力集中在对象的区域中,但本文指出,从背景中提取的特征信息对于学生模型的学习也是必不可少的.且由 ...
【论文总结】Incremental Learning of Object Detectors without Catastrophic Forgetting（附翻译）
Incremental Learning of Object Detectors without Catastrophic Forgetting 无灾难性遗忘的增量学习目标检测器论文地址:https ...
YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
来源:https://arxiv.org/abs/2207.02696 代码:https://github.com/WongKinYiu/yolov7 0. Abstract YOLOv7 surpa ...

Distilling Object Detectors with Fine-grained Feature Imitation(2019 CVPR KD)