DETR整体架构

DETR包含三个主要组件：一个用于提取紧凑特征表示的CNN主干，一个编码器-解码器转换器，以及一个用于进行最终检测预测的简单前馈网络(FFN)。

Backbone

Transformer encoder

经过主干也就是卷积神经网络的特征提取后，提取到的高级特征首先会经过一个1x1的卷积，该卷积的作用就是降低通道数，将由C变为d（由2048变为d）。经过该卷积后的新特征我们表示为z0∈ Rd×H×W
由于编码器需要的输入是一个序列，所以需要改变其空间维度，也就是从d×H×W变为d×HW，于此同时，额外的固定位置编码也需要被输入。

Transformer decoder

多头注意机制由N个head组成，所以有N个通道数为d的嵌入。与原始transforming不同的是，在DETR模型中，每个解码器并行的处理N个输入，也就是说在解码器的地方会有N个不同的object queries被输入（与目标跟踪不同之处，目标跟踪中此处的输入为搜索图片）。解码器将N个对象查询转换成输出嵌入。然后通过前馈网络将它们独立解码成盒坐标和类别标签，从而产生最终预测。

Prediction feed-forward networks (FFNs)

最终预测由一个具有ReLU激活函数和隐藏维数d的三层感知器和一个线性投影层计算。FFN根据input image预测盒子的归一化中心坐标、高度和宽度，线性图层使用softmax函数预测分类标注。因为我们预测一组固定大小的N个边界框，其中N通常远大于图像中感兴趣对象的实际数量，所以使用额外的特殊类别label∅来表示在一个槽内没有检测到对象。这个类在标准对象检测方法中扮演类似于“背景”类的角色。

Auxiliary decoding losses

DETR在每个解码器层后添加预测FFNs和Hungarian loss。所有预测FFNs共享它们的参数。我们还使用了额外的共享归一化层来归一化来自不同解码器层的预测FFNs的输入。

QUOTE

[DETR]
We present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor generation that explicitly encode our prior knowledge about the task.
[SwinTrack]
Starting from 2020, Transformer has been vastly introduced to the vision community. DETR attracted a lot of attention. By modeling the object detection as a direct set prediction problem, DETR removes most hand-crafted processes and reaches a state-of-the-art comparable performance without domain knowledge. Later, the advancing model of DETR and many other transformer-based models were proposed to the image and video tasks.

BMVC-2021-DETR: End-to-End Object Detection with Transformers 阅读笔记相关推荐

A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记
A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记 //2022.1.7 日下午16:00开始阅读双阶段检测器示意图单阶段检测器 ...
Deformable DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION（论文阅读）
Deformable DETR 是商汤Jifeng Dai 团队于2021年发表在ICLR 上的文章,是针对Detr 的改进. 论文:<DEFORMABLE DETR: DEFORMABLE T ...
《Feature Pyramid Networks for Object Detection》论文阅读笔记
FPN 很多论文中都会采用含有FPN的backbone进行特征提取,因为FPN使用特征金字塔结构,将low-level的特征和high-level的特征进行融合,能提取更加准确的位置等特征信息. 所以 ...
论文解读：DETR 《End-to-end object detection with transformers》，ECCV 2020
论文解读:DETR <End-to-end object detection with transformers>,ECCV 2020 0. 论文基本信息 1. 论文解决的问题 2. 论文 ...
论文阅读：DEFORMABLE DETR:DEFORMABLE DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION
题目:DEFORMABLE DETR:DEFORMABLE DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION 来源:ICLA 是 ...
End-to-End Object Detection with Transformers[DETR]
End-to-End Object Detection with Transformers[DETR] 背景概述相关技术输入提取特征获取position_embedding transfor ...
论文阅读：DETR:End-to-End Object Detection with Transformers
题目:End-to-End Object Detection with Transformers 来源:Facebook AI ECCV2020 论文链接:https://arxiv.org/abs/ ...
End-to-End Object Detection with Transformers，DETR论文学习
End-to-End Object Detection with Transformers,DETR论文学习 1. 引言 2. 本论文发表前的目标检测策略(非端到端的目标检测策略) 2.1 目标检测的 ...
DETR: End-to-End Object Detection with Transformers [暴力美学]
DETR: End-to-End Object Detection with Transformers 网络解析说明: 个人理解,如有错误请及时提出. 由于自己电脑驱动较低不满足440及以上,所以目 ...
End-to-End Object Detection with Transformers的部分解读
Transformer+Detection:引入视觉领域的首创DETR 也没有精力看原文了,直接看了博客: https://mp.weixin.qq.com/s?__biz=MzI5MDUyMDIxN ...

BMVC-2021-DETR: End-to-End Object Detection with Transformers 阅读笔记

目录