目录

  • DETR整体架构
  • Backbone
  • Transformer encoder
  • Transformer decoder
  • Prediction feed-forward networks (FFNs)
  • Auxiliary decoding losses
  • QUOTE

论文地址:
https://arxiv.org/abs/2005.12872
代码地址:
https://github.com/facebookresearch/det
https://github.com/facebookresearch/detr

DETR整体架构


DETR包含三个主要组件:一个用于提取紧凑特征表示的CNN主干,一个编码器-解码器转换器,以及一个用于进行最终检测预测的简单前馈网络(FFN)。

Backbone

Transformer encoder


经过主干也就是卷积神经网络的特征提取后,提取到的高级特征首先会经过一个1x1的卷积,该卷积的作用就是降低通道数,将由C变为d(由2048变为d)。经过该卷积后的新特征我们表示为z0∈ Rd×H×W
由于编码器需要的输入是一个序列,所以需要改变其空间维度,也就是从d×H×W变为d×HW,于此同时,额外的固定位置编码也需要被输入。

Transformer decoder

多头注意机制由N个head组成,所以有N个通道数为d的嵌入。与原始transforming不同的是,在DETR模型中,每个解码器并行的处理N个输入,也就是说在解码器的地方会有N个不同的object queries被输入(与目标跟踪不同之处,目标跟踪中此处的输入为搜索图片)。解码器将N个对象查询转换成输出嵌入。然后通过前馈网络将它们独立解码成盒坐标和类别标签,从而产生最终预测。

Prediction feed-forward networks (FFNs)

最终预测由一个具有ReLU激活函数和隐藏维数d的三层感知器和一个线性投影层计算。FFN根据input image预测盒子的归一化中心坐标、高度和宽度,线性图层使用softmax函数预测分类标注。因为我们预测一组固定大小的N个边界框,其中N通常远大于图像中感兴趣对象的实际数量,所以使用额外的特殊类别label∅来表示在一个槽内没有检测到对象。这个类在标准对象检测方法中扮演类似于“背景”类的角色。

Auxiliary decoding losses

DETR在每个解码器层后添加预测FFNs和Hungarian loss。所有预测FFNs共享它们的参数。我们还使用了额外的共享归一化层来归一化来自不同解码器层的预测FFNs的输入。

QUOTE

[DETR]
We present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor generation that explicitly encode our prior knowledge about the task.
[SwinTrack]
Starting from 2020, Transformer has been vastly introduced to the vision community. DETR attracted a lot of attention. By modeling the object detection as a direct set prediction problem, DETR removes most hand-crafted processes and reaches a state-of-the-art comparable performance without domain knowledge. Later, the advancing model of DETR and many other transformer-based models were proposed to the image and video tasks.

BMVC-2021-DETR: End-to-End Object Detection with Transformers 阅读笔记相关推荐

  1. A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记

    A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记 //2022.1.7 日下午16:00开始阅读 双阶段检测器示意图 单阶段检测器 ...

  2. Deformable DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION(论文阅读)

    Deformable DETR 是商汤Jifeng Dai 团队于2021年发表在ICLR 上的文章,是针对Detr 的改进. 论文:<DEFORMABLE DETR: DEFORMABLE T ...

  3. 《Feature Pyramid Networks for Object Detection》论文阅读笔记

    FPN 很多论文中都会采用含有FPN的backbone进行特征提取,因为FPN使用特征金字塔结构,将low-level的特征和high-level的特征进行融合,能提取更加准确的位置等特征信息. 所以 ...

  4. 论文解读:DETR 《End-to-end object detection with transformers》,ECCV 2020

    论文解读:DETR <End-to-end object detection with transformers>,ECCV 2020 0. 论文基本信息 1. 论文解决的问题 2. 论文 ...

  5. 论文阅读:DEFORMABLE DETR:DEFORMABLE DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION

    题目:DEFORMABLE DETR:DEFORMABLE DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION 来源:ICLA 是 ...

  6. End-to-End Object Detection with Transformers[DETR]

    End-to-End Object Detection with Transformers[DETR] 背景 概述 相关技术 输入 提取特征 获取position_embedding transfor ...

  7. 论文阅读:DETR:End-to-End Object Detection with Transformers

    题目:End-to-End Object Detection with Transformers 来源:Facebook AI ECCV2020 论文链接:https://arxiv.org/abs/ ...

  8. End-to-End Object Detection with Transformers,DETR论文学习

    End-to-End Object Detection with Transformers,DETR论文学习 1. 引言 2. 本论文发表前的目标检测策略(非端到端的目标检测策略) 2.1 目标检测的 ...

  9. DETR: End-to-End Object Detection with Transformers [暴力美学]

    DETR: End-to-End Object Detection with Transformers 网络解析 说明: 个人理解,如有错误请及时提出. 由于自己电脑驱动较低不满足440及以上,所以目 ...

  10. End-to-End Object Detection with Transformers的部分解读

    Transformer+Detection:引入视觉领域的首创DETR 也没有精力看原文了,直接看了博客: https://mp.weixin.qq.com/s?__biz=MzI5MDUyMDIxN ...

最新文章

  1. MySQL学习笔记06【多表查询、子查询、多表查询练习】
  2. 7-39 魔法优惠券 (25 分)(思路加解释 用容器做的)加油兄弟们
  3. 开发者说:当垃圾箱有了智慧
  4. pyecharts入门及新冠病毒疫情数据可视化(绘制地理图表)
  5. 超实用的8个Linux命令行性能监测工具
  6. Asp.Net基于forms的验证机制,记录一下...
  7. java io知识点汇总FIle类
  8. 浙江大学概率论与数理统计第四版考研真题和课后答案
  9. 体彩大乐透模拟机选随机号码_模拟
  10. 云计算机什么意思啊,什么叫云计算,云计算是什么,最通俗的解释是这样的
  11. 世界电影经典《第七封印》
  12. 1、什么是软件危机?它是哪些典型表现?为什么会出现软件危机?
  13. 计算机T层,层螺旋计算机断层摄影术及T磁共振成像对-国家心血管病中心.PDF
  14. VINS fusion软件架构分析(4)---后端处理processMeasurements()功能函数概览
  15. TRON、ITRON与T-Engine
  16. java web 播放音频_用webAudio和canvas实现音频可视化
  17. 【FPGA算法加速】运行PYNQ,对应FPGA芯片版本:赛灵思黑金AX7020
  18. day13-event2
  19. 萧井陌 python培训千锋为中钞研究院提供Python培训,助力企业高效数据运营
  20. 河北工业大学计算机类绩点,河北工业大学平均学分绩点怎么算

热门文章

  1. 直播场景音频降噪,传统算法 VS AI 算法对比和实践
  2. TMS320F280049C 学习笔记16 比较器子系统(CMPSS)
  3. 9.2 5道半leetcode+2verilog+ques lists
  4. 基于深度学习的图像修复
  5. 关于高斯-博内-陈定理
  6. CSS 边框 border属性
  7. python pcl icp_PCL学习笔记二:Registration (ICP算法)
  8. Win系统 - 局域网内电脑文件共享
  9. JAVA中三个点“...”是什么意思
  10. css td 强制换行,css表格强制换行