【2D detection】Deformable DETR论文阅读记录
文章目录
- Deformable DETR论文阅读记录
- 摘要
- 介绍
Deformable DETR论文阅读记录
简单读一下这篇文章,记录一下一些重点部分,看看能否运用到3D 当中。
code:https://github.com/fundamentalvision/Deformable-DETR
paper:https://arxiv.org/abs/2010.04159
摘要
DETR 由于 Transformer 注意力模块在处理图像特征图方面 的局限性,它存在收敛速度慢和特征空间分辨率有限的问题。 为了缓解这些问题,我们提出了可变形 DETR,其注意力模块仅关注参考周围的一小组关键采样点。 可变形 DETR 可以获得比 DETR 更好的性能(尤其是在小物体上),训练次数减少 10 倍。
介绍
DETR由下面两个问题:
- 与现有的目标检测器相比,它需要更长的训练时期才能收敛。 例如,在 COCO 基准上,DETR 需要 500 个 epochs 才能收敛,这比 Faster R-CNN慢 10 到 20 倍。
- DETR 在检测小物体方面的性能相对较低。 现代物体检测器通常利用多尺度特征,从高分辨率特征图中检测小物体。 同时,高分辨率特征图导致 DETR 不可接受的复杂性
上述问题主要归因于 Transformer 组件在处理图像特征图方面的不足。== 在初始化时,注意力模块将几乎统一的注意力权重投射到特征图中的所有像素。== 长时间的训练时期对于学习注意力权重以专注于稀疏有意义的位置是必要的。 另一方面,Transformer 编码器中的注意力权重计算是平方计算 w.r.t. 像素数。 因此,处理高分辨率特征图具有非常高的计算和内存复杂性。
【2D detection】Deformable DETR论文阅读记录相关推荐
- Deformable DETR论文翻译
Deformable DETR论文翻译 摘要 1.介绍 2.相关工作 3. 回顾transformer和DETR 4.方法 4.1 端到端目标检测中的可形变transformer 4.2 DEFORM ...
- Life Long Learning论文阅读记录之LwF
Life Long Learning论文阅读记录之LwF 写在前面 获取原文 问题 难点 目标 符号说明 现有方法 不使用旧数据集的方法 Learning without Forgetting(LwF ...
- SuperPoint:Self-Supervised Interest Point Detection and Description 论文阅读
SuperPoint:Self-Supervised Interest Point Detection and Description 论文阅读 简介 监督学习从图像中提取点的方法被广泛研究 物体检测 ...
- 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection
目录 前言 一.背景和改进思路 二.细节原理和源码讲解 2.1.多尺度特征 2.1.1.backbone生成多尺度特征 2.1.2.多尺度位置编码 2.2.多尺度可变形注意力 2.2.1.普通多头注意 ...
- Deformable Detr代码阅读
前言 本文主要是自己在阅读mmdet中Deformable Detr的源码时的一个记录,如有错误或者问题,欢迎指正 deformable attention的流程 首先zq即为object query ...
- MapReduce论文阅读记录
本文为阅读MapReduce论文的记录,内容主要是论文的第三部分--实现.方便本人今后查看. 1. 运行概述 下图展示了 MapReduce 过程的整体情况 当用户程序执行 MapReduce 时,会 ...
- MVS学习(一):综述论文阅读记录
MVS学习(一):综述论文Multi-View Stereo: A Tutorial阅读记录 Abstract Introduction SfM简介 Openmvs简介和安装 Multi-view P ...
- Deep Depth Completion of a Single RGB-D Image论文阅读记录以及quicktest
(一)论文简要说明 这是一篇2018年CVPR的最新论文,可以直接通过输入RGB图以及相对应的Depth图,然后可以直接补全任意形式深度图的缺失. 论文地址:https://arxiv.org/abs ...
- Deformable DETR 论文学习
Abstract DETR 提出在目标检测方法中去除人为组件,也可保持优异性能.但由于 Transformer 注意力模块只能有限地处理图像特征图,它的收敛速度就比较慢,特征空间分辨率有限.为了缓解这 ...
- ICASSP2022论文阅读记录3 - TalkingFlow
文章目录 论文: TalkingFlow: Talking facial landmark generation with multi-scale normalizing flow network 论 ...
最新文章
- java 字符串拼接优化_JAVA字符串拼接效率
- python编程入门与案例详解pdf-这些年我读过的技术经典图书(附电子版下载地址)...
- Objective-C:随机的读取文件中的内容
- mysql实现树形_Mysql实现树形递归查询
- [转]5分钟实现Android中更换头像功能
- 大数据技术原理与应用-概述
- 双11又来了,网友:比数学考试都难
- 高德地图+Serverless 护航你的假日出行
- c语言 char转int_第三章、C语言中的数据类型
- Android Studio 字体大小设置
- 手把手玩转win8开发系列课程(14)
- java源程序编译命令是_java源程序编译命令是
- VS开发问题:应用程序无法启动 因为程序的并行配置不正确 ,解决方案
- 小米34寸带鱼屏显示器的耗电计算
- 游戏服务器稳定ping值,网友玩游戏时Ping值超过了2亿!
- C语言输出100以内能被7整除的正整数
- 实测 Google 全同态加密FHE,效果如何?
- 十六进制转换浮点型时大小端问题
- 产品经理应该如何学习
- 40、100 个网络基础知识普及