InternImage 论文笔记
链接: paper
code
Abstract:一个基于CNN、参数超10亿、训练图像超4亿的大模型。局限:高延迟,不适于下游任务。
【65.4 mAP on COCO test-dev and 62.9 mIoU on ADE20K】
Related Work
近年基于transformer的架构,以ViT为例因全局感受野和动态空间聚集取得了巨大成功。但由于其计算昂贵和内存复杂,限制了它在下游任务中的应用。为了解决这个问题,PVT和Linformer对downsampled key和value maps进行全局注意力,DAT使用可变形注意力从value maps中稀疏地采样信息,而HaloNet和Swin transformer开发了局部注意力机制,并使用haloing和shift操作在相邻的局部区域之间传递信息。
一、作者总结的差异结论:
1.CNNs与ViTs:
(1).ViTs1的多头自注意,具有long-range dependence(远距离像素相关性)和自适应空间聚集性
(2).ViTs2还包含一系列标准CNN中不包括的高级组件,如Layer Normalization3、前馈网络(FFN)4、GELU5等。即使通过使用大核(e.g., 31×31)的密集卷积将long-range dependence引入CNNs6,如下图(c)所示。在性能和模型规模方面,与最先进的大规模Vit7仍有相当大的差距。
2.Conv与MHSA:
(1).long-range dependence,即具有大的有效感受野的模型通常在任务中表现更好。但即使是深度3×3常规卷积网络,实际有效感受野也无法与ViT相比。
(2).自适应空间聚合。与参考输入动态训练权重的MHSA相比,常规卷积是一种具有静态权重和强归纳偏差的算子,如二维局部性、邻域结构、翻译等价性等。它具有高归纳特性,故可能比ViT更快地收敛且需要的训练数据更少,但也限制了其通用性。
二、模型及其设计思路
InternImage,使用可变形卷积(DCN)8,通过将其与一系列类似于Transformer的层级和结构级设计而成,核心算子是size为3x3的动态稀疏卷积。实现了与大规模ViTs9相当甚至更好的性能。
其优势为:1).灵活的sampling offsets,可以动态学习适当的感受野(长距离/短距离);
2). 自适应调整sampling offsets和modulation scalars,像ViTs一样自适应空间聚合,
减少over-inductive bias of regular convolutions(常规卷积的过归纳偏差);
3).使用3×3卷积核,避免了大核稠密卷积所引起的的优化问题和昂贵的成本10。
由公式推导出DCNv2与MHSA具有相似特性。但DCNv2通常被用作常规卷积的扩展,加载预训练权重并进行微调以获得更好的性能,这并不完全适合需要从头开始训练的大规模模型。故对其扩展为DCNv3:
1).与常规卷积不同,原DCNv2中的不同卷积神经元具有独立的线性映射权重,因此其参数和记忆复杂度与采样点总数呈线性提升,这显著限制了模型的效率,尤其大型模型。为解决这个问题,借鉴了可分离卷积的思想,其中逐通道部分负责原始location-aware modulation scalar(位置感知调节标量),逐点部分负责共享采样点之间的映射权重。
2).引入多组机制。它被广泛应用于MHSA与自适应空间聚合一起工作,以有效地从不同位置的不同表示子空间中学习更丰富的信息。受此启发,将空间聚合过程拆分为G组,因此单个卷积层上的不同组可能具有不同的空间聚合模式,从而为下游任务带来更大的特征。
3).原DCNv2通过sigmoid进行归一化,在使用大规模参数和数据训练时,DCNv2层中的梯度不稳定。改为softmax后,和被约束为1,不同尺度下的模型的训练过程更加稳定。
上图为InternImage的总体结构,其中核心算子是DCNv3,基本模块是由layer normal-ization(LN)和FFN组成的transformers,主干层和下采样层遵循传统的CNN设计,其中“s2”和“p1”分别表示stride 2 和padding 1。模型只有4个超参数(C1, C′, L1, L3)。
1.Basic block
其中核心算子DCNv3及the sampling offsets和modulation scalesare是将输入特征通过可分离卷积(3×3深度卷积+线性映射)来预测的。对于其他组件,我们默认使用标准化设置11,采用与普通transformer12相同的设计。
2.Stem & downsampling layers
为获得分层特征图,卷积stem和downsampling层调节特征图尺寸。如图上图所示,将stem层放在stage 1前,输入分辨率降为1/4,第一个卷积的输出通道为第二个卷积的一半。而下采样层位于两个stage之间,用于将输入特征图大小降至1/2。
3.Stacking rules
超参数解析:1).Ci:stage i的通道数;2).Gi:stage i有几组DCNv3;3).Li:stage i中基本块的数量。
模型有4个stage,故其变体由12个超参数决定,这些超参数的搜索空间太大,无法充分枚举并找到最佳变体。为了减少搜索空间,我们将现有技术的设计经验总结13为4条规则:
1).最后三个stage的通道数由第一个stage的通道数C1决定,
2).使group的数量与stage的通道数相对应。
3&4).对于不同阶段的堆叠block的数量设计模式简化为“AABA”,即stage1、stage2和stage4的block数量相同,并且不大于阶段3的block数量。
由上述规则,InternalImage的变体只能通过使用4个超参数(C1,C′,L1,L3)来定义。将一个参数为3000万的模型作为原型,将C1、L1、C′分别离散到{48,64,80}、{1,2,3,4,5}、{16,32}。这样,原始巨大的搜索空间减少到30个,在ImageNet中对30个变体进行训练和评估,找到最佳模型超参数设置(64,16,4,18),由此来定义基础模型并将其缩放到不同的比例。
4.Scaling rules
不同尺度模型的超参数:
三、实验数据
在仅用ImageNet-1K训练的情况下,InternImage-B上top-1精度达到84.9%。 在10亿参数、4.27亿训练数据下,InternImage-H上top-1精度增长至89.6%。在COCO上以21.8亿参数量达65.4% box mAP,较SwinV2-G14高2.3%且参数量减少27%。 如下图所示。
1.Image Classification
Settings:ImageNet上评估分类性能,遵循惯例15,InternetImage-T/S/B在ImageNet-1K(约130万)上训练了300个epochs;InternetImage-L/XL首先在ImageNet-22K(约1420万)上训练90个epochs,然后在ImageNet-1K上训练了20个epochs。为了进一步探索模型能力,并匹配先前方法16中使用的大规模个人数据,我们采用M3I Pre-training17,在由publicLaion-400M18、YFCC-15M19和CC12M20组成的4.27亿联合数据集上对InternImage-H进行预训练,共30个epochs,然后在ImageNet-1K上微调模型20个epochs。
注:“type”,其中“T”和“C”分别是transformer和CNN。“scale”是输入尺寸。“acc”是 top-1 accuracy.。“‡”表示模型在ImageNet-22K上进行了预训练。“#”表示在超大规模个人数据集(如JFT-300M21、FLD-900M22)或联合公共数据集进行预训练。
2.Object Detection
Settings:Mask R-CNN23和Cascade Mask R-CNN24。遵循惯例25,使用预先训练的分类权重初始化骨干,并且训练模型默认使用1×(12 epochs)或3×(36 epochs)schedule。
注:COCOval2017上的目标检测和实例分割性能。FLOP是以1280×800为输入计算的。 APb和 APm表示box AP and mask AP。“MS”表示多尺度训练。
注:在COCOval2017和test-dev上与state-of-the-art 检测器的比较。
3.Semantic Segmentation
Settings:用预先训练的分类权重初始化主干,并在ADE20K26上用UperNet27训练模型进行160k iterations。为了进一步达到最佳性能,给InternImage-H装备更先进的Mask2Former28,并使用其29中相同的训练设置。
注:ADE20K验证集上的语义分割性能。FLOP根据剪裁尺寸以512×2048、640×2560或896×896为输入进行测量。“SS”和“MS”分别表示单尺度和多尺度测试。
四、Ablation Study(消融研究)
卷积神经元之间的权重共享很重要。由于硬件限制,大型模型对核心算子的参数和内存成本很敏感。DCNv3的卷积神经元之间共享权重。下图,比较了基于DCNv3的具有共享或非共享权重的模型的参数和内存成本。
注:右纵轴表示batch size为32且输入图像分辨率为224×224时每个图像的GPU内存使用量。
多组空间聚合带来了更强的特征,使模型能够从不同的表示子空间中学习信息30。如图下所示,对于相同的查询像素,来自不同组的偏移集中在不同的区域,从而产生分层的语义特征。下表比较了有多个组和没有多个组的模型的性能,在ImageNet上显著下降1.2%,在COCO val2017上显著下降3.4%。此外,在前两个阶段,学习的有效感受野(ERF)相对较小,随着模型的深入(即第3和第4阶段),ERF增加到全局性。这种现象不同于ViTs31,后者的ERF通常是全局的。
注:在不同阶段对不同组采样位置的可视化。
注:对DCNv3的三种改动的消融比较。实验基于分类的InternImage-T和检测的Mask R-CNN 1×schedule。
ps:下为论文内文献索引,供拓展使用。更多实验数据请见论文附录。
paper[9,21,22] ↩︎
paperpaper[9,22,23] ↩︎
paper[24] ↩︎
paper[1] ↩︎
paper[25] ↩︎
paper[21,22] ↩︎
paper[16,18-20,26] ↩︎
paper[27,28] ↩︎
paper[2,11,30] ↩︎
paper[22,29] ↩︎
paper[57] ↩︎
paper[1,9] ↩︎
paper[2,21,36] ↩︎
paper[16] ↩︎
paper[2,10,21,58] ↩︎
paper[16,20,59] ↩︎
paper[60] ↩︎
paper[61] ↩︎
paper[62] ↩︎
paper[63] ↩︎
paper[68] ↩︎
paper[59] ↩︎
paper[70] ↩︎
paper[71] ↩︎
paper[2,11] ↩︎
paper[82] ↩︎
paper[81] ↩︎
paper[80] ↩︎
paper[17,69] ↩︎
paper[9] ↩︎
paper[9,10,83] ↩︎
InternImage 论文笔记相关推荐
- ORB-SLAM3 论文笔记
ORB-SLAM3 论文笔记 这篇博客 ORB-SLAM3系统 相机模型的抽象(Camera Model) 重定位的问题 图片矫正的问题 视觉惯性SLAM的工作原理 相关公式 IMU初始化 跟踪和建图 ...
- 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION
一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...
- 最新图神经网络论文笔记汇总(附pdf下载)
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]近年来,图神经网络变得非常火热,每年顶会在该领域内都会出现大量的研究论文,本文为大家提 ...
- [论文笔记] Fast Quality Driven Selection of Composite Web Services (ECOWS, 2006)
Time: 4.0 hours Jae-Ho Jang, Dong-Hoon Shin, Kyong-Ho Lee, "Fast Quality Driven Selection of Co ...
- 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
- 光流 速度_[论文笔记] FlowNet 光流估计
[论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面 个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...
- 论文笔记 《Maxout Networks》 《Network In Network》
原文出处:http://zhangliliang.com/2014/09/22/paper-note-maxout-and-nin/ 论文笔记 <Maxout Networks> & ...
- 论文笔记:HKMF-T: Recover From Blackouts in TaggedTime Series With Hankel Matrix Factorization
论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts_U ...
- 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting
0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...
最新文章
- 自己动手写js分享插件 [支持https] (QQ空间,微信,新浪微博。。。)
- Android进阶2之图片倒影效果 .
- 一加Nord或在国内上市:骁龙765G+90Hz双孔OLED屏
- idea 新增html页面或者是修改html文件后,target不会同步更新
- c语言中英互译程序,c语言怎么翻译? 程序怎么运行?
- python热度评价指标_编程语言流行指数四月榜单发布:Python 持续强势,Java 热度减退...
- C#中构造函数和析构函数的用法
- 微服务实践 | 网易考拉海购Dubbok框架优化详解
- MyBatis实现模糊查询的几种方式
- 宏正ATEN推出ALTUSEN系列 全面冲刺KVM高端市场
- 网页版视频监控系统完整版
- 【英语阅读】纽约时报 | 抖音式“无意义”短视频能征服全球吗?
- oracle修改表的owner,Oracle中改变表的Owner和tablespace
- HTML网页字体动态显示
- 《淘宝网店》:计算总收益
- Python公历转换农历及简易万年历
- input表单所有属性【web前端】
- 加密软件 PGP安装教程。
- Linux使用scp命令远程复制/上传文件
- win7计算机不显示dvd,win7系统找不到DVD驱动的解决方法