基于Deformable Conv的大规模基础模型

特点：

采用Deformable Conv V3 【v2 19论文】
CNN模型

背景

大规模的ViT模型借助模型能力在超大规模数据集上取得了非常高的性能，然而大规模CNN模型研究才刚刚开始。
近期CNN研究倾向于使用大的卷积kernel，以获得更大的感受野和大范围依赖。该文提出了基于Deformable Conv的大规模CNN模型，不仅有大的感受野适应下游密集识别任务，而且可以自适应Spatial维度特征聚集，计算高效，取得了ViT相当的性能。适用于分类、分割和检测任务，并在COCO上取得了SOTA的结果。

动机

算子特性对比，灰色表示固定权重的kernel，绿色表示自适应权重的kernel。

算子	长距离依赖	自适应Spatial特征聚集	计算/内存高效
global aggregation of multi-head self-attention (MHSA)	✓\checkmark✓	✓\checkmark✓
Swin transformer -Local Window MHSA		✓\checkmark✓	✓\checkmark✓
大Kernel卷积	✓\checkmark✓		✓\checkmark✓
动态稀疏kernel-Deformable Conv V2	✓\checkmark✓	✓\checkmark✓	✓\checkmark✓

结果

细节

Deformable-Conv V2
y(p0)=∑k=1KwkmkX(p0+pk+Δpk)y(p_0)=\sum_{k=1}^{K}w_km_kX(p_0+p_k+\Delta{p_k})y(p0)=k=1∑KwkmkX(p0+pk+Δpk)

KKK为采样点数量，p0p_0p0为当前像素，mkm_kmk为尺度放缩参数，Δpk\Delta{p_k}Δpk为第k个格点的偏移量。

Deformable Conv V3

引入Depth-wise 和Point-wise Conv 提高权重共享效率
将spatial aggregation 操作分组
将Element-wise Sigmoid 换成softmax ，提高训练稳定性
稀疏kernel 更高效

y(p0)=∑g=1G∑k=1KwgmgkXg(p0+pk+Δpgk)y(p_0)=\sum_{g=1}^{G}\sum_{k=1}^{K}w_gm_gkX_g(p_0+p_k+\Delta{p_{gk}})y(p0)=g=1∑Gk=1∑KwgmgkXg(p0+pk+Δpgk)

G表示aggregation分组数

代码

未开源

【InternImage】Exploring Large-Scale Vision Foundation Models with Deformable Convolutions相关推荐

【翻译】Rosetta Large Scale System for Text Detection and Recognition in Images
Rosetta: Large Scale System for Text Detection and Recognition in Images(大规模图像文本提取和识别系统) 摘要在本文中,我 ...
【论文阅读 NeurIPS 2022】A Large Scale Search Dataset for Unbiased Learning to Rank
文章目录前言 Abs Intro 2.Preliminary 2.1.Ubiased Learning to Rank 2.2.Existion ULTR Datasets 3.Dataset De ...
【Transformer】Augmented Shortcuts for Vision Transformers
文章目录一.背景二.动机三.方法 3.1 增强残差连接 3.2 使用循环映射进行高效实现四.效果论文链接: https://arxiv.org/abs/2106.15941 代码链接:未开源 ...
【解析】Token to Token Vision Transformer
Vision Transformer 的提出颠覆了我们以往对图像处理的方式,也开阔了Transformer 在CV方向上的潜力,但其有一些缺点,如需要超大型数据集(JFT)预训练,才能达到现在CNN ...
论文笔记33 -- （CV）【ICCV2021】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
CV + Transformer 论文:点这里官方代码:点这里第三方代码:点这里 Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,S ...
【Vapor】03 Chapter 5: Fluent Persisting Models
0x00 Chapter 5: Fluent & Persisting Models 1.Fluent is Vapor's ORM or object relational mapping ...
【Pytorch】常见的人脸身份识别损失函数
[Pytorch]常见的人脸身份识别损失函数实验环境准备:人脸多角度多光照的图像数据集MUCT(276个受试者)+ MobileNetV3 说明:对于人脸身份数据集MUCT,是少样本数据集,应该使用 ...
暑假N天乐【比赛篇】 —— 2019牛客暑期多校训练营（第二场）
最近几天都没写博客,真是没什么时间写了,专题卡着,一周四场比赛,场场爆零,补题都补傻了.第一场还差两题可能今天补掉吧,昨天的杭电也是完全没动,感觉...很烦第二场牛客断断续续也是补了几天...大概一 ...
django学习笔记【003】创建第一个带有model的app
[1]python应用程序要连接mysql有多个驱动程序可供选择: 1.MySQLdb 这个只支持python2.x 所以在这里就不说了: 2.mysqlclient 下载地址 https://pyp ...

【InternImage】Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

基于Deformable Conv的大规模基础模型

背景

动机

结果

细节

代码

【InternImage】Exploring Large-Scale Vision Foundation Models with Deformable Convolutions相关推荐

最新文章

热门文章