【InternImage】Exploring Large-Scale Vision Foundation Models with Deformable Convolutions
基于Deformable Conv的大规模基础模型
特点:
- 采用Deformable Conv V3 【v2 19论文】
- CNN模型
背景
大规模的ViT模型借助模型能力在超大规模数据集上取得了非常高的性能,然而大规模CNN模型研究才刚刚开始。
近期CNN研究倾向于使用大的卷积kernel,以获得更大的感受野和大范围依赖。该文提出了基于Deformable Conv的大规模CNN模型,不仅有大的感受野适应下游密集识别任务,而且可以自适应Spatial维度特征聚集,计算高效,取得了ViT相当的性能。适用于分类、分割和检测任务,并在COCO上取得了SOTA的结果。
动机
算子特性对比,灰色表示固定权重的kernel,绿色表示自适应权重的kernel。
算子 | 长距离依赖 | 自适应Spatial特征聚集 | 计算/内存高效 |
---|---|---|---|
global aggregation of multi-head self-attention (MHSA) | ✓\checkmark✓ | ✓\checkmark✓ | |
Swin transformer -Local Window MHSA | ✓\checkmark✓ | ✓\checkmark✓ | |
大Kernel卷积 | ✓\checkmark✓ | ✓\checkmark✓ | |
动态稀疏kernel-Deformable Conv V2 | ✓\checkmark✓ | ✓\checkmark✓ | ✓\checkmark✓ |
结果
细节
Deformable-Conv V2
y(p0)=∑k=1KwkmkX(p0+pk+Δpk)y(p_0)=\sum_{k=1}^{K}w_km_kX(p_0+p_k+\Delta{p_k})y(p0)=k=1∑KwkmkX(p0+pk+Δpk)
KKK为采样点数量,p0p_0p0为当前像素,mkm_kmk为尺度放缩参数,Δpk\Delta{p_k}Δpk为第k个格点的偏移量。
Deformable Conv V3
- 引入Depth-wise 和Point-wise Conv 提高权重共享效率
- 将spatial aggregation 操作分组
- 将Element-wise Sigmoid 换成softmax ,提高训练稳定性
- 稀疏kernel 更高效
y(p0)=∑g=1G∑k=1KwgmgkXg(p0+pk+Δpgk)y(p_0)=\sum_{g=1}^{G}\sum_{k=1}^{K}w_gm_gkX_g(p_0+p_k+\Delta{p_{gk}})y(p0)=g=1∑Gk=1∑KwgmgkXg(p0+pk+Δpgk)
G表示aggregation分组数
代码
未开源
【InternImage】Exploring Large-Scale Vision Foundation Models with Deformable Convolutions相关推荐
- 【翻译】Rosetta Large Scale System for Text Detection and Recognition in Images
Rosetta: Large Scale System for Text Detection and Recognition in Images(大规模图像文本提取和识别系统) 摘要 在本文中,我 ...
- 【论文阅读 NeurIPS 2022】A Large Scale Search Dataset for Unbiased Learning to Rank
文章目录 前言 Abs Intro 2.Preliminary 2.1.Ubiased Learning to Rank 2.2.Existion ULTR Datasets 3.Dataset De ...
- 【Transformer】Augmented Shortcuts for Vision Transformers
文章目录 一.背景 二.动机 三.方法 3.1 增强残差连接 3.2 使用循环映射进行高效实现 四.效果 论文链接: https://arxiv.org/abs/2106.15941 代码链接:未开源 ...
- 【解析】Token to Token Vision Transformer
Vision Transformer 的提出颠覆了我们以往对图像处理的方式,也开阔了Transformer 在CV方向上的潜力,但其有一些缺点,如需要 超大型数据集(JFT)预训练,才能达到现在CNN ...
- 论文笔记33 -- (CV)【ICCV2021】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
CV + Transformer 论文:点这里 官方代码:点这里 第三方代码:点这里 Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,S ...
- 【Vapor】03 Chapter 5: Fluent Persisting Models
0x00 Chapter 5: Fluent & Persisting Models 1.Fluent is Vapor's ORM or object relational mapping ...
- 【Pytorch】常见的人脸身份识别损失函数
[Pytorch]常见的人脸身份识别损失函数 实验环境准备:人脸多角度多光照的图像数据集MUCT(276个受试者)+ MobileNetV3 说明:对于人脸身份数据集MUCT,是少样本数据集,应该使用 ...
- 暑假N天乐【比赛篇】 —— 2019牛客暑期多校训练营(第二场)
最近几天都没写博客,真是没什么时间写了,专题卡着,一周四场比赛,场场爆零,补题都补傻了.第一场还差两题可能今天补掉吧,昨天的杭电也是完全没动,感觉...很烦 第二场牛客断断续续也是补了几天...大概一 ...
- django学习笔记【003】创建第一个带有model的app
[1]python应用程序要连接mysql有多个驱动程序可供选择: 1.MySQLdb 这个只支持python2.x 所以在这里就不说了: 2.mysqlclient 下载地址 https://pyp ...
最新文章
- Android studio 设置忽略文件
- QT 定时器与动画实现
- hdu 5585 判断一个数能否被3整除
- Oracle数据库 ORA-01555 快照过旧 (undo表空间:撤销表空间)
- 类加载器ClassLoader的角色
- hibernate jpa_JPA /Hibernate刷新策略初学者指南
- 腾讯视频怎么打开个人直播后台播放功能
- property属性[Python]
- C#中DataRow的初始化
- 无效的变量名c语言,变量方法用法 _C语言-w3school教程
- C# 匿名对象(匿名类型)、var、动态类型 dynamic
- python语法学习第二天--条件与循环
- 软件工程导论面试常见问题
- 机房收费系统——项目开发计划书
- 新华三:照耀城市的数字演进之路
- 电动汽车(EV)电池粘合剂市场现状及未来发展趋势
- 行业报告归档 2018.3.28
- java中小写字母转化大写字母,大写字母转化小写字母
- 交互设计软件Framer X for mac软件测评
- 手动制作Iphone ipa软件教程