基于Deformable Conv的大规模基础模型

特点:

  • 采用Deformable Conv V3 【v2 19论文】
  • CNN模型

背景

大规模的ViT模型借助模型能力在超大规模数据集上取得了非常高的性能,然而大规模CNN模型研究才刚刚开始。
近期CNN研究倾向于使用大的卷积kernel,以获得更大的感受野和大范围依赖。该文提出了基于Deformable Conv的大规模CNN模型,不仅有大的感受野适应下游密集识别任务,而且可以自适应Spatial维度特征聚集,计算高效,取得了ViT相当的性能。适用于分类、分割和检测任务,并在COCO上取得了SOTA的结果。

动机


算子特性对比,灰色表示固定权重的kernel,绿色表示自适应权重的kernel。

算子 长距离依赖 自适应Spatial特征聚集 计算/内存高效
global aggregation of multi-head self-attention (MHSA) ✓\checkmark✓ ✓\checkmark✓
Swin transformer -Local Window MHSA ✓\checkmark✓ ✓\checkmark✓
大Kernel卷积 ✓\checkmark✓ ✓\checkmark✓
动态稀疏kernel-Deformable Conv V2 ✓\checkmark✓ ✓\checkmark✓ ✓\checkmark✓

结果


细节

Deformable-Conv V2
y(p0)=∑k=1KwkmkX(p0+pk+Δpk)y(p_0)=\sum_{k=1}^{K}w_km_kX(p_0+p_k+\Delta{p_k})y(p0​)=k=1∑K​wk​mk​X(p0​+pk​+Δpk​)

KKK为采样点数量,p0p_0p0​为当前像素,mkm_kmk​为尺度放缩参数,Δpk\Delta{p_k}Δpk​为第k个格点的偏移量。

Deformable Conv V3

  • 引入Depth-wise 和Point-wise Conv 提高权重共享效率
  • 将spatial aggregation 操作分组
  • 将Element-wise Sigmoid 换成softmax ,提高训练稳定性
  • 稀疏kernel 更高效

y(p0)=∑g=1G∑k=1KwgmgkXg(p0+pk+Δpgk)y(p_0)=\sum_{g=1}^{G}\sum_{k=1}^{K}w_gm_gkX_g(p_0+p_k+\Delta{p_{gk}})y(p0​)=g=1∑G​k=1∑K​wg​mg​kXg​(p0​+pk​+Δpgk​)

G表示aggregation分组数

代码

未开源

【InternImage】Exploring Large-Scale Vision Foundation Models with Deformable Convolutions相关推荐

  1. 【翻译】Rosetta Large Scale System for Text Detection and Recognition in Images

    Rosetta: Large Scale System for Text Detection and Recognition in Images(大规模图像文本提取和识别系统) 摘要 ​ 在本文中,我 ...

  2. 【论文阅读 NeurIPS 2022】A Large Scale Search Dataset for Unbiased Learning to Rank

    文章目录 前言 Abs Intro 2.Preliminary 2.1.Ubiased Learning to Rank 2.2.Existion ULTR Datasets 3.Dataset De ...

  3. 【Transformer】Augmented Shortcuts for Vision Transformers

    文章目录 一.背景 二.动机 三.方法 3.1 增强残差连接 3.2 使用循环映射进行高效实现 四.效果 论文链接: https://arxiv.org/abs/2106.15941 代码链接:未开源 ...

  4. 【解析】Token to Token Vision Transformer

    Vision Transformer 的提出颠覆了我们以往对图像处理的方式,也开阔了Transformer 在CV方向上的潜力,但其有一些缺点,如需要 超大型数据集(JFT)预训练,才能达到现在CNN ...

  5. 论文笔记33 -- (CV)【ICCV2021】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    CV + Transformer 论文:点这里 官方代码:点这里 第三方代码:点这里 Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,S ...

  6. 【Vapor】03 Chapter 5: Fluent Persisting Models

    0x00 Chapter 5: Fluent & Persisting Models 1.Fluent is Vapor's ORM or object relational mapping ...

  7. 【Pytorch】常见的人脸身份识别损失函数

    [Pytorch]常见的人脸身份识别损失函数 实验环境准备:人脸多角度多光照的图像数据集MUCT(276个受试者)+ MobileNetV3 说明:对于人脸身份数据集MUCT,是少样本数据集,应该使用 ...

  8. 暑假N天乐【比赛篇】 —— 2019牛客暑期多校训练营(第二场)

    最近几天都没写博客,真是没什么时间写了,专题卡着,一周四场比赛,场场爆零,补题都补傻了.第一场还差两题可能今天补掉吧,昨天的杭电也是完全没动,感觉...很烦 第二场牛客断断续续也是补了几天...大概一 ...

  9. django学习笔记【003】创建第一个带有model的app

    [1]python应用程序要连接mysql有多个驱动程序可供选择: 1.MySQLdb 这个只支持python2.x 所以在这里就不说了: 2.mysqlclient 下载地址 https://pyp ...

最新文章

  1. Android studio 设置忽略文件
  2. QT 定时器与动画实现
  3. hdu 5585 判断一个数能否被3整除
  4. Oracle数据库 ORA-01555 快照过旧 (undo表空间:撤销表空间)
  5. 类加载器ClassLoader的角色
  6. hibernate jpa_JPA /Hibernate刷新策略初学者指南
  7. 腾讯视频怎么打开个人直播后台播放功能
  8. property属性[Python]
  9. C#中DataRow的初始化
  10. 无效的变量名c语言,变量方法用法 _C语言-w3school教程
  11. C# 匿名对象(匿名类型)、var、动态类型 dynamic
  12. python语法学习第二天--条件与循环
  13. 软件工程导论面试常见问题
  14. 机房收费系统——项目开发计划书
  15. 新华三:照耀城市的数字演进之路
  16. 电动汽车(EV)电池粘合剂市场现状及未来发展趋势
  17. 行业报告归档 2018.3.28
  18. java中小写字母转化大写字母,大写字母转化小写字母
  19. 交互设计软件Framer X for mac软件测评
  20. 手动制作Iphone ipa软件教程

热门文章

  1. Ubantu20.04使用gcc9.3.0安装Nvidia显卡驱动遇到的问题
  2. 3年经验双非进oppo ,分享心得与面试技巧
  3. 带源码下载—校园表白墙—基于Java Web,Mysql,jsp—设计报告分享
  4. 基于CNN-LSTM及深度学习的风电场时空组合预测模型
  5. 【转录调控网络】典型的基因转录调控网络推导方法——奇异值分解
  6. Apache Maven 环境变量的配置
  7. 大脑皮层功能梯度的意义及其计算
  8. http服务搭建,搭建web服务器
  9. 猜数游戏(详细讲解)
  10. 如何在linux(ubuntu)下安装字体(给wps安装字体)