【CVPR2022】Beyond Fixation: Dynamic Window Visual Transformer

论文:https://arxiv.org/abs/2203.12856

代码:https://github.com/pzhren/DW-ViT

个人感觉,这个论文的 idea 部分来自于 SKNet ,模块的图也类似。

大多数VIT都在固定的 7X7 窗口内计算局部 attention,忽略了窗口大小对性能的影响。因此,作者提出使用多尺度的窗口计算 attention,类似于 SKNet ,用 softmax 动态为各个分支的窗口分配权重。

论文的核心就是下面这个 dynamic window module。可以看出,一共6个 channel 的数据,均分成三份,分别用尺寸为 7、14、21的 window 计算 attention ,最后将特征拼接,通过一系列pooling,FC层后,用 softmax 给各个通道分配权重,然后跟原始特征加权。

总体架构上还是标准的4阶段,如下图所示。

作者也指出,所提出的方法存在两个 limitation:

(1)DWM introduces a small number of additional parameters and calculations.

(2)As far as DWM’s dynamic window mechanism is concerned, part of the computational budget is still allocated to suboptimal optional windows.

【CVPR2022】Beyond Fixation: Dynamic Window Visual Transformer相关推荐

  1. 【CVPR2022】用于域适应语义分割的域无关先验

    摘要:本文给大家分享一篇我们在CVPR 2022 上发表的paper:Domain-Agnostic Prior for Transfer Semantic Segmentation.文章提出了一种图 ...

  2. 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

    论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...

  3. 【CVPR2022】Detecting Camouflaged Object in Frequency Domain

    [CVPR2022]Detecting Camouflaged Object in Frequency Domain 论文有一个非官方的实现:https://github.com/VisibleShad ...

  4. 【基础】Flink -- Time and Window

    Flink -- Time and Window Flink 时间语义 水位线 Watermark 水位线的概念 有序流中的水位线 乱序流中的水位线 水位线的特性 水位线的基本使用 水位线生成策略 内 ...

  5. 【NLP】GPT:第一个引入Transformer的预训练模型

    目前两种最重要的预训练语言模型,一种是前面介绍过的BERT,另外一种就是GPT. GPT出了两个版本,GPT1.0和GPT2.0,GPT2.0相对于GPT1.0差别不大,可以认为是它的增强版.本篇介绍 ...

  6. 【Brain】大脑里也有个Transformer!和「海马体」机制相同

    来源: 墨玫人工智能 [导读]Transformer模型性能强的原因是模拟了人脑? 我不能创造的,我也不理解. --费曼 想要创造人工智能,首先要理解人类的大脑因何有智能. 随着神经网络的诞生及后续的 ...

  7. 【转】带你玩转Visual Studio——03.带你了解VC++各种类型的工程

    上一篇文章带你玩转Visual Studio--带你新建一个工程一文中提到新建一个工程时会有很多的工程类型(图1),现在将简单介绍各种类型工程的含义和主要用途.由于这里包含的工程类型太多,有很多本人也 ...

  8. 【转】带你玩转Visual Studio——01.开篇介绍

    开篇之前,先唠叨几句 本人从事C++开发工作一年半,总想就C++开发方面写点东西.写什么呢?想了一下还是写点跟开发密切相关的吧,要说跟开发最密切相关的那莫过于就是开发工具了,也就是常常说的集成开发环境 ...

  9. 【CVPR2022】UniVIP:自监督视觉预训练的统一框架

    来源:专知 本文为论文,建议阅读5分钟 我们提出了统一自监督视觉预训练(UniVIP) 论文标题:UniVIP: A Unified Framework for Self-Supervised Vis ...

  10. 【转】Redis安装整理(window平台和Linux平台)

    原文连接:http://zheng12tian.iteye.com/blog/1471726 原文作者:zheng12tian 转载注明以上信息! window平台Redis安装 redis wind ...

最新文章

  1. linux专业术语中英文,Linux专业术语中英文对照.doc
  2. 北理工2017年爬虫目录
  3. C++中的wchar_t(转)
  4. 自定义SAP Spartacus的产品搜索API参数 - Product Search
  5. Log4j 入门总结
  6. [ 转载 ] Java基础12--基础学习总结——数组
  7. CPU高获取其线程ID然后分析
  8. 计算机硬盘驱动器越大,计算机基础知识1.3摘要.doc
  9. MySQL 事务入门案例
  10. PHP获取<textarea>换行空白格处理
  11. 冰点破解版,百度文库免费下载
  12. 金属重量计算机在线,金属重量计算器
  13. 我有DIY一Android遥控-所有开源
  14. oracle便携智能投影,洁牙设备又添一将!OraCleen S 智能便携牙刷
  15. Timer源代码分析
  16. PS实用方法(抠出完整的头发丝)
  17. ceph监控管理平台calamari
  18. 产业分析:工业机器人市场研究
  19. R和RStudio一起安装在D盘
  20. 卜算子.咏梅 英文版

热门文章

  1. centos7 安装拼音输入法
  2. ECCV2016 paper list (完整版)
  3. 网站站内seo优化简介
  4. html生成邮件签名之路(一)
  5. element-ui表格显示html格式
  6. CSDN问答模块标题推荐任务(一) —— 基本框架的搭建
  7. java:文本域的简单使用
  8. TQ2440使用DNW烧录配置流程详解
  9. Message: session not created: This version of ChromeDriver only supports Chrome version XX
  10. 3类IP的私网地址网段