Abstract

研究如何在高密度人群场景中实现精准的实例定位,以及如何缓解传统模型由于目标遮挡、图像模糊等而降低特征提取能力的问题。为此,我们提出了一 Dilated Convolutional Swin Transformer(DCST)对于拥挤的人群场景

Specifically, a window-based vision transformer is introduced into the crowd localization task, which effectively improves the capacity of representation learning. 然后,将设计良好的扩张卷积模块插入transformer的不同阶段,以增强大范围上下文信息。

1 Introduction

2 Related Works

3 Approach

Dilated Convolutional Shift Window Vit (DCST)

A. Vision Transformer (ViT)

1) Patch embeddings:

Specifically, the operation of patch embeddings is formulated as follows:

z 0 = [ i c l a s s ; i p 1 E ; i p 2 E ; . . . ; i p N E ] + E p o s z_0 = [i_{class};i^1_p\textbf{E}; i^2_p\textbf{E};...;i^N_p\textbf{E}] + \textbf{E}_{pos} z0=[iclass;ip1E;ip2E;...;ipNE]+Epos

where i c l a s s i_{class} iclass is the embedded patches z 0 0 z^0_0 z00, and E \textbf{E} E denotes the process of the learnable embeddings ( E ∈ R ( P 2 × C ) × D , E ∈ R ( N + 1 ) × D \textbf{E}\in R^{(P^2\times C)\times D}, \textbf{E}\in R^{(N+1)\times D} ER(P2×C)×D,ER(N+1)×D).

2) Transformer Encoder:

Given a L L L layers of Transformer Encoder, MSA and MLP are formulated as:

z l ′ = M S A ( L N ( z l − 1 ) ) + z l − 1 , l = 1 , . . . , L , z'_l = MSA(LN(z_{l-1}))+z_{l-1}, l=1,...,L, zl=MSA(LN(zl1))+zl1,l=1,...,L,

z l = M L P ( L N ( z l ′ ) ) + z l ′ , l = 1 , . . . , L , z_l = MLP(LN(z'_l))+z'_l, l=1,...,L, zl=MLP(LN(zl))+zl,l=1,...,L,

其中 L N LN LN表示层规范化

B. Swin Transformer

Swin Transformer在非重叠窗口中计算自注意力。为了编码上下文信息,连续层中的窗口分区是不同的。因此,大范围的信息在整个网络中通过局部自注意力模块进行转换。

与ViT中的MSA不同,Swin Transformer Blocks使用shifted-window MSA来计算局部self-attention。

C. Dilated Convolutional Swin Transformer

虽然Swin Transformer在分层结构中设计了顺序层的移位方案,但是大范围的空间上下文信息仍然编码不好。为了缓解这个问题,,我们提出了一种Dilated Convolutional Swin Transformer (DCST),用以放大空间图像的各个感受野。To be specific, the Dilated Convolutional Block is designed and inserted into betwwen different stages of Swin Transformer.

Dilated Convolution 增大感受野

Dilated Convolutional Block (DCB)

the number of H 4 × W 4 \frac H 4 \times \frac W 4 4H×4W C C C-dimension tokens is reshaped as a feature map with the size of H 4 × W 4 × C \frac H 4 \times \frac W 4 \times C 4H×4W×C. After this, two dilated convolutional with Batch Normalization and ReLU are applied to extract large-range spatial features.

D. Network Configurations

在此篇文章中,编码器使用提出的DCST,解码器基于FPN。

Encoder: DCST 在DCST, Swin Transformer 是 Swin-B,有4个stages,分别有2, 2, 18, 2个Swin Transformer Blocks。在Stage3和4之后添加有Dilated Convolutional Block(DCB)。DCB中两个扩张卷积的扩张率为2和3。

Decoder: FPN

针对DCST的四个极端,设计了四头的FPN。最后对获得的高质量输出,应用一个卷积层和两个反卷积层来产生和原始输入大小相同的1通道特征图。并采用sigmoid 激活来使结果规范化为 ( − 1 , 1 ) (-1,1) (1,1)区间,并命名为score map。

E. Loss Function

采用标准均方误差损失函数来训练模型。

F. Implementation Details

4 Experimental Results

5 Discussions

6 Conclusion

Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer阅读笔记相关推荐

  1. Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer

    提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 Congested Crowd Instance Localization with Dilated Convolution ...

  2. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记

    文章目录 OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记 ...

  3. SwinIR: Image Restoration Using Swin Transformer论文笔记

    前言 该算法将Swin Transformer应用于图像复原的领域,主要网络结构分为三个部分:①浅层特征提取 ②深层特征提取 ③高质量图像重建.主要应用于图像复原的三个方向,图像超分辨.图像降噪.由于 ...

  4. Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Networks阅读笔记

    Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Ne ...

  5. Numerical Coordinate Regression with Convolutional Neural Networks 阅读笔记

    基于卷积神经网络的数值坐标回归 论文链接 代码链接 ECCV2018 摘要: 本文研究从输入图像中推断兴趣点数字坐标的深度学习方法.现有的基于卷积神经网络的解决方案要么采用热图匹配方法,要么使用全连接 ...

  6. 《Simplifying Graph Convolutional Networks》阅读笔记

    文章概述 作者指出现如今GCN和其变体模型好多遵从如下范式: Hl+1=σ(SHkWk+1)(1)H^{l + 1} = \sigma(SH^{k}W^{k + 1}) \tag{1} Hl+1=σ( ...

  7. 关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)

    A Novel Transformer based Semantic Segmentation Scheme for Fine-Resolution Remote Sensing Images(语义分 ...

  8. Swin trasnformer 学习笔记

    提示:Swin transformer 学习笔记,仅供学习记录,方便日后回顾,侵删 文章目录 前言 一.主要贡献 1.如何抓住多尺度特征 2. 滑动窗口和窗口自注意力 二.网络主干 1.模型整体架构 ...

  9. 论文学习笔记:CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

    CSRNet是2018年提出来的人群计数模型,其论文发表于CVPR会议. 论文链接:CSRNet Abstract 摘要 我们提出了一个拥挤场景识别网络CSRNet,它提供了一种数据驱动的深度学习方法 ...

最新文章

  1. https协议和Http协议的区别
  2. 等你Battle!——11万个真实场景配置,用AI为车主答疑解惑
  3. Java基础知识强化83:System类之gc()方法(垃圾回收)以及和finalize()区别
  4. IntelliJ IDEA 中的Java Web项目的资源文件复制新增如何更新到部署包中?
  5. python标准日期正则表达式_Python 正则表达式验证传统日期
  6. Python基础总结之常用内置方法总结
  7. 【struts框架】第一节Action-struts基础
  8. 【单调栈】最长不下降子序列变式
  9. ByWater Solutions支持在图书馆中使用开源
  10. 文本居于图片左侧html,CSS实现图片与文本的居中对齐的常见方式
  11. DataTable的Select方法
  12. web逻辑思维题目_经典的逻辑思维训练题
  13. 135微信编辑html语言,135微信编辑器怎么在拉入的模板框框里添加文字
  14. ios 集成阿里云推送通知的注意点
  15. esp32 cam 内网穿透 视频传输
  16. linux tar源码,linux之tar命令备份
  17. EXCEL表格使用VBA编程设置绘图区尺寸
  18. 多源异构数据整合在多规合一中的应用
  19. 操作系统学习笔记(二十八)~文件系统+连续分配+链接分配+索引分配+空闲空间管理
  20. iOS开发:图标生成器Prepo 的使用,讲的明明白白

热门文章

  1. 第三次延迟披露财报?东芝:暂无计划
  2. word中画网格立方体_如何在Microsoft Word中制作点网格纸模板
  3. linux页表机制pmd,Linux:页表中PGD、PUD、PMD等概念介绍
  4. Python之Bilibili自动更新邮件提醒并任务栏图标「完整代码」
  5. 从零学编程2-做个工资计算器
  6. android 隐私伪装原理,加锁、隐藏和伪装!三招严防私密App被偷看
  7. linux安装raw文件,Ubuntu 16.04安装图像处理软件 RawTherapee 5.0
  8. jsp页面 字体颜色 白色_CSS 文本字体颜色设置方法(CSS color)
  9. css设置div上下左右均居中 、底部居中
  10. Spring AOP理论 +代理模式详解