文章目录

  • Swin Transformer
  • 优点
  • 缺点
  • 缺点&改进

Swin Transformer

https://arxiv.org/abs/2103.14030

优点

  1. brings greater efficiency with linear complexity by limiting self-attention computation to non-overlapping local windows while also providing a cross-window bridge. Lower complexity means lower latency and less resource, thus allowing a more efficient implementation in general hardware and handling high resolution image.

  2. hierarchical feature maps, solve the problem that image scale can vary which not exists in nlp because tokens are almost fixed.

  3. speed-accuracy tradeoff method , but linear complexity compared to ViT’s quadratic.

  4. to make a backbone to cv as transformer to nlp

  5. a step toward It author’s belief that a unified architecture across computer vision and natural language processing could benefit both fields

  6. 对edge small windows cyclic shift 替代了small window padding,没有多余的窗口,提高了效率。 而且是均匀、对称的。

  7. 在某些模型(MLP-Mixer)上同时提高速度和降低内存

缺点

  1. 作者的unified model(多模态)构想没有实现,这篇论文的价值只是个技术验证作用
  2. pytorch built-in function is not well-optimized
  3. 丢弃了nlp transformer的global attention,肯定有损失

缺点&改进

这是作者的图

其中边角这块使用的是cyclic shift算的

根据卷积核的思想,图片的特征主要是跟相邻的pixel有关,绿圈的几个区块算attention权值都挺小,意义不大。去掉试试?由于是hierachy结构,去掉也许能直接省掉1/4的时间,感觉精度可能受的影响较小?

即只对右图中的三个蓝色部分进行计算

而且去掉之后四个角还是有办法过来计算相互之间的attention的

可能过来的代价比较大

kaggle论文阅读相关推荐

  1. 九月学习笔记 (FM、一些论文阅读、代码)

    目录 2020.09.16 FM 因子分解机 2021.09.18 论文阅读 Interactive Recommender System via Knowledge Graph-enhanced R ...

  2. 论文阅读工具ReadPaper

    对于搞科研的同学们来说,看论文是要经历的第一关,尤其是要读好多篇论文的时候,更是着实令人头大. 这不,最近无意中发现了个在线论文阅读网站:readpaper.com,号称「论文阅读笔记神器,硕博科研学 ...

  3. 多目标跟踪:CVPR2019论文阅读

    多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.03850 ...

  4. 快速人体姿态估计:CVPR2019论文阅读

    快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...

  5. Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读

    Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...

  6. 深度学习点云语义分割:CVPR2019论文阅读

    深度学习点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要 本 ...

  7. 3D目标检测论文阅读多角度解析

    3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...

  8. 3D目标检测论文阅读摘要

    3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...

  9. 目标检测——Faster R-CNN论文阅读

    论文阅读--Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks 文章目录 论文阅读--Faste ...

最新文章

  1. C++ 类构造函数初始化列表介绍
  2. NR 5G PDCP分组数据汇聚协议
  3. 不改一行代码定位线上性能问题 1
  4. 吉特仓库管理系统-- 后台管理开源啦,源码大放送
  5. ubuntu各版本代号(更新至15.04)及各版本下载地址等
  6. 机械之家再获3000万A+轮投资,58产业基金领投
  7. php起始符大全,PHP 符号大全
  8. 前端学习(2340):以组件方式考虑ui
  9. java pdf验签_java pdf验签
  10. [SPOJGCJ1C09C] Bribe the Prisoners
  11. Android之SwipeRefreshLayout下拉刷新组件
  12. 正式开通我的开源博客
  13. 32位CPU最多支持4G内存是怎么算出来的?(解惑篇)
  14. 计算机连接公用网络受限,电脑连接无线网络受限怎么解决【解决方法】
  15. office快捷键设置
  16. AI常用框架和工具丨1. 科学计算库NumPy
  17. 星光不问赶路人,时光不负有心人。
  18. 前端学习资料(禅意花园,菜鸟教程)
  19. 三网手机实名制认证API,实名认证接口文档
  20. 激光雷达目标检测(下)

热门文章

  1. 强化学习之Grid World的时序差分算法解析【MiniWorld】SYSU_2023SpringRL
  2. android-studio推荐模拟器,Android studio 三大模拟器比较,强烈推荐第三种
  3. js点击使内容变成可编辑状态
  4. linux下读写ntfs硬盘吗,Linux环境下实现NTFS分区完全读写的方法
  5. opencv读取大恒相机
  6. vue项目中引入.xlsx文件
  7. 《谷粒商城》-项目简介以及环境搭建
  8. IDEA 设置单行注释格式化时不换行
  9. 数据分析|SQL面试题集锦
  10. sql嵌套查询出现类型问题