https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0这是原作者来做的swim transformer的核心要点的讲解

首先,有一个重要的研究方向是为NLP和CV进行统一建模。从2017年,NLP领域基本上就是使用transformer结构来处理自然语言,而cv领域自2012的alexnet开始,一直沉浸在cnn的世界中。但这套方法论继承自上世纪九十年代的lenet.CV的目标是要任意地理解图片以及视频,但是目前的任务和NLP的连接是十分微弱的

这里提到了2020年的VIT(vision transformer),使用一种暴力的方法将transformer结构用于处理图像分类任务

这个结构比之前设想的还要简单,没有看到decoder.将样本进行均分,以patch为单位,patch就相当于字块或者子图像,将patch经过处理之后送进encoder,然后通过FC head, 输出最后的分类结果

VIT取得了当年最好的性能。但是VIT的局限性在于它的结构只能处理分类问题,对于检测(区域级别)和分割(像素级别)任务无能为力

swim transformer:在VIT的基础上,针对vision signal的特点做了改进以适应更为复杂的工作

视觉信号里面有一些好的性质,层次性(hierachy),局部性(locality),平移不变性(translation invariance),这个平移不变性我记得不是卷积操作的特性吗??

这里提到,一开始会划分小的patch,从而获得较高分辨率的输出

Transformer结构的初步探索相关推荐

  1. 修改Transformer结构,设计一个更快更好的MLM模型

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 大家都知道,MLM (Masked Language Model) 是 BERT.RoBERTa 的预训练 ...

  2. Alibaba Druid 源码阅读(二) 数据库连接池实现初步探索

    Alibaba Druid 源码阅读(二) 数据库连接池实现初步探索 简介 在上篇文章中,了解了连接池的应用场景和本地运行了示例,本篇文章中,我们尝试来探索下Alibaba Druid数据库连接池的整 ...

  3. Transformer结构及其应用详解--GPT、BERT、MT-DNN、GPT-2

    本文首先详细介绍Transformer的基本结构,然后再通过GPT.BERT.MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看Transforme ...

  4. aggr代码 cellranger_cellranger使用的初步探索(3)cellranger aggr

    When doing large studies involving multiple GEM wells, run cellranger count on FASTQ data from each ...

  5. OpenJDK 初步探索

    什么是 OpenJDK? OpenJDK 初步探索 第 1 章 OpenJDK 介绍 1.1 什么是 OpenJDK ? 1.2 Oracle JDK.Oracle OpenJDK 和 OpenJDK ...

  6. 【深度学习】Swin Transformer结构和应用分析

    [深度学习]Swin Transformer结构和应用分析 文章目录 1 引言 2 Swin Transformer结构 3 分析3.1 Hierarchical Feature Representa ...

  7. python socket发送数组_利用pyprocessing初步探索数组排序算法可视化

    [经过两次更新,功能基本完成]最终效果请直接下拉到最后一个视频观看 背景说明 这篇文章旨在初步探索利用pyprocessing的强大的可视化功能,以及pyprocessing和Ipython之间的本地 ...

  8. ACL 2020 | 基于不同硬件搜索更好的Transformer结构

    论文标题: HAT: Hardware-Aware Transformers for Efficient Natural Language Processing 论文作者: Hanrui Wang ( ...

  9. nnFormer (Not-aNother transFORMER): 基于交叉Transformer结构的3D医疗影像分割网络

    关注公众号,发现CV技术之美 文章链接:https://arxiv.org/abs/2109.03201 开源代码和模型:https://github.com/282857341/nnForme ▊  ...

最新文章

  1. Android学习笔记(5)----启动 Theme.Dialog 主题的Activity时程序崩溃的解决办法
  2. boost::regex模块信用卡匹配相关的测试程序
  3. work php高性能,RabbitMQ之工作(Work)模式(PHP版)-Go语言中文社区
  4. 升讯威微信营销系统开发实践:(3)中控服务器的设计 .Net 还是 Java?
  5. web Worker简介、web Worker报错分析、作用
  6. Spring MVC对象转换说明
  7. HDU 4927 大数运算
  8. AI 告别炒作,Java 0 增长,2021 技术路在何方?
  9. Java对二维数组排序
  10. vb从入门到精通_干货|让你 ArcGIS Engine从入门到精通的22个视频
  11. CDA I级学习 - CDA I级报名
  12. 分享一些直播软件的测试点
  13. python 桌面应用 h5_hdf 5文件格式及python中利用h5py模块读写h5文件
  14. PPT学习整理(六)从入门到放弃。
  15. 我的过错不值得原谅,麻木的岁月我还要背负多久。
  16. linux开机启动界面异常,Linux 界面不能启动的解决
  17. 每日刷题:lightoj-1004 - Monkey Banana Problem
  18. CSSJS--用JS让文字闪烁起来
  19. pat 乙级 1094
  20. 测试人员在软件开发过程中的任务是什么?

热门文章

  1. PTMs-GPT,GPT2
  2. 我在唯品会工作了四年_苦等两年,唯品会消金牌照终于批了,金融业务却“掉队”了...
  3. 副业怎么样通过手游达到月入过万
  4. P2150 [NOI2015]寿司晚宴
  5. 我做了一款iOS12捷径市场,也许是目前最好看也是最具技术含量的ShortCuts小程序
  6. 为自动驾驶保驾护航—谈谈主流中间件设计
  7. 三星打印机SCX-4824HN全套驱动(打印/扫描)
  8. 统治地球的冯·诺依曼
  9. 兆骑科创创业大赛,线上直播路演,高层次人才引进服务平台
  10. 树莓派各版本引脚及参数