Transformer结构的初步探索
https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0这是原作者来做的swim transformer的核心要点的讲解
首先,有一个重要的研究方向是为NLP和CV进行统一建模。从2017年,NLP领域基本上就是使用transformer结构来处理自然语言,而cv领域自2012的alexnet开始,一直沉浸在cnn的世界中。但这套方法论继承自上世纪九十年代的lenet.CV的目标是要任意地理解图片以及视频,但是目前的任务和NLP的连接是十分微弱的
这里提到了2020年的VIT(vision transformer),使用一种暴力的方法将transformer结构用于处理图像分类任务
这个结构比之前设想的还要简单,没有看到decoder.将样本进行均分,以patch为单位,patch就相当于字块或者子图像,将patch经过处理之后送进encoder,然后通过FC head, 输出最后的分类结果
VIT取得了当年最好的性能。但是VIT的局限性在于它的结构只能处理分类问题,对于检测(区域级别)和分割(像素级别)任务无能为力
swim transformer:在VIT的基础上,针对vision signal的特点做了改进以适应更为复杂的工作
视觉信号里面有一些好的性质,层次性(hierachy),局部性(locality),平移不变性(translation invariance),这个平移不变性我记得不是卷积操作的特性吗??
这里提到,一开始会划分小的patch,从而获得较高分辨率的输出
Transformer结构的初步探索相关推荐
- 修改Transformer结构,设计一个更快更好的MLM模型
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 大家都知道,MLM (Masked Language Model) 是 BERT.RoBERTa 的预训练 ...
- Alibaba Druid 源码阅读(二) 数据库连接池实现初步探索
Alibaba Druid 源码阅读(二) 数据库连接池实现初步探索 简介 在上篇文章中,了解了连接池的应用场景和本地运行了示例,本篇文章中,我们尝试来探索下Alibaba Druid数据库连接池的整 ...
- Transformer结构及其应用详解--GPT、BERT、MT-DNN、GPT-2
本文首先详细介绍Transformer的基本结构,然后再通过GPT.BERT.MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看Transforme ...
- aggr代码 cellranger_cellranger使用的初步探索(3)cellranger aggr
When doing large studies involving multiple GEM wells, run cellranger count on FASTQ data from each ...
- OpenJDK 初步探索
什么是 OpenJDK? OpenJDK 初步探索 第 1 章 OpenJDK 介绍 1.1 什么是 OpenJDK ? 1.2 Oracle JDK.Oracle OpenJDK 和 OpenJDK ...
- 【深度学习】Swin Transformer结构和应用分析
[深度学习]Swin Transformer结构和应用分析 文章目录 1 引言 2 Swin Transformer结构 3 分析3.1 Hierarchical Feature Representa ...
- python socket发送数组_利用pyprocessing初步探索数组排序算法可视化
[经过两次更新,功能基本完成]最终效果请直接下拉到最后一个视频观看 背景说明 这篇文章旨在初步探索利用pyprocessing的强大的可视化功能,以及pyprocessing和Ipython之间的本地 ...
- ACL 2020 | 基于不同硬件搜索更好的Transformer结构
论文标题: HAT: Hardware-Aware Transformers for Efficient Natural Language Processing 论文作者: Hanrui Wang ( ...
- nnFormer (Not-aNother transFORMER): 基于交叉Transformer结构的3D医疗影像分割网络
关注公众号,发现CV技术之美 文章链接:https://arxiv.org/abs/2109.03201 开源代码和模型:https://github.com/282857341/nnForme ▊ ...
最新文章
- Android学习笔记(5)----启动 Theme.Dialog 主题的Activity时程序崩溃的解决办法
- boost::regex模块信用卡匹配相关的测试程序
- work php高性能,RabbitMQ之工作(Work)模式(PHP版)-Go语言中文社区
- 升讯威微信营销系统开发实践:(3)中控服务器的设计 .Net 还是 Java?
- web Worker简介、web Worker报错分析、作用
- Spring MVC对象转换说明
- HDU 4927 大数运算
- AI 告别炒作,Java 0 增长,2021 技术路在何方?
- Java对二维数组排序
- vb从入门到精通_干货|让你 ArcGIS Engine从入门到精通的22个视频
- CDA I级学习 - CDA I级报名
- 分享一些直播软件的测试点
- python 桌面应用 h5_hdf 5文件格式及python中利用h5py模块读写h5文件
- PPT学习整理(六)从入门到放弃。
- 我的过错不值得原谅,麻木的岁月我还要背负多久。
- linux开机启动界面异常,Linux 界面不能启动的解决
- 每日刷题:lightoj-1004 - Monkey Banana Problem
- CSSJS--用JS让文字闪烁起来
- pat 乙级 1094
- 测试人员在软件开发过程中的任务是什么?
热门文章
- PTMs-GPT,GPT2
- 我在唯品会工作了四年_苦等两年,唯品会消金牌照终于批了,金融业务却“掉队”了...
- 副业怎么样通过手游达到月入过万
- P2150 [NOI2015]寿司晚宴
- 我做了一款iOS12捷径市场,也许是目前最好看也是最具技术含量的ShortCuts小程序
- 为自动驾驶保驾护航—谈谈主流中间件设计
- 三星打印机SCX-4824HN全套驱动(打印/扫描)
- 统治地球的冯·诺依曼
- 兆骑科创创业大赛,线上直播路演,高层次人才引进服务平台
- 树莓派各版本引脚及参数