网络架构之争:三大主流架构对决,谁是王者?深入思考CNN、Transformer与MLP
作者丨happy
编辑丨极市平台
本文首发于极市平台公众号,转载请获得授权并标明出处。
论文链接:https://arXiv.org/abs/2108.13002
本文是中科大&MSRA在DNN的CNN、Transformer以及MLP三大流派纷争方面的一点深入思考。为分析不同架构的特性,作者首先构建了一个统一架构SPACH将Mixing做成可配置型,以此为基础上CNN、Transformer以及MLP进行挖掘得出:多阶段优于单阶段、局部建模非常重要以及CNN与Transformer的互补性。基于所挖掘特性构建了一种CNN与Transformer混合模型,所得模型仅需63M参数量即可在ImageNet数据集上取得83.9%的top1精度,优于Swin-B、CaiT-S36。
Abstract
CNN占据了CV的主流,近来Transformer与MLP开始在ImageNet分类任务上引领新的趋势。
本文对这些深度神经网络架构进行实证研究并尝试理解他们的利与弊。为确保公平性,我们首先开发了一种称之为SPACH的统一架构,它采用独立的模块进行空域与通道处理。基于SPACH的实验表明:在适度规模下,所有架构可以取得相当的性能。然而,随着网络放大,他们表现出不同的行为。基于所得发现,我们采用卷积与Transformer提出了两个混合模块。所提Hybrid-MS-S+仅需63M参数量12.3GFLOPs即可取得83.9%top1精度,已有现有精心设计的模型具有相当的性能。
全文链接:网络架构之争:三大主流架构对决,谁是王者?深入思考CNN、Transformer与MLP
关注极市平台公众号,获取最新CV干货
网络架构之争:三大主流架构对决,谁是王者?深入思考CNN、Transformer与MLP相关推荐
- python语言是网络编程语言吗_三大主流编程语言Python为啥这么牛?
前段时间,潘石屹几乎将旗下几个耳熟能详的SOHO地标项目,售卖一空.坊间舆论躁动,以为潘石屹要学李嘉诚一手,纷纷网络讨伐:"别让潘石屹跑了!"但他却很镇定,在56岁生日当天,发了条 ...
- 全球三大芯片架构之一MIPS倒下!转身投入RISC-V阵营
杨净 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 全球三大芯片架构之一MIPS,已经成为历史. 据外媒报道,所属公司宣布将放弃继续设计MIPS架构,全身心投入RISC-V阵营. 作为当 ...
- 【系统架构】三大主流软件负载均衡器(LVS、Nginx、HAproxy) 与商业SLB比较
主流软件负载均衡概要: 1.LVS: 1. 抗负载能力强,性能高,能达到F5的60%,对内存和CPU资源消耗比较低 2. 工作在网络4层,通过VRRP协议(仅作代理之用),具体的流量是由lin ...
- 从0开始搭建坚不可摧的Web系统主流架构
从0开始搭建坚不可摧的Web系统主流架构 转自:http://mp.weixin.qq.com/s/HKqgdR0qM3FhdGWcWnlpug 主题简介: 1.网站系统架构当前现状 2.Web系统主 ...
- 魔改ResNet反超Transformer再掀架构之争!作者说“没一处是创新”,这些优化trick值得学...
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 过去一年,Transformer频频跨界视觉领域,大有抢CNN饭碗之势. 先是图像分类上被谷歌ViT突破,后来目标检测和图像分割又被微软Swin ...
- CV:基于Keras利用CNN主流架构之mini_XCEPTION训练性别分类模型hdf5并保存到指定文件夹下
CV:基于Keras利用CNN主流架构之mini_XCEPTION训练性别分类模型hdf5并保存到指定文件夹下 目录 图示过程 核心代码 图示过程 核心代码 from keras.callbacks ...
- CV:基于Keras利用CNN主流架构之mini_XCEPTION训练情感分类模型hdf5并保存到指定文件夹下
CV:基于Keras利用CNN主流架构之mini_XCEPTION训练情感分类模型hdf5并保存到指定文件夹下 目录 图示过程 核心代码 图示过程 核心代码 def mini_XCEPTION(inp ...
- Tair 对 Redis 引擎架构之争的看法
Tair 对 Redis 引擎架构之争的看法 文章目录 Tair 对 Redis 引擎架构之争的看法 背景 Tair 引擎架构的发展 Tair 对引擎模型的思考 Tair 并发引擎设计 Tair 慢查 ...
- 服务器三大技术架构及应用软件部署架构
本文章介绍: 1.服务器三大技术架构及其发展趋势 2.服务器应用软件的部署架构和特点 [服务器技术架构的三大发展趋势] Scale-up纵向扩展架构 Scale-out横向扩展架构 Hyper-con ...
最新文章
- Python的输出:Python2.7和Python3.7的区别
- 贝叶斯定理的实际应用
- 【转】语音、音频的思考
- 【转载】/etc/passwd /etc/shadow 详解
- GO语言-基础语法:条件判断
- python esp8266模块_ESP8266使用笔记之常用固件
- 数字营销行业大数据平台云原生升级实战
- linux下进程调度模拟程序,linux认证辅导:linux进程调度模拟怎么做?
- PyTorch系列入门到精通——autograd与逻辑回归
- 下一步怎么办?核心网带宽必须迅猛增长!
- MapReduce-实践1
- PowerBuilder9.0连接ORACLE数据库
- Html源码在线翻译,HTML – 谷歌翻译网站
- ecshop 首页调用多个促销,显示到计时
- 一款GaN HEMT内匹配功率放大器设计过程详解
- linux各种桌面系统图片,四大Linux图形界面赏析:KDE、Gnome、Xfce、LXDE
- 快速复制文件,提高复制文件的速度
- fc坦克大战游戏完美复刻
- 情人节 玫瑰花表白源码
- 哪种企业邮箱最好?企业邮箱最好有哪些功能?
热门文章
- 在flask中使用websocket-实时消息推送
- 【洛谷】P2179 [NOI2012]骑行川藏
- 2017.10.3北京清北综合强化班DAY3
- 17个你必须牢记的Win7快捷键[转]
- 基于HBASE的并行计算架构之rowkey设计篇
- 用ASP.net判断上传文件类型的三种方法
- WPF学习一--概述
- 选购一台计算机得出三条建议,如何挑选一台适合你的电脑?了解这几项配置即可!...
- 2021-08-30 centos连接WiFi方法
- Quartus II 15.0详细安装步骤