点击下方“AI算法与图像处理”,关注一下重磅干货,第一时间送达

CVPR2021 很多成果基于之前大火的transformer,但是由于transformer的计算量太大了,最近基于 MLP 架构的模型又重新进入大众的视野,后续可能会有更多相关研究。后续会继续分享相关内容,欢迎持续关注哈!

CVPR2021论文下载链接:

CVPR 2021 全部论文链接公布!最新1660篇论文合集!附下载链接

论文链接:https://arxiv.org/pdf/2105.14110.pdf

摘要

虽然基于注意的 transformer 网络在几乎所有语言任务中都取得了无与伦比的成功,但是大量的标记加上二次激活记忆的使用使得它们对于视觉任务来说是望而却步的。因此,虽然语言到语言的转换因transformer模式而发生了革命性的变化,卷积网络仍然是图像到图像转换的事实上的解决方案。最近提出的 MLP-Mixer 架构缓解了一些与基于注意的网络相关的速度和内存问题,同时仍然保留了使transformer模型成为理想的远程连接。利用这种有效的替代自我注意的方法,我们提出了一种新的非配对图像到图像的转换模型MixerGAN:一种更简单的基于MLP的体系结构,它考虑了像素之间的远距离关系,而不需要昂贵的注意机制。定量和定性分析表明,MixerGAN实现了竞争的结果相比,以前的卷积为基础的方法。

主要贡献

表明MLP-Mixer 体系结构可以适应于有效地执行未配对图像到图像的转换,同时以比transformer模型低得多的成本考虑长范围的依赖性。

MixerGAN

我们表明,MLP-Mixer 块提供了一种执行未配对图像到图像转换的替代方法,该方法考虑了普通卷积块不可能实现的全局关系,并且在计算上比transformer块少。

形式上,我们的目标是训练两个基于 Mixer 的生成器G:X→ Y 和 F: Y→X, 在两个之间“转换”图像。我们通过同时训练两个判别器Dx和Dy来区分真实图像和生成图像,从而实现了与原始CycleGAN相同的方法。

训练目标

计算上的优势

1、如开创性论文[24]所述,MLP-Mixer的核心是一个具有非常具体的结构参数。因此,MLP-Mixer 可以利用现有的GPU 允许以极高效率执行卷积运算的体系结构和实现,而基于注意的网络目前受到gpu执行未优化注意运算的速度的限制

2、MLP Mixer和transformer块的内存使用情况不同

3、 vanilla residual block 具有最少的内存使用和参数计数,但它缺乏计算能力用于上述tokens之间的远程关系。

模型架构

网络与原始 CycleGAN 又相似的大小。虽然 mixer 模块比卷积模块有更多的参数,但我们的mixer模型仍然具有相同数量的非线性,并且即使不是低维的潜在空间,也具有可比性。

根据最初的CycleGAN,我们基于mixer的生成器由单层卷积干和两个阶梯卷积层组成,用于学习下采样。生成器的变换部分由9个各向同性混合块组成。最后,变换部分之后是两个上采样转置卷积和一个最终卷积,以将表示重新映射到源维度。对于我们的鉴别器,我们用vanilla PatchGAN[9]和mixer 增强网络进行了实验。

mixer 块本身直接遵循MLP-mixer 论文[24]中给出的公式。在patch projection步骤之后,标记被堆叠为列,使得表示X现在仅是二维的。mixer块本身由两个多层感知器组成:一个用于token mixing,另一个用于channel mixing。token mixing MLP作用于表示的列,而channel mixing MLP作用于其通道。注意,典型的transformer架构包含channel mixing MLP,但是执行自注意操作来代替令牌混合MLP。MLP-mixer 块的总体架构如图1所示。

实验部分

结果

Failure Modes and Limitations

MixerGAN模型的最大限制因素似乎来自于 patch projection 步骤。

考虑到patch projection步骤的局限性,我们有时会在生成的图像中发现“patch”伪影,如图6所示。我们假设,在patch projection步骤之后,更多的通道将有助于通过阻止此时的信息丢失来缓解这种伪影问题。在转换阶段,一个不太完整的表达在理想情况下会导致更少的压缩和更具表现力的模型。不幸的是,由于我们有限的计算能力,我们无法在这个时候试验更广泛的网络。

结论

在这项工作中,我们已经证明了MLP混合器也是一种有效的生成模型体系结构,特别是非配对图像到图像的转换。我们假设增加潜在空间中的通道数将减少任何补丁伪影,并希望在未来获得计算资源来评估这一点。

像所有的图像合成应用程序一样,MixerGAN有可能被用于潜在的恶意目的,比如deepfakes[18]。因此,合成图像检测仍然是其自身的一个重要领域。然而,这不应阻止我们继续研究图像合成,因为打击威胁的最佳方法是彻底了解它。

经过几十年的卷积神经网络(以及最近的transformer网络)主导了计算机视觉领域,一个简单的加权mlp序列可以有效地执行相同的任务,这是值得注意的。既然我们已经证明MLP-mixer器在生成目标上取得了成功,那么改进这种技术并将基于MLP的体系结构扩展到进一步的图像合成任务的大门就敞开了。


努力分享优质的计算机视觉相关内容,欢迎关注:

个人微信(如果没有备注不拉群!)
请注明:地区+学校/企业+研究方向+昵称下载1:何恺明顶会分享
在「AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析
下载2:终身受益的编程指南:Google编程风格指南
在「AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!
下载3 CVPR2021在「AI算法与图像处理」公众号后台回复:CVPR,即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮 ,告诉大家你也在看

ge-to-Image Translat卡内基梅隆大学新作!基于MLP架构的Imaion相关推荐

  1. 卡内基梅隆大学提出基于学习的动作捕捉模型,用自监督学习实现人类3D动作追踪

    原文来源:Cornell University Library 作者:Hsiao-Yu Fish Tung.Hsiao-Wei Tung.Ersin Yumer. Katerina Fragkiada ...

  2. 卡耐基梅隆大学计算机工程录取率,卡内基梅隆大学2020新生数据出炉!计算机学院录取率堪比藤校...

    提起CMU,想必各位小伙伴肯定都不陌生,坐落在美国宾夕法尼亚州匹兹堡的它,可是美国25所新常春藤盟校之一.最近卡内基梅隆大学2020年秋季录取数据出炉!跟着学霸君来看看到底什么样的人才会被它录取吧! ...

  3. 卡内基梅隆大学机器学习系副主任邢波:AI落地现在最缺的是思维方式

    来源:亿欧 摘要:邢波认为:人工智能现在最缺的不是算法和知识,而是落地应用的思维方式:数据如何被处理.系统如何被调试.资源如何配置,目前阶段还处于黑箱,很混沌的状态:人工智能未来会成为非常朴实的领域. ...

  4. 卡内基梅隆大学的研究人员提出新的源定位算法: SilenceMap,寻找大脑的静默区域...

    大脑是最重要的器官之一.它们为整个身体提供调度指示,让我们能够与世界互动.因此,快速检测大脑活动的变化是很重要的.一种可能导致永久性损伤的危险变化是神经静默(neural silence)[注:这个词 ...

  5. 计算机专业申请计算生物学,卡内基梅隆大学计算生物学硕士专业

    卡内基梅隆大学计算生物学硕士专业为综合项目,助力于运用现代计算机科学.统计学.数学方法探索生物学与生物医学问题.卡内基梅隆大学计算生物学硕士专业面向想要直接到产业部门工作,或想要探索计算生物学但不想继 ...

  6. 讨论计算机在学术领域的应用,BGPLUS实地科研 | 卡内基梅隆大学 | 计算机、人工智能:在科学实验领域的应用...

    原标题:BGPLUS实地科研 | 卡内基梅隆大学 | 计算机.人工智能:在科学实验领域的应用 课题名称 = 人工智能在科学实验领域的应用 = 项目简介 2021暑期实地项目汇集了国内外名校的资深教授. ...

  7. 卡耐基大学计算机专业分类,卡内基梅隆大学计算机专业

    卡内基梅隆大学计算机专业申请要求已获本科或硕士及以上学位:成绩要求:TOFEL成绩要求100以上:GPA高于3.0即B:GRE general:对于录取而言,学校更注重学生实际能力,而不是纯粹的高分数 ...

  8. 学计算机是什么猿,卡内基梅隆大学生物计算机专业 让你快快乐乐的当一个程序猿...

    现在最热门的专业是计算机专业以及金融专业,有句话是这样说的,站在风口上猪都会飞,而现在计算机专业已经站在了风口上,很多学习计算机专业的学生赚了一波红利.现在互联网技术越来越先进,我们已经迎来了5G时代 ...

  9. 卡内基·梅隆大学计算机科学系主任周以真的父母是中国人吗,一篇是王飞跃等人翻译的美国卡内基梅隆大学计算机科学系主任.PPT...

    一篇是王飞跃等人翻译的美国卡内基梅隆大学计算机科学系主任 * * 信息论的内涵与外延 1.狭义信息论: 又称香农信息论.主要通过数学描述与定量分析,研究通信系统从信源到信宿的全过程,包括信息的测度.信 ...

最新文章

  1. OTA整包的制作流程(未完)
  2. 亿级 ELK 日志平台构建实践
  3. JavaScript——易班优课YOOC课群在线测试禁止右键和复制解决方案
  4. Eclipse系列的隐藏宝藏-2019年版
  5. prim算法 求最小生成树
  6. IDF 实验室 初探乾坤
  7. protobuf序列化协议python教程
  8. listview 加载的时候报java.lang.IllegalArgumentException: column ‘_id’ does not exist 错误
  9. 拓端tecdat|R语言Fisher检验探究地区间公寓价格的关系
  10. php实现C32,c32rtomb - [ C语言中文开发手册 ] - 在线原生手册 - php中文网
  11. 人脸识别 数据集 与竞赛
  12. Qt QListView详解
  13. css同时多个立方体旋转,CSS3 旋转立方体问题详解
  14. Centos8关闭防火墙
  15. 17年社交网络老司机解读网红现象
  16. 同为PM,项目经理和产品经理那个才是未来的CEO?【大海午餐9】
  17. 让最新免费版WPS支持Office VBA
  18. Java编程学习-枚举
  19. 小学计算机考试感受作文,考试后的感想小学作文6篇
  20. execve的使用说明

热门文章

  1. 在图表示学习中打破同构图和异构图之间的壁垒(上)
  2. uc下载php怎么打开网页,php让浏览器下载txt等类型的文件 uc浏览器导入txt 浏览器打开txt 360极速浏览器规则tx...
  3. 原生js实现京东秒杀倒计时
  4. Go语言实践[回顾]教程06--通过时间判断时辰的示例【上】
  5. 微型计算机的字长不一定是字节的整数倍数,2015吉林省计算机等级考试试题 二级ACCESS最新考试试题库(完整版)...
  6. 分享海思hi3516DV300开发核心板4MP@30fps@1.0Tops神经加速引擎集成AI
  7. w ndows10的字体在哪里,windows10系统下怎样加粗字体
  8. 解决HP打印机正在打印问题
  9. 【智能制造】人工智能时代:互联网推动制造业升级的四大方向
  10. 玩呗服务器维护需要多久,梦幻西游2013年5月21日定期维护公告17173.com游戏门户:《梦幻西游》专区...