参考https://mp.weixin.qq.com/s/jNPQ2eQPTMkDbhjaYaM7Qg
文章中提及vision transformer相邻层的激活和权重是相似的,没有太大差异,这意味着他们可以重复使用。具有固定堆叠的不同层transformer在递归神经网络中失去感应偏差(inductive bias),这激发了我们以递归方式共享这些权重,从而形成了迭代或递归vision transformer。递归可以帮助提取更强的特征,而无需增加参数,并进一步提高准确性。此外,这种权重重用或共享策略通过减少参数数量来部分地规范训练过程,以避免过度拟合和不收敛的问题。
为什么我们需要再transforme中引入切片递归(sliced recursion),group self-attention?(优点和缺点)
我们通常会在有限的参数范围内完善网络的权重利用率,因此,它可以在资源有限的情况下 (例如嵌入式设备) 实际使用。递归是一种在循环方案中压缩特征表示的直接方法。递归神经网络还允许分支具有层次结构的连接和结构。我们发现,对于以分层方式学习视觉数据上更好的表示是非常重要的,正如我们将在实验的图10中介绍的那样。此外,即使是最简单的递归操作,也可以提高利用参数的紧凑性,而无需修改变压器块结构,这与其他 [50、61、24、55、57、37、31、59] 不同,它们会添加更多参数或涉及来自输入的其他细粒度信息 [19]。**但是,这样的递归将通过其循环产生更多的计算成本,即,它牺牲了执行效率以获得更好的参数表示利用率。**针对这一缺点,我们提出了一种全局自我注意的近似方法,通过将其分解为跨递归层的多个切片组自我注意,同时,在享受相似的触发器和更好的表示的同时,我们还应用空间金字塔设计来降低网络的复杂性

前馈网络、递归神经网络和递归神经网络。Feed-forward Networks, Recurrent Neural Networks and Recursive
Neural Networks.前馈网络 (例如cnn和变压器) 是有向无环图 (DAG),因此前馈处理中的信息路径是单向的。循环网络 (rnn) 通常用于处理时间序列和其他顺序数据,并使用当前输入和过去的内存进行预测。与其他两个对应项相比,递归网络是一个不太常用的术语。递归是指重复或重用网络的某个部分5。与在整个网络中重复相同块的rnn不同,递归网络出于特定目的选择性地重复关键块。递归变换器迭代地细化序列中所有补丁的表示形式。我们发现,通过将设计的递归到前馈变压器中,我们可以显着增强特征表示,尤其是对于结构化数据,而无需包含其他参数。

强大的实验结果表明,将建议的切片递归操作集成到变压器中,可以在精度,模型大小和复杂性之间进行竞争性权衡。据我们所知,几乎没有现有的研究视觉变压器中递归运算的有效性的工作,并提出了用于降低递归运算复杂性的自我注意方法的近似方法。我们已经进行了广泛的实验,为视觉任务的新设计得出了一套指导方针,并希望它对未来的研究有用。此外,由于我们的方法不涉及用于修改变压器块或其他输入信息的复杂知识,因此它与大多数现有的ViT设计和方法正交且友好。

我们的贡献。
-我们研究了在视觉变压器中利用切片组自我注意来利用递归操作的可行性,这是建立有效变压器的有希望的方向,并且以前尚未得到很好的探索。我们对递归在变压器中的作用进行了深入研究,并得出了一种有效的方案来使用它们来更好地利用参数。
-我们提供设计原则,包括具体格式和与SReT体系结构变体的综合比较,计算等效分析,改进蒸馏等,以期对紧凑型变压器设计和优化的未来研究有所启发。
-我们在各种情况下验证我们的方法,包括视觉变压器,变压器变体的全MLP架构以及使用变压器的神经机器翻译 (NMT)。我们的模型以较少的参数大大超过了最先进的方法。

先留个坑吧,后续再写

transformer系列论文-Sliced Recursive Transformer相关推荐

  1. Transformer(二)--论文理解:transformer 结构详解

    转载请注明出处:https://blog.csdn.net/nocml/article/details/110920221 本系列传送门: Transformer(一)–论文翻译:Attention ...

  2. Transformer系列论文阅读

    这是博主在五一期间对Transformer几篇相关论文阅读的小笔记和总结 也借鉴参考了很多大佬的优秀文章,链接贴在文章下方,推荐大家前去阅读 该文章只是简单叙述几个Transformer模型的基本框架 ...

  3. [论文阅读](Transformer系列)

    文章目录 一.Video Transformer Network 摘要 引言 相关工作:Applying Transformers on long sequences Video Transforme ...

  4. 带你读AI论文:基于Transformer的直线段检测

    摘要:本文提出了一种基于Transformer的端到端的线段检测模型.采用多尺度的Encoder/Decoder算法,可以得到比较准确的线端点坐标.作者直接用预测的线段端点和Ground truth的 ...

  5. 【time series】时间序列领域的Transformer综述论文笔记

    论文名称:Transformers in Time Series: A Survey 论文年份:2022/5/7 论文作者:阿里巴巴达摩院 论文下载:https://arxiv.org/abs/220 ...

  6. 【读点论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows通过窗口化进行局部MSA,sw-MSA融合信息

    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows abstract 本文提出了一种新的视觉transfor ...

  7. 一点就分享系列(理解篇3)—Cv任务“新世代”之Transformer系列 (中篇-视觉模型篇DETR初代版本)

    一点就分享系列(理解篇3)-Cv任务"新世代"之Transformer系列 (中篇-视觉模型篇) 对于上篇介绍transformer得原理,自认为把细节讲得很详细了,作为" ...

  8. 自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 Training a GPT-2 language model

    自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 Training a GPT-2 language model 目录 GPT模型简介 Training a GPT ...

  9. 【时序】应用于时间序列的 Transformer 综述论文笔记

    论文名称:Transformers in Time Series: A Survey 论文下载:https://arxiv.org/abs/2202.07125 论文源码:https://github ...

  10. 视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表

    作者 | CV君 来源 | 我爱计算机视觉 Transformer 技术最开始起源于自然语言处理领域,但今年5月份Facebook 的一篇文章将其应用于计算机视觉中的目标检测(DETR算法,目前已有7 ...

最新文章

  1. ROS学习(九):ROS URDF-link
  2. ubantu java编辑器_Linux Ubuntu中最好的代码编辑器 程序员都这么看吗?
  3. 数学作图工具_科研论文作图系列-从PPT到AI (一)
  4. HTML5摩托车配件销售商城模板
  5. Chrome 将不再允许 https:// 页面加载 HTTP 资源
  6. 编程语言对比 引用数据类型-字典
  7. WebLogic plugin for juno下载地址
  8. Python设置Tkinter窗口屏幕居中
  9. 如何读代码?读代码的利器---FreeMind
  10. Mysql全文索引解析
  11. 自尊是人生的高尚境界
  12. V831——脱机实现通信行程卡识别
  13. HDU 5755 Gambler Bo(数论)
  14. 人脸对齐之SDM论文解析
  15. C++/C语言-基本语法
  16. 经典爱情诗《四月的纪念》 刘擎/王嫣、乔榛/丁建华双版朗诵
  17. 部署-Mycat-Server-1.6.7.4安装与配置(CentOS 7.7)
  18. Siemens CXV65+Photoshop CS2
  19. python catia harness_介绍一些CATIA汽车线束设计模块的常用命令
  20. 你说的马云,不是我说的码云(快速了解 git)

热门文章

  1. dell idrac 复位_重置DELL R630 iDRAC访问密码
  2. 定位神器:1秒定位DOM元素绑定的事件代码的位置
  3. Hot and cold pages
  4. 《三体》死神永生之感
  5. Chaos Mesh® 在腾讯——腾讯互娱混沌工程实践
  6. Python批量抓取swissadme数据——smiles
  7. C# Delegate引介
  8. 网络安全——防火墙详解
  9. 数据结构期末考试错点汇总
  10. html调整中文文字间距,HTML 中调整文字间距,行间距和文字竖排