CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention(CVPR 2023)

标题:Slide-Transformer:具有局部自注意力的分层视觉变换器

作者:Xuran Pan, Tianzhu Ye, Zhuofan Xia, Shiji Song, Gao Huang

文章链接:https://arxiv.org/abs/2302.02814

项目代码:https://github.com/LeapLabTHU/Slide-Transformer

摘要:

自注意力机制一直是 Vision Transformer (ViT) 近期进展的关键因素,它可以从全局上下文中提取自适应特征。然而,现有的自注意力方法要么采用稀疏全局注意力或窗口注意力来降低计算复杂度,这可能会损害局部特征学习或受制于一些手工设计。相比之下,局部注意将每个查询的感受域限制在其自身的相邻像素内,享有卷积和自我注意的双重好处,即局部归纳偏差和动态特征选择。然而,当前的局部注意力模块要么使用低效的 Im2Col 函数,要么依赖于特定的 CUDA 内核,这些内核很难推广到没有 CUDA 支持的设备。在本文中,我们提出了一种新颖的局部注意模块 Slide Attention,它利用常见的卷积运算来实现高效、灵活和通用性。具体来说,我们首先从新的基于行的角度重新解释基于列的 Im2Col 函数,并使用 Depthwise Convolution 作为有效的替代。在此基础上,我们提出了一种基于重新参数化技术的变形移位模块,进一步将固定键/值位置放宽到局部区域的变形特征。通过这种方式,我们的模块以高效灵活的方式实现了局部注意力范式。大量实验表明,我们的幻灯片注意力模块适用于各种高级 Vision Transformer 模型并兼容各种硬件设备,并在综合基准测试中实现了持续改进的性能。此 https URL 上提供了代码。

2.Video-kMaX: A Simple Unified Approach for Online and Near-Online Video Panoptic Segmentation

标题:Video-kMaX:一种用于在线和近在线视频全景分割的简单统一方法

作者:Inkyu Shin, Dahun Kim, Qihang Yu, Jun Xie, Hong-Seok Kim, Bradley Green, In So Kweon, Kuk-Jin Yoon, Liang-Chieh Chen

文章链接:https://arxiv.org/abs/2304.04694

摘要:

视频全景分割 (VPS) 旨在通过分割视频中的所有像素和关联对象来实现全面的像素级场景理解。当前的解决方案可以分为在线和近在线方法。随着时间的推移,每个类别都有自己的专门设计,这使得在不同类别之间调整模型变得非常重要。为了减轻这种差异,在这项工作中,我们提出了一种统一的在线和近在线 VPS 方法。所提出的 Video-kMaX 的元架构由两个组件组成:剪辑内分割器(用于剪辑级分割)和跨剪辑关联器(用于剪辑以外的关联)。我们提出 clip-kMaX(clip k-means mask transformer)和 HiLA-MB(分层位置感知内存缓冲区)分别实例化分段器和关联器。我们的一般公式包括在线场景作为一种特殊情况,采用的剪辑长度为 1。 Video-kMaX 在 KITTI-STEP 和用于视频全景分割的 VIPSeg 以及用于视频语义分割的 VSPW 上设置了新的最先进技术。代码将公开。

3.Training-Free Layout Control with Cross-Attention Guidance

标题:具有交叉注意力引导的免训练布局控制

作者:Minghao Chen, Iro Laina, Andrea Vedaldi

文章链接:https://arxiv.org/abs/2304.03373

项目代码:https://silent-chen.github.io/layout-guidance/

摘要:

最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建,例如,用户指定的布局。为了确定如何最好地引导注意力,我们研究了不同注意力图在生成图像时的作用,并试验了两种可供选择的策略,前向引导和后向引导。我们通过几个实验对我们的方法进行了定量和定性评估,验证了其有效性。我们通过将布局指导扩展到编辑给定真实图像的布局和上下文的任务,进一步证明了它的多功能性。

更多Ai资讯:公主号AiCharm

每日学术速递4.13相关推荐

  1. 每日学术速递5.13

    CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.VideoChat: Chat-Centric Video Un ...

  2. 每日学术速递1.26

    CV - 计算机视觉 今天带来的是北航IRIP实验室被国际人工智能联合会议IJCAI-ECAI 2022接收的3篇论文. IJCAI 是人工智能领域中最主要的学术会议之一,原为单数年召开,自2015年 ...

  3. 每日学术速递1.27

    CV - 计算机视觉  |  ML - 机器学习 |  RL - 强化学习 前沿推介: ICLR 2023 ICLR 全称为国际学习表征会议(International Conference on L ...

  4. 每日学术速递1.29

    CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 更多Ai资讯: Subjects:cs.CV 1. Compact Transformer Trac ...

  5. 每日学术速递2.16

    CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Efficient Teacher: Semi-Supervis ...

  6. 每日学术速递5.30

    CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Accelerated Coordinate Encoding: ...

  7. 每日学术速递5.26

    CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Text2NeRF: Text-Driven 3D Scene ...

  8. 每日学术速递5.15

    CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CL 1.Not All Languages Are Created Eq ...

  9. 每日学术速递4.12

    CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 Subjects: cs.HC 随着新的"生成代理"论文的发布,LLM刚刚达到了 ...

最新文章

  1. Redis初学:4(Redis的常用命令)
  2. tomcat修改默认web目录
  3. LNMP - Warning: require(): open_basedir restriction in effect错误解决方法
  4. java线程同步barrier_Java多线程同步工具类之CyclicBarrier
  5. 树和二叉树的转换代码python_python数据结构之二叉树的统计与转换实例
  6. linux删文件进程叫什么,Linux find 查找 并删除文件 杀掉进程
  7. JavaScript实现更新数字指定偏移量上的值updateBit算法(附完整源码)
  8. tar.gz 文件类型(tar文件的解压和压缩)
  9. QT qml---- loader使用方法
  10. dorado-SplitSpanel控件
  11. oracle查询sql记录数,oracle查询所有表的记录数SQL
  12. DataSnap 2009 系列之三 (生命周期篇)
  13. 贾君鹏你妈妈喊你回家吃饭-利用WCF的Duplex推送消息
  14. 嵌入式linux运行mbedtls,mbedTLS(PolarSSL)简单思路和函数笔记(Client端)
  15. 理解二重积分的几何意义及公式
  16. 搜狗收录之搜狗推送神器
  17. win7网络上计算机进不去,win7系统电脑红色警戒2点击网络进不去的解决方法
  18. 解决background中图片太大只显示一部分
  19. 将PowerPoint转换为视频的软件——ppt2wmv简介
  20. DataPipeline | 享物说产品负责人夏凯:数据驱动的用户增长实战

热门文章

  1. VTK与OpenGL是什么,有什么关系?
  2. 期货市场技术分析07_摆动指数和相反意见理论
  3. 如何有效防御网站被CC攻击
  4. 书论88 何绍基《论书》
  5. Java实习或课设通用心得模板
  6. 小程序:微信开发者工具中页面一片空白怎么办?
  7. android Region类介绍
  8. [转载] 全本张广泰——第十回 混混闹酒楼 广泰显身手
  9. Python先生,你好!(6)——np.random函数详解
  10. jQuery返回页面顶部代码