motivation:

a. 存在的问题:

  1. 以前的大多数只使用注意机制作为基于FCN的辅助模块,这限制了它们建模全局上下文的能力。
  2. 在以往的方法中,经常使用语言的Self-Attention来提取信息 。对于这些方法,它们的语言理解仅来自语言表达本身,而不与图像交互,因此它们无法区分哪些强调更合适、更有效,更适合特定的图像。因此,他们检测到的重点可能是不准确的或低效的。
  3. 在以前的工作中,对Transformer Decoder的查询通常是一组固定的学习向量,每个向量都用于预测一个对象。如果在Decoder中使用固定查询,必须有一个假设,即输入图像中的对象是在一些统计规则下分布的 ,这与RES的随机性不匹配。

b. 解决方案:

  1. 在本文中,作者采用了Transformer结构。作者使用视觉引导从语言特征中生成一组查询向量,并使用这些向量来“查询”给定的图像,并从响应中生成分割mask。这种基于注意力的框架在计算的每个阶段实现多模态特征之间的全局操作,使网络能够更好地建模视觉和语言信息的全局上下文。
  2. 为了处理由图像的多样性和语言的无约束表达所引起的随机性,作者结合视觉特征,以不同的方式来理解语言表达。
  3. 为了解决这些问题,作者提出了一个查询生成模块(QGM) ,基于该语言和相应的视觉特征生成多个不同的查询向量。
  4. 为了确保生成的查询向量有效并找到更适合图像和语言的理解方式,进一步提出了一个查询平衡模块(QBM)来自适应地选择这些查询的输出特征,以便更好地生成掩码。

contribution:

模型在不同层次上构建了语言和视觉特征之间的深度交互,极大地增强了多模态特征的融合和利用。此外,所提出的模块是轻量级的,其参数大小大致相当于七个卷积层。

  • 设计了一种视觉-语言转换器(VLT)方法来构建多模态信息之间的深度交互,并增强对视觉-语言特征的整体理解。
  • 提出了一个从不同理解方式理解语言的查询生成模块,以及一个查询平衡模块,以专注于合适的方式。

【iccv2021】Vision-Language Transformer and Query Generation for Referring Segmentation相关推荐

  1. 【Reproduced】C language program of MODBUS RTU MASTER

    [Reproduced]C language program of MODBUS RTU MASTER From:http://blog.csdn.net/wangshunli/article/det ...

  2. 【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning

    [AAAI2021]Dual-Level Collaborative Transformer for Image Captioning 附: 论文下载地址 附: 代码下载地址 论文主要贡献 提出了一种 ...

  3. 【NeurIPS2022】Cross Aggregation Transformer for Image Restoration

    [NeurIPS2022]Cross Aggregation Transformer for Image Restoration **研究动机:**当前方法 Transformer 方法把图像分成8x ...

  4. 【ECCV2020】Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory Prediction

    [ECCV2020]用于行人轨迹预测的时空图 Transformer 网络 摘要 了解人群运动动力学对于现实世界的应用至关重要,例如监控系统和自动驾驶.这是具有挑战性的,因为它需要对具有社会意识的人群 ...

  5. 【GPT】Improving Language Understanding by Generative Pre-Training

    Paper Link: Improving Language Understanding by Generative Pre-Training GPT系列文章解读: [GPT2]Language Mo ...

  6. 【综述阅读】Pre-trained Language Models for Text Generation: A Survey

    Pre-trained Language Models for Text Generation: A Survey 中国人民大学 IJCAI 2021 论文链接:https://arxiv.org/p ...

  7. 【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation

    这篇论文是CLIP模型较早的在弱监督分割上应用的论文. 论文标题: Cross Language Image Matching for Weakly Supervised Semantic Segme ...

  8. 论文笔记33 -- (CV)【ICCV2021】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    CV + Transformer 论文:点这里 官方代码:点这里 第三方代码:点这里 Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,S ...

  9. 【解析】Vision Transformer 在图像分类中的应用

    An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale 代码:https://github.com/goog ...

  10. 【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection

    paper:https://arxiv.org/abs/2203.10785 目录 一 动机 二 方法 三 网络框架 3.1 模态纯化模块(MPM) 3.2 尺度统一模块 (SUM) 3.3 多 Tr ...

最新文章

  1. A - Wireless Network POJ - 2236
  2. BZOJ1858 [Scoi2010]序列操作 线段树
  3. 使用timeit测试Python函数的性能
  4. 20130320java基础学习笔记-dos命令及java临时环境变量配置
  5. Delphi 7.0常用函数速查手册
  6. 云计算的关键特点及挑战
  7. 用 docker-compose 启动 WebApi 和 SQL Server
  8. 解决: 'Cannot call `.is_valid()` as no `data=` keyword argument was ' AssertionError: Cannot call `
  9. 清华 | 量化卷积神经网络加速芯片
  10. 全新2007高校BBS上睿智的冷笑话
  11. Oracle 18c十大新特性
  12. 常见问题汇总:FLUENT保存物理量数据
  13. win10中文用户名怎么改成英文文件夹路径
  14. 秦皇岛自驾三日游攻略
  15. IceSword 1.12
  16. 真正准确的“两个日期相差多少天”函数
  17. excel宏根据表格自动计算机,Excel使用宏录制自动将输入内容排到另一张表的操作方法...
  18. spring 调用python_引用spring
  19. 敲一万小时的代码可以成为大牛吗?
  20. Qt开发之路59---QPushButton的pressed,released,clicked,toggled响应的区别

热门文章

  1. 戏精,程序员的桌面画风竟然是酱紫的!
  2. 如何删除重复项只保留最新项
  3. bootstrap+javascript制作体重标准计算器
  4. Barefoot如何应对Marvell可编程芯片的消亡
  5. 服务器系统网卡调节,使用智简魔方安装服务器系统时候如何在BIOS中开启网卡pxe...
  6. 文献阅读——金属伪影减少MAR问题
  7. NFS挂载问题:mount.nfs: access denied by server while mounting 192.168.1.100:/home/rootfs
  8. Java网络爬虫Spider
  9. 【windows】Webstorm2021安装教程
  10. 上古卷轴5:重制版Skyrim Together用MO无法替换游戏菜单Menu图像LOGO的问题解决