【iccv2021】Vision-Language Transformer and Query Generation for Referring Segmentation

motivation：

a. 存在的问题：

以前的大多数只使用注意机制作为基于FCN的辅助模块，这限制了它们建模全局上下文的能力。
在以往的方法中，经常使用语言的Self-Attention来提取信息。对于这些方法，它们的语言理解仅来自语言表达本身，而不与图像交互，因此它们无法区分哪些强调更合适、更有效，更适合特定的图像。因此，他们检测到的重点可能是不准确的或低效的。
在以前的工作中，对Transformer Decoder的查询通常是一组固定的学习向量，每个向量都用于预测一个对象。如果在Decoder中使用固定查询，必须有一个假设，即输入图像中的对象是在一些统计规则下分布的，这与RES的随机性不匹配。

b. 解决方案：

在本文中，作者采用了Transformer结构。作者使用视觉引导从语言特征中生成一组查询向量，并使用这些向量来“查询”给定的图像，并从响应中生成分割mask。这种基于注意力的框架在计算的每个阶段实现多模态特征之间的全局操作，使网络能够更好地建模视觉和语言信息的全局上下文。
为了处理由图像的多样性和语言的无约束表达所引起的随机性，作者结合视觉特征，以不同的方式来理解语言表达。
为了解决这些问题，作者提出了一个查询生成模块(QGM) ，基于该语言和相应的视觉特征生成多个不同的查询向量。
为了确保生成的查询向量有效并找到更适合图像和语言的理解方式，进一步提出了一个查询平衡模块（QBM）来自适应地选择这些查询的输出特征，以便更好地生成掩码。

contribution：

模型在不同层次上构建了语言和视觉特征之间的深度交互，极大地增强了多模态特征的融合和利用。此外，所提出的模块是轻量级的，其参数大小大致相当于七个卷积层。

设计了一种视觉-语言转换器（VLT）方法来构建多模态信息之间的深度交互，并增强对视觉-语言特征的整体理解。
提出了一个从不同理解方式理解语言的查询生成模块，以及一个查询平衡模块，以专注于合适的方式。

【iccv2021】Vision-Language Transformer and Query Generation for Referring Segmentation相关推荐

【Reproduced】C language program of MODBUS RTU MASTER
[Reproduced]C language program of MODBUS RTU MASTER From:http://blog.csdn.net/wangshunli/article/det ...
【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning
[AAAI2021]Dual-Level Collaborative Transformer for Image Captioning 附: 论文下载地址附: 代码下载地址论文主要贡献提出了一种 ...
【NeurIPS2022】Cross Aggregation Transformer for Image Restoration
[NeurIPS2022]Cross Aggregation Transformer for Image Restoration **研究动机:**当前方法 Transformer 方法把图像分成8x ...
【ECCV2020】Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory Prediction
[ECCV2020]用于行人轨迹预测的时空图 Transformer 网络摘要了解人群运动动力学对于现实世界的应用至关重要,例如监控系统和自动驾驶.这是具有挑战性的,因为它需要对具有社会意识的人群 ...
【GPT】Improving Language Understanding by Generative Pre-Training
Paper Link: Improving Language Understanding by Generative Pre-Training GPT系列文章解读: [GPT2]Language Mo ...
【综述阅读】Pre-trained Language Models for Text Generation: A Survey
Pre-trained Language Models for Text Generation: A Survey 中国人民大学 IJCAI 2021 论文链接:https://arxiv.org/p ...
【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation
这篇论文是CLIP模型较早的在弱监督分割上应用的论文. 论文标题: Cross Language Image Matching for Weakly Supervised Semantic Segme ...
论文笔记33 -- （CV）【ICCV2021】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
CV + Transformer 论文:点这里官方代码:点这里第三方代码:点这里 Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,S ...
【解析】Vision Transformer 在图像分类中的应用
An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale 代码:https://github.com/goog ...
【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection
paper:https://arxiv.org/abs/2203.10785 目录一动机二方法三网络框架 3.1 模态纯化模块(MPM) 3.2 尺度统一模块 (SUM) 3.3 多 Tr ...

【iccv2021】Vision-Language Transformer and Query Generation for Referring Segmentation

motivation：

a. 存在的问题：

b. 解决方案：

contribution：

【iccv2021】Vision-Language Transformer and Query Generation for Referring Segmentation相关推荐

最新文章

热门文章