【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation

文章地址：CRIS
Github：https://github.com/DerrickWang005/CRIS.pytorch

motivation：

1、现有的方法利用外部知识促进学习，主要采用单模态的预训练(如预训练的图像或文本编码器)，缺乏多模态的对应信息。CLIP展示了从4亿对图像-文本对学习SOTA图像级视觉概念的能力，这有助于多模态任务。
2、由于图像级预测与像素级预测的差异，直接使用CLIP对于像素级预测任务可能不是最优的。前者关注输入图像的全局信息，而后者需要学习每个空间激活的细粒度视觉表示。

idea：

利用 CLIP 模型的强大知识进行RIS，以增强跨模态匹配的能力。提出了一种有效且灵活的框架，称为 CLIP-Driven Referring Image Segmentation (CRIS)，它可以传递大量的 CLIP 多模态对应知识，以实现文本到像素的对齐。

首先，提出了一种视觉语言解码器，它通过自注意力操作捕获像素级特征的长期依赖关系，并通过交叉注意力操作自适应地将精细结构的文本特征传播到像素级特征。
其次，引入了文本到像素对比学习，它可以对齐语言特征和相应的像素级特征，同时在多模态嵌入空间中区分不相关的像素级特征。基于该方案，该模型可以通过交织语言和像素级视觉特征来明确学习细粒度的视觉概念。

contribution：

提出了一个 CLIP 的RIS框架 (CRIS) 来传递 CLIP 模型的知识以实现文本到像素的对齐。
通过两种创新设计充分利用这种多模态知识，即视觉语言解码器和文本到像素对比学习。

【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation相关推荐

【CVPR2022】用于域适应语义分割的域无关先验
摘要:本文给大家分享一篇我们在CVPR 2022 上发表的paper:Domain-Agnostic Prior for Transfer Semantic Segmentation.文章提出了一种图 ...
【CVPR2022】Detecting Camouﬂaged Object in Frequency Domain
[CVPR2022]Detecting Camouﬂaged Object in Frequency Domain 论文有一个非官方的实现:https://github.com/VisibleShad ...
论文阅读【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...
【SeMask】Semantically Masked Transformers for Semantic Segmentation
SeMask:Semantically Masked Transformers for Semantic Segmentation [Paper][Github] 问题:encoding阶段(基于Tr ...
【论文】3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation
论文题目:3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation 3D u-net,从稀疏注释中学习密集体分割 ...
【CVPR2022】DAFormer: 改进领域自适应语义分割的网络架构和训练策略
Code:https://github.com/lhoyer/DAFormer Paper: https://openaccess.thecvf.com/content/CVPR2022/papers ...
【CVPR2022】TeachAugment: Data Augmentation Optimization Using Teacher Knowledge
cvpr2022一篇关于数据增强的文章,最近想扩增数据集,看看能不能用到吧. 原文链接:https://arxiv.org/abs/2202.12513 知乎同步更新,id为cocotaini,笔记链 ...
【CVPR2022】基于鲁棒区域特征生成的零样本目标检测
来源:专知本文为论文,建议阅读5分钟首次实现了同时针对可见目标类和不可见目标类的统一目标检测模型. 黄培亮,韩军伟,程德,张鼎文. Robust Region Feature Synthesize ...
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
来源:专知本文为论文,建议阅读5分钟我们提出了一种视觉相似度学习的语言指导目标. 深度度量学习(Deep Metric Learning, DML)提出学习度量空间,将语义相似性编码为嵌入空间距离. ...
【CVPR2022】UniVIP：自监督视觉预训练的统一框架
来源:专知本文为论文,建议阅读5分钟我们提出了统一自监督视觉预训练(UniVIP) 论文标题:UniVIP: A Unified Framework for Self-Supervised Vis ...

【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation

motivation：

idea：

contribution：

【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation相关推荐

最新文章

热门文章