文章地址:CRIS
Github:https://github.com/DerrickWang005/CRIS.pytorch

motivation:

1、现有的方法利用外部知识促进学习,主要采用单模态的预训练(如预训练的图像或文本编码器),缺乏多模态的对应信息。CLIP展示了从4亿对图像-文本对学习SOTA图像级视觉概念的能力,这有助于多模态任务。
2、由于图像级预测与像素级预测的差异,直接使用CLIP对于像素级预测任务可能不是最优的。前者关注输入图像的全局信息,而后者需要学习每个空间激活的细粒度视觉表示。

idea:

利用 CLIP 模型的强大知识进行RIS,以增强跨模态匹配的能力。提出了一种有效且灵活的框架,称为 CLIP-Driven Referring Image Segmentation (CRIS),它可以传递大量的 CLIP 多模态对应知识,以实现文本到像素的对齐。

  • 首先,提出了一种视觉语言解码器,它通过自注意力操作捕获像素级特征的长期依赖关系,并通过交叉注意力操作自适应地将精细结构的文本特征传播到像素级特征。
  • 其次,引入了文本到像素对比学习,它可以对齐语言特征和相应的像素级特征,同时在多模态嵌入空间中区分不相关的像素级特征。基于该方案,该模型可以通过交织语言和像素级视觉特征来明确学习细粒度的视觉概念。

contribution:

  • 提出了一个 CLIP 的RIS框架 (CRIS) 来传递 CLIP 模型的知识以实现文本到像素的对齐。
  • 通过两种创新设计充分利用这种多模态知识,即视觉语言解码器和文本到像素对比学习。

【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation相关推荐

  1. 【CVPR2022】用于域适应语义分割的域无关先验

    摘要:本文给大家分享一篇我们在CVPR 2022 上发表的paper:Domain-Agnostic Prior for Transfer Semantic Segmentation.文章提出了一种图 ...

  2. 【CVPR2022】Detecting Camouflaged Object in Frequency Domain

    [CVPR2022]Detecting Camouflaged Object in Frequency Domain 论文有一个非官方的实现:https://github.com/VisibleShad ...

  3. 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

    论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...

  4. 【SeMask】Semantically Masked Transformers for Semantic Segmentation

    SeMask:Semantically Masked Transformers for Semantic Segmentation [Paper][Github] 问题:encoding阶段(基于Tr ...

  5. 【论文】3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation

    论文题目:3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation 3D u-net,从稀疏注释中学习密集体分割 ...

  6. 【CVPR2022】DAFormer: 改进领域自适应语义分割的网络架构和训练策略

    Code:https://github.com/lhoyer/DAFormer Paper: https://openaccess.thecvf.com/content/CVPR2022/papers ...

  7. 【CVPR2022】TeachAugment: Data Augmentation Optimization Using Teacher Knowledge

    cvpr2022一篇关于数据增强的文章,最近想扩增数据集,看看能不能用到吧. 原文链接:https://arxiv.org/abs/2202.12513 知乎同步更新,id为cocotaini,笔记链 ...

  8. 【CVPR2022】基于鲁棒区域特征生成的零样本目标检测

    来源:专知 本文为论文,建议阅读5分钟 首次实现了同时针对可见目标类和不可见目标类的统一目标检测模型. 黄培亮,韩军伟,程德,张鼎文. Robust Region Feature Synthesize ...

  9. 【CVPR2022】语言引导与基于视觉的深度度量学习的集成

    来源:专知 本文为论文,建议阅读5分钟我们提出了一种视觉相似度学习的语言指导目标. 深度度量学习(Deep Metric Learning, DML)提出学习度量空间,将语义相似性编码为嵌入空间距离. ...

  10. 【CVPR2022】UniVIP:自监督视觉预训练的统一框架

    来源:专知 本文为论文,建议阅读5分钟 我们提出了统一自监督视觉预训练(UniVIP) 论文标题:UniVIP: A Unified Framework for Self-Supervised Vis ...

最新文章

  1. 单片机实现环形队列_单片机模块化程序: 难道有环形队列串口发送数据就万事大吉了吗...
  2. HBase伪分布式集群配置
  3. Asp.NetCore3.1开源项目升级为.Net6.0
  4. HipHop PHP HHVM资料收集
  5. 【CS229】多变量线性回归
  6. 玩转 SSH(六):SpringMVC + MyBatis 架构搭建(注解版)
  7. windows访问Linux共享文件夹
  8. 有意思的开源项目分享(持续更新,勤劳的搬运工,只放一些我感兴趣的)
  9. 变色龙(Floyd算法)
  10. CAS配置数据库,实现数据库用户认证
  11. 【Android学习】图片
  12. windows: 如何显示文件的全称
  13. 最强大脑记忆曲线(13)--应用程序的加密及授权码的实现
  14. oracle实现累加,累计百分比计算
  15. gittrack_什么时候使用git branch –track(开始“看上游”的意思)?
  16. 短距离无线通讯-蓝牙
  17. 嵌入式行业怎么样,有什么好的就业方向?
  18. 25岁,我明白了这些道理
  19. python script爬虫_人肉python脚本爬虫
  20. 2022北航敏捷软件工程 第一次博客作业

热门文章

  1. 浅谈,如何获取MTK CPU信息 请看我是如何做的。一步步来吧
  2. Bug 20186278 - crfclust.bdb Becomes Huge Size Due to Sudden Retention Change (文档 ID 20186278.8)
  3. Flash 0day漏洞(CVE-2018-5002)千万不要乱打开Excel文档!
  4. 方舟仙境服务器什么时候修复,方舟生存进化官服多久删一次服务器
  5. everedit选择_EverEdit
  6. 采用Matlab解决最小曼哈顿图问题
  7. 增量式编码器与螺旋微动机构的数显电路
  8. 串口屏储存器不够,自己扩展怎么操作?
  9. java中的nio是啥,java中的NIO
  10. python判断闰年程序_Python 判断闰年