目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文出自北航刘偲老师colab,使用语言结构引导上下文建模,用于Referring Image Segmentation。
下载链接

动机

解决Referring Image Segmentation的一个general想法是:首先,分别提取视觉、语言特征,然后基于多模态特征进行分割。但由于噪声的存在,很难从背景中分割出referent。这时,可以考虑使用与句子相关的、有效的多模态context来突出referent的特征,抑制背景特征。但在已有方法中,使用直接的concatenation或循环微调,缺乏显式的建模多模态上下文。有一些工作中,使用跨模态self-attention或动态滤波建模多模态上下文,但这些上下文要么是不充足的,要么是冗余的。

贡献

  • 本文提出使用“gather-propagate-distribute”机制建模视觉语言中跨模态的上下文信息;
  • 本文提出了Linguistic Structure guided Context Modeling (LSCM)模块,用于实现“gather-propagate-distribute”机制;
  • 在四个benchmarks上进行了实验,均超过了SOTA,UNC (+1:58%)、UNC+(+3:09%)、G-Ref (+1:65%) 、ReferIt (+2:44%)

方法

本文方法的整体架构如下图所示,共有三个步骤:①使用CNN和LSTM分别提取视觉、语言特征,并将二者融合,获得多模态特征;②基于得到的多模态特征,使用LSCM模块(本文重点)突出referent的特征。③将得到的multi-level特征融合,预测mask。

①和③没有太多需要介绍的,主要说一下文中的步骤②,其处理过程如下图所示。Gather,基于attention map得到每个node的特征,此时,每个node中只包含它自己的上下文信息;Propagate,最初时,得到的graph是全连接的,作者使用Dependency Parsing Tree解析出文本中结点的对应关系,基于得到的Tree压制graph中的一些边,就得到的DPT-WG,在DPT-WG上做一次图卷积(后文中有实验,表明做次图卷积的结果最优),此时,每个node均包含了sentence的上下文;Distribute,将结点特征再映射到特征图上,高亮referent的特征。

实验

在四个数据集上的实验结果:

消融实验:

图卷积层数实验:

一些可视化的实验结果:

对attention map的可视化:

ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记相关推荐

  1. CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文是在NIPS 2019 ViLBERT上的拓展. 论文链接 动机 本文修改了ViLBERT的预训练过程,有两个小修改:1. 对regions进行mask时 ...

  2. CVPR 2020 HAN:《Hypergraph Attention Networks for Multimodal Learning》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文提出了一种用于多模态学习的超图注意力网络,作者来自Kakao公司和首尔大学. Kakao公司的主要产品是Kakao talk,类似于国内的微信,且腾讯是其 ...

  3. CVPR 2020 《Transform and Tell: Entity-Aware News Image Captioning》论文笔记(数据集)

    目录 简介 动机 贡献 方法 实验 简介 本文是新闻图像标注,和常见的Image Captioning任务不太一样. 下载链接 News Image Captioning中没有object-level ...

  4. ECCV 2018 DSLT:《Deep Regression Tracking with Shrinkage Loss》论文笔记

    理解出错之处望不吝指正. 本文模型叫做DSLT,将跟踪任务视为回归问题去解决.主要贡献包括:①.提出一种收缩损失函数,降低背景信息中的那些简单负样本对损失函数的贡献:②.使用残差连接,融合多个卷积层和 ...

  5. ECCV 2020 论文大盘点-图像与视频分割篇

    分割是ECCV 2020 中的热门关键词,前文已经总结了: ECCV 2020 论文大盘点-语义分割篇 ECCV 2020 论文大盘点-实例分割篇 但"分割"本身的内涵很丰富,还包 ...

  6. ECCV 2020 论文大盘点-自动驾驶篇

    自动驾驶(可能)是人工智能产业化进程中最令人兴奋.吸引最多投资.引起大众最多关注的领域,在其技术栈中来自计算机视觉的环境感知模块是各大厂商研究的重点. 本文盘点 ECCV 2020 中与自动驾驶(Au ...

  7. 【论文汇总】 ECCV 2020 语义分割paper汇总

    语义分割 segmentation paper@ECCV 2020 ECCV 2020语义分割文章总结,文章下载链接. 文章目录 语义分割 segmentation paper@ECCV 2020 前 ...

  8. ECCV 2020 论文大盘点-图像视频修复篇

    本文盘点 ECCV 2020 图像与视频修复(inpainting)所有相关论文,总计 8 篇. 下载包含这些论文的 ECCV 2020 所有论文: ECCV 2020 论文合集下载,分类盘点进行中 ...

  9. 1357篇ECCV 2020论文打包下载!奖项公布:李飞飞高徒获最佳论文奖

    ↑ 点击蓝字 关注极市平台 部分内容来源丨机器之心 编辑|极市平台 极市导读 昨日,ECCV 2020五项大奖出炉,分别是最佳论文奖.最佳论文提名奖.Koenderink奖.Mark Everingh ...

最新文章

  1. window路径和linux路径变换,从linux样式路径转换时,Docker装入的卷将; C添加到Windows路径的末尾...
  2. 解决报错:error: function declaration isn’t a prototype [-Werror=strict-prototypes]
  3. 如何按键对字典排序?
  4. python中plot柱状图-python matplotlib模块: bar(柱状图)
  5. Signalr实时通讯
  6. Ubuntu 中sendmail 的安装、配置与发送邮件的具体实现
  7. python发送短信内容_通过Python发送短信
  8. java.lang.NoClassDefFoundError: org/springframework/context/ApplicationContext崩溃解决
  9. Windows域控管理 常用操作 详细汇总
  10. 为什么单击用户账户没有反应_win10用户获取最高权限的方法
  11. 物联网博客推荐:网昱多媒体
  12. dos2unix命令详解
  13. dlibdotnet 人脸相似度源代码_HAAR与DLib的实时人脸检测之实现与对比
  14. matlab中ones函数的使用方法详细介绍(附matlab代码)
  15. unity功能开发——实名认证
  16. Star Way To Heaven
  17. DNS服务器无响应win10系统,Win10上的DNS服务器无响应:这是如何解决它
  18. 阿里云同步gcr.io的镜像
  19. [sphinx]中文语言模型训练
  20. oracle查询第三行,oracle层次化查询(行政区划三级级联)

热门文章

  1. 云炬随笔20211021(2)
  2. 云炬Android开发笔记 11主界面-商品分类开发(多布局Section RecyclerView)
  3. 周志华《机器学习》课后习题解析(第四章):决策树
  4. 隐藏JqueryMobile中的Header与Footer
  5. JavaScript 模拟事件触发
  6. JavaScript内存释放笔记
  7. BUUCTF-Reverse:SimpleRev(算法分析题)
  8. Servlet 单例多线程
  9. springSide3
  10. 为rm命令增加回收站功能