简介

本文是一篇poster，作者来自马萨诸塞大学阿姆赫斯特分校和Adobe研究院。
明确一下本文的task：在图片中分割出给定的短语。
下载链接

动机

现有的数据集缺乏在实际应用中出现的概念的规模和多样性（lack the scale and diversity of concepts that appear in real-world applications.），基于此问题，本文提出了VGPHRASECUT数据集。作者使用了几个 state of-the-art referring approaches在此数据集上进行了测试，结果都不尽人意。通过分析，作者认为这是由于数据集中的罕见类别和罕见属性造成的（长尾效应）。

贡献

提出VGPHRASECUT数据集。
提出模块化方法，可以将类别、属性和关系相关的视觉cues进行结合。
通过利用对更频繁的类别和属性的预测，提高模型在罕见类别和属性上的性能。

方法

本文方法的整体框架如下图所示，整个framework还是很清楚的。

Backbone encoders，对于image，使用MaskRCNN；对于phrase，使用 bi-directional LSTMs。
Category module，这部分分为三个步骤进行。①. 基于instances features生成category channel score，假设原图片大小为 $w×hw\times h$ ，共有 $N$ 个类，生成的category channel score大小为 $12w×12h×N\frac{1}{2}w\times\frac{1}{2}h\times N$ 。②. 基于phrase embedding生成channel attention。③. 将前两步的结果相乘，然后再做一个仿射变换，再激活一下，就得到了结果。
Attribute module，和Category module一样，只不过通道数不一样，这里通道数应该是 $100 \times 20$ ，100代表top100个objects，20代表attributes。
Relationship module，也和上文差不多，这里用的是空洞卷积，用来提高感受野。
Combining the modules，这部分有点似懂非懂，按照我理解的来写吧。作者对上述得到的三个输出进行elementwise product and normalization，然后得到一个10-channel的score map。将category、attribute和relationship的embedding进行concat，学得一个attention。将score map和attention结合，得到最终输出。

实验

在VGPHRASECUT数据集上的实验结果，感觉rel没啥用呀。。。

CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记相关推荐

CVPR 2020 《Local-Global Video-Text Interactions for Temporal Grounding》论文笔记
目录简介动机贡献方法实验简介本文的作者来自浦项科技大学和首尔大学下载链接动机在Grounding领域,早些的方法都可以归结为scan-and-localize framework, ...
CVPR 2020 | 《Learning to Transfer Texture from Clothing Images to 3D Humans》论文解读
作者和机构德国马普所,SMPL的论文也出自该单位,三作Gerard也是SMPL论文的作者解决的问题通过服装的正面和背面图实时生成3D模型动机该研究有助于3D人体渲染,生成数据以供网络学习,虚 ...
CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering
动机 VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力.视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务. 与VQA或VideoQA相比,MVQA是一项更 ...
CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记
理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...
CVPR 2018 Siam-RPN:《High Performance Visual Tracking with Siamese Region Proposal Network》论文笔记
理解出错之处望不吝指正. 本文模型叫做Siam-RPN.本文将Siamese Network和RPN结合,提出了一种端到端的离线训练方法,并把tracking过程视为one-shot detectio ...
CVPR 2018 SINT++:《SINT++: Robust Visual Tracking via Adversarial Hard Positive Generation》论文笔记
理解出错之处望不吝指正. 本文用到了变分自编码VAE和强化学习DQN,我觉得很新颖.整体架构如下图: 首先,使用VAE来生成positive sample,如上图中右下角. 然后,使用HTPN网络将得 ...
28 篇论文、6 大主题带你一览 CVPR 2020 研究趋势
关注"迈微AI研习社",内容首发于公众号转自 | AI科技评论首度于线上召开的CVPR 2020 会议已经落下帷幕.今年,大会共有1467篇论文被接收,共举办了29个Tutor ...
CVPR 2020 论文大盘点-医学影像处理识别篇
医学影像处理识别是计算机视觉的重要方向,尽管CVPR 不是专门的医学领域学术会议,但仍有不少相关工作,CVPR 2020 中尤以医学影像分割为最. 本文盘点相关论文,总计 19 篇,其中: 医学图像分 ...
【论文阅读】CVPR 2020：GaitPart: Temporal Part-based Model for Gait Recognition
GaitPart: Temporal Part-based Model for Gait Recognition 目录 GaitPart: Temporal Part-based Model for ...
CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记
目录简介动机贡献方法实验简介本文也是一篇poster,作者出自浙大.阿里巴巴和电科大. 本文提出了一个新的task--STVG(Spatio-Temporal Video Groundi ...

CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记

目录

简介

动机

贡献

方法

实验

CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记相关推荐

最新文章

热门文章