目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文是一篇poster,作者来自马萨诸塞大学阿姆赫斯特分校和Adobe研究院。
明确一下本文的task:在图片中分割出给定的短语。
下载链接

动机

现有的数据集缺乏在实际应用中出现的概念的规模和多样性(lack the scale and diversity of concepts that appear in real-world applications.),基于此问题,本文提出了VGPHRASECUT数据集。作者使用了几个 state of-the-art referring approaches在此数据集上进行了测试,结果都不尽人意。通过分析,作者认为这是由于数据集中的罕见类别和罕见属性造成的(长尾效应)。

贡献

  1. 提出VGPHRASECUT数据集。
  2. 提出模块化方法,可以将类别、属性和关系相关的视觉cues进行结合。
  3. 通过利用对更频繁的类别和属性的预测,提高模型在罕见类别和属性上的性能。

方法

本文方法的整体框架如下图所示,整个framework还是很清楚的。

Backbone encoders,对于image,使用MaskRCNN;对于phrase,使用 bi-directional LSTMs。
Category module,这部分分为三个步骤进行。①. 基于instances features生成category channel score,假设原图片大小为w×hw\times hw×h,共有NNN个类,生成的category channel score大小为12w×12h×N\frac{1}{2}w\times\frac{1}{2}h\times N21w×21h×N。②. 基于phrase embedding生成channel attention。③. 将前两步的结果相乘,然后再做一个仿射变换,再激活一下,就得到了结果。
Attribute module,和Category module一样,只不过通道数不一样,这里通道数应该是100×20100 \times 20100×20,100代表top100个objects,20代表attributes。
Relationship module,也和上文差不多,这里用的是空洞卷积,用来提高感受野。
Combining the modules,这部分有点似懂非懂,按照我理解的来写吧。作者对上述得到的三个输出进行elementwise product and normalization,然后得到一个10-channel的score map。将category、attribute和relationship的embedding进行concat,学得一个attention。将score map和attention结合,得到最终输出。

实验

在VGPHRASECUT数据集上的实验结果,感觉rel没啥用呀。。。

CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记相关推荐

  1. CVPR 2020 《Local-Global Video-Text Interactions for Temporal Grounding》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文的作者来自浦项科技大学和首尔大学 下载链接 动机 在Grounding领域,早些的方法都可以归结为scan-and-localize framework, ...

  2. CVPR 2020 | 《Learning to Transfer Texture from Clothing Images to 3D Humans》 论文解读

    作者和机构 德国马普所,SMPL的论文也出自该单位,三作Gerard也是SMPL论文的作者 解决的问题 通过服装的正面和背面图实时生成3D模型 动机 该研究有助于3D人体渲染,生成数据以供网络学习,虚 ...

  3. CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering

    动机 VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力.视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务. 与VQA或VideoQA相比,MVQA是一项更 ...

  4. CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记

    理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...

  5. CVPR 2018 Siam-RPN:《High Performance Visual Tracking with Siamese Region Proposal Network》论文笔记

    理解出错之处望不吝指正. 本文模型叫做Siam-RPN.本文将Siamese Network和RPN结合,提出了一种端到端的离线训练方法,并把tracking过程视为one-shot detectio ...

  6. CVPR 2018 SINT++:《SINT++: Robust Visual Tracking via Adversarial Hard Positive Generation》论文笔记

    理解出错之处望不吝指正. 本文用到了变分自编码VAE和强化学习DQN,我觉得很新颖.整体架构如下图: 首先,使用VAE来生成positive sample,如上图中右下角. 然后,使用HTPN网络将得 ...

  7. 28 篇论文、6 大主题带你一览 CVPR 2020 研究趋势

    关注"迈微AI研习社",内容首发于公众号 转自 | AI科技评论 首度于线上召开的CVPR 2020 会议已经落下帷幕.今年,大会共有1467篇论文被接收,共举办了29个Tutor ...

  8. CVPR 2020 论文大盘点-医学影像处理识别篇

    医学影像处理识别是计算机视觉的重要方向,尽管CVPR 不是专门的医学领域学术会议,但仍有不少相关工作,CVPR 2020 中尤以医学影像分割为最. 本文盘点相关论文,总计 19 篇,其中: 医学图像分 ...

  9. 【论文阅读】CVPR 2020:GaitPart: Temporal Part-based Model for Gait Recognition

    GaitPart: Temporal Part-based Model for Gait Recognition 目录 GaitPart: Temporal Part-based Model for ...

  10. CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文也是一篇poster,作者出自浙大.阿里巴巴和电科大. 本文提出了一个新的task--STVG(Spatio-Temporal Video Groundi ...

最新文章

  1. 产品经理 需求 项目经理 选择_产品经理和项目经理的区别
  2. C/MFC如何获得应用程序当前路径(整理)
  3. MySQL 和 PostgreSQL 对比
  4. MyBatis 缓存详解-二级缓存介绍
  5. RuntimeError: freeze_support()
  6. Kubernetes基础:Pod的详细介绍
  7. (Incomplete) Codeforces #395 (Div 1 + Div 2)
  8. 用python写用手机发邮件_如何用python写发邮件?
  9. 淘宝店铺类目怎么删除
  10. Java元组类型之javatuples
  11. 小米网卡驱动linux,Linux 下小米WIFI 的无线网卡驱动
  12. Bp神经网络详解—matlab实现Bp神经网络
  13. fastboot刷系统的步骤
  14. .NET(c#) 移动APP开发平台 - Smobiler(2) - 平台介绍
  15. js实现canvas在线画板
  16. Flink操作——状态与容错
  17. 矢量网络分析仪的基本原理
  18. 研究生学位论文文献检索小技巧——妙用谷歌学术搜索
  19. 03.项目管理实践工具-团队绩效评价
  20. cogs2235 烤鸡翅 贪心

热门文章

  1. 云炬创业政策学习笔记20210116
  2. 云炬Android开发笔记 2-2 Android studio项目上传到Github及无法连接Github的问题处理
  3. 李沐《动手学深度学习》PyTorch 实现版开源,瞬间登上 GitHub 热榜!
  4. const 常量_软件特攻队|const常量,不一样的新玩法
  5. PIC单片机精通_ADC左对齐与右对齐的数据读取问题
  6. [Medical Image Processing] 2. GrayScale Histogram and Threshold-【Isodata Algorithm】
  7. 关于ASp.net中的session失效问题的解决办法之一
  8. delphi中move函数的用法
  9. 高级C语言教程-作用域
  10. 不同寻址方式的灵活应用——改变每个单词首字母大小写