CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记
目录
- 简介
- 动机
- 贡献
- 方法
- 实验
简介
本文是一篇poster,作者来自马萨诸塞大学阿姆赫斯特分校和Adobe研究院。
明确一下本文的task:在图片中分割出给定的短语。
下载链接
动机
现有的数据集缺乏在实际应用中出现的概念的规模和多样性(lack the scale and diversity of concepts that appear in real-world applications.),基于此问题,本文提出了VGPHRASECUT数据集。作者使用了几个 state of-the-art referring approaches在此数据集上进行了测试,结果都不尽人意。通过分析,作者认为这是由于数据集中的罕见类别和罕见属性造成的(长尾效应)。
贡献
- 提出VGPHRASECUT数据集。
- 提出模块化方法,可以将类别、属性和关系相关的视觉cues进行结合。
- 通过利用对更频繁的类别和属性的预测,提高模型在罕见类别和属性上的性能。
方法
本文方法的整体框架如下图所示,整个framework还是很清楚的。
Backbone encoders,对于image,使用MaskRCNN;对于phrase,使用 bi-directional LSTMs。
Category module,这部分分为三个步骤进行。①. 基于instances features生成category channel score,假设原图片大小为w×hw\times hw×h,共有NNN个类,生成的category channel score大小为12w×12h×N\frac{1}{2}w\times\frac{1}{2}h\times N21w×21h×N。②. 基于phrase embedding生成channel attention。③. 将前两步的结果相乘,然后再做一个仿射变换,再激活一下,就得到了结果。
Attribute module,和Category module一样,只不过通道数不一样,这里通道数应该是100×20100 \times 20100×20,100代表top100个objects,20代表attributes。
Relationship module,也和上文差不多,这里用的是空洞卷积,用来提高感受野。
Combining the modules,这部分有点似懂非懂,按照我理解的来写吧。作者对上述得到的三个输出进行elementwise product and normalization,然后得到一个10-channel的score map。将category、attribute和relationship的embedding进行concat,学得一个attention。将score map和attention结合,得到最终输出。
实验
在VGPHRASECUT数据集上的实验结果,感觉rel没啥用呀。。。
CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记相关推荐
- CVPR 2020 《Local-Global Video-Text Interactions for Temporal Grounding》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文的作者来自浦项科技大学和首尔大学 下载链接 动机 在Grounding领域,早些的方法都可以归结为scan-and-localize framework, ...
- CVPR 2020 | 《Learning to Transfer Texture from Clothing Images to 3D Humans》 论文解读
作者和机构 德国马普所,SMPL的论文也出自该单位,三作Gerard也是SMPL论文的作者 解决的问题 通过服装的正面和背面图实时生成3D模型 动机 该研究有助于3D人体渲染,生成数据以供网络学习,虚 ...
- CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering
动机 VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力.视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务. 与VQA或VideoQA相比,MVQA是一项更 ...
- CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记
理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...
- CVPR 2018 Siam-RPN:《High Performance Visual Tracking with Siamese Region Proposal Network》论文笔记
理解出错之处望不吝指正. 本文模型叫做Siam-RPN.本文将Siamese Network和RPN结合,提出了一种端到端的离线训练方法,并把tracking过程视为one-shot detectio ...
- CVPR 2018 SINT++:《SINT++: Robust Visual Tracking via Adversarial Hard Positive Generation》论文笔记
理解出错之处望不吝指正. 本文用到了变分自编码VAE和强化学习DQN,我觉得很新颖.整体架构如下图: 首先,使用VAE来生成positive sample,如上图中右下角. 然后,使用HTPN网络将得 ...
- 28 篇论文、6 大主题带你一览 CVPR 2020 研究趋势
关注"迈微AI研习社",内容首发于公众号 转自 | AI科技评论 首度于线上召开的CVPR 2020 会议已经落下帷幕.今年,大会共有1467篇论文被接收,共举办了29个Tutor ...
- CVPR 2020 论文大盘点-医学影像处理识别篇
医学影像处理识别是计算机视觉的重要方向,尽管CVPR 不是专门的医学领域学术会议,但仍有不少相关工作,CVPR 2020 中尤以医学影像分割为最. 本文盘点相关论文,总计 19 篇,其中: 医学图像分 ...
- 【论文阅读】CVPR 2020:GaitPart: Temporal Part-based Model for Gait Recognition
GaitPart: Temporal Part-based Model for Gait Recognition 目录 GaitPart: Temporal Part-based Model for ...
- CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文也是一篇poster,作者出自浙大.阿里巴巴和电科大. 本文提出了一个新的task--STVG(Spatio-Temporal Video Groundi ...
最新文章
- 产品经理 需求 项目经理 选择_产品经理和项目经理的区别
- C/MFC如何获得应用程序当前路径(整理)
- MySQL 和 PostgreSQL 对比
- MyBatis 缓存详解-二级缓存介绍
- RuntimeError: freeze_support()
- Kubernetes基础:Pod的详细介绍
- (Incomplete) Codeforces #395 (Div 1 + Div 2)
- 用python写用手机发邮件_如何用python写发邮件?
- 淘宝店铺类目怎么删除
- Java元组类型之javatuples
- 小米网卡驱动linux,Linux 下小米WIFI 的无线网卡驱动
- Bp神经网络详解—matlab实现Bp神经网络
- fastboot刷系统的步骤
- .NET(c#) 移动APP开发平台 - Smobiler(2) - 平台介绍
- js实现canvas在线画板
- Flink操作——状态与容错
- 矢量网络分析仪的基本原理
- 研究生学位论文文献检索小技巧——妙用谷歌学术搜索
- 03.项目管理实践工具-团队绩效评价
- cogs2235 烤鸡翅 贪心
热门文章
- 云炬创业政策学习笔记20210116
- 云炬Android开发笔记 2-2 Android studio项目上传到Github及无法连接Github的问题处理
- 李沐《动手学深度学习》PyTorch 实现版开源,瞬间登上 GitHub 热榜!
- const 常量_软件特攻队|const常量,不一样的新玩法
- PIC单片机精通_ADC左对齐与右对齐的数据读取问题
- [Medical Image Processing] 2. GrayScale Histogram and Threshold-【Isodata Algorithm】
- 关于ASp.net中的session失效问题的解决办法之一
- delphi中move函数的用法
- 高级C语言教程-作用域
- 不同寻址方式的灵活应用——改变每个单词首字母大小写