【论文阅读笔记】Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
2020-CVPR
Shizhe Chen1∗, Qin Jin1†, Peng Wang2, Qi Wu3
1Renmin University of China, 2Northwestern Polytechnical University 3Australian Centre for Robotic Vision, University of Adelaide
motivation:
人类能够按照自己的意愿描述从粗到细的图像内容。然而,大多数图像字幕模型只被动生成图像描述,并不关心用户对什么内容感兴趣,描述应该有多详细,也就是说,不能根据不同的用户意图自动生成不同的描述。
此前的工作都只能处理粗粒度的控制信号,很难在细粒度级别上实现用户所需的控制(在不同的细节级别上描述各种对象及其关系)。
contribute:
在本研究中,我们提出了抽象场景图(ASG)结构,在细粒度层次上表示用户意图,并控制所生成的描述内容和详细程度。
ASG是一个有向图,由三种类型的抽象节点(对象、属性、关系)组成,这些抽象节点根植于图像中,没有任何具体的语义标签,无论是手动还是自动获取都很容易。
基于ASG,我们提出了一种asg2caption模型,该模型能够识别图中的用户意图和语义,从而根据图的结构生成所需的标题。
方法:
1.Overview
由于ASG只包含一个抽象的场景布局,没有任何语义标签,有必要在图中捕获意图和语义。因此,我们提出了一种role-aware graph encoder 来区分节点的细粒度意图,并用图上下文增强每个节点以改善语义表示。
其次,ASG不仅通过不同的节点控制要描述的内容,而且通过节点的连接方式隐式地决定描述顺序。因此,我们提出的解码器同时考虑关注节点的内容和结构,以图流顺序生成所需的内容。
最后,在ASG中完全覆盖信息而不遗漏或重复是很重要的。为此,我们的模型在解码过程中逐步更新图的表示,以保持对图访问状态的跟踪。
整个模型由role-aware graph encoder和language decoder for graphs (如图)。给定图像I和ASG G,编码器首先将每个节点初始化为角色感知嵌入,并使用多层MR-GCN对Gm中的图上下文进行编码。然后解码器动态地合并图内容和图流注意,用于生成ASG控制的字幕。生成一个词后,我们将图Xt−1更新为Xt来记录图的状态。
2.Abstract Scene Graph
图像I的ASG记为G = (V,E),其中V和E分别为节点和边的集合。节点按其意图角色可分为三类:对象节点o、属性节点a和关系节点r。注意ASG只是一个没有任何语义标签的图形布局,这意味着不依赖于外部训练的对象/属性/关系检测器。
3.The ASG2Caption Model
3.1Role-aware Graph Encoder
该编码器将ASG G编码为一组节点嵌入X = {x1,···,X |V|},包含两个组件:role-aware node embedding用于区分节点意图和multi-relational graph convolutional network (MR-GCN)用于上下文编码。
(1)role-aware node embedding
对于G中的第i个节点,首先将其初始化为相应的可视化特征vi。再进一步对每个节点进行角色嵌入,得到角色感知节点嵌入xi(0):
(2)MR-GCN
用不同的双向边扩展原来的ASG,从而得到一个多关系图gm ={V,E,R}用于上下文编码。使用MR-GCN来编码Gm中的图上下文,如下所示为第l层:
堆叠L层,最后一层的输出被用作我们的最终节点嵌入。我们也可以得到一个全局图,通过取xi的平均值 g ̄ = 1
【论文阅读笔记】Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs相关推荐
- Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs阅读笔记
人们可以根据自己的意愿使用粗糙到精细的细节来描述图像内容.然而,大多数图像字幕模型是与意图无关的,不能主动根据不同的用户意图生成各种描述.本文提出了抽象场景图(ASG)结构来细粒度地表示用户意图,并控 ...
- 论文阅读笔记:YOLO9000: Better,Faster,Stronger
论文阅读笔记:YOLO9000: Better,Faster,Stronger 本文主要包含如下内容: 论文地址 参考博客 论文阅读笔记YOLO9000 BetterFasterStronge ...
- OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记
文章目录 OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记 ...
- 《Progressive Growing of GANs for Improved Quality, Stability, and Variation》-论文阅读笔记
<Progressive Growing of GANs for Improved Quality, Stability, and Variation>-论文阅读笔记 文章目录 <P ...
- 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
- DnCNN论文阅读笔记【MATLAB】
DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...
- Learning Multiview 3D point Cloud Registration论文阅读笔记
Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...
- FCGF论文阅读笔记
FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...
- PointConv论文阅读笔记
PointConv论文阅读笔记 Abstract 本文发表于CVPR. 其主要内容正如标题,是提出了一个对点云进行卷积的Module,称为PointConv.由于点云的无序性和不规则性,因此应用卷积比 ...
最新文章
- js 常用倒计时功能:
- 2021年最值得推荐的13个提高开发效率工具,程序员必备
- Atitit swt 4.3 4.4 4.5 新特性java attilax总结
- java判断zip包的编码格式_java解压zip包出现乱码
- SPSS倾向评分匹配(PSM)插件安装与资源分享
- 微信小程序UI框架之【weui】怎样使用
- 微信小程序转支付宝小程序注意事项
- 在GEE平台提取Sentinel-1 SAR GRD的VV+VH波段
- 买不起MacBook,使用Windows 10配置zsh命令行做开发
- java里arraylist删除节点方法_Java之——删除ArrayList中的反复元素的2种方法
- Linux识别不了希捷移动硬盘,seagate移动硬盘不识别怎么回事
- 获取用户微信头像 高清大图
- 通向Golang的捷径【Top】
- 虚拟串口VSPD安装指南
- 修改MySQL数据库密码的多种方法
- 虹软人脸识别SDK离线激活(RV1109开发板)
- 一个简单的DGA(Domain Generate Algorithm)
- “金九银十”求职指南:这些城市和行业最热门!
- MYSQL的CRUD
- 蓄电池单格电压多少伏_蓄电池的输出电压一般是多少
热门文章
- 整理一篇iOS经典面试题大全
- 输入输出系统--习题
- 通过调用小黄鸡接口进行自聊天
- C#获取TextBox控件数量
- 程序不支持新服务器,解决Windows Server 2008 R2的兼容性问题
- 计算机查找在线设备IP指令,[转载]查看局域网内在线的电脑的IP地址(批处理)
- API接口,亲测有效
- PJblog教程:无缝滚动友情连接菜单
- java为什么用工厂模式_【Java】为什么建议没事不要随便用工厂模式创建对象?...
- xbox one 解码_如何将物理键盘连接到Xbox One