Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

2020-CVPR

Shizhe Chen1∗, Qin Jin1†, Peng Wang2, Qi Wu3

1Renmin University of China, 2Northwestern Polytechnical University 3Australian Centre for Robotic Vision, University of Adelaide

  • motivation:

人类能够按照自己的意愿描述从粗到细的图像内容。然而,大多数图像字幕模型只被动生成图像描述,并不关心用户对什么内容感兴趣,描述应该有多详细,也就是说,不能根据不同的用户意图自动生成不同的描述。

此前的工作都只能处理粗粒度的控制信号,很难在细粒度级别上实现用户所需的控制(在不同的细节级别上描述各种对象及其关系)。

  • contribute:

在本研究中,我们提出了抽象场景图(ASG)结构,在细粒度层次上表示用户意图,并控制所生成的描述内容和详细程度。

ASG是一个有向图,由三种类型的抽象节点(对象、属性、关系)组成,这些抽象节点根植于图像中,没有任何具体的语义标签,无论是手动还是自动获取都很容易。

基于ASG,我们提出了一种asg2caption模型,该模型能够识别图中的用户意图和语义,从而根据图的结构生成所需的标题。

  • 方法:

1.Overview

由于ASG只包含一个抽象的场景布局,没有任何语义标签,有必要在图中捕获意图和语义。因此,我们提出了一种role-aware graph encoder 来区分节点的细粒度意图,并用图上下文增强每个节点以改善语义表示。

其次,ASG不仅通过不同的节点控制要描述的内容,而且通过节点的连接方式隐式地决定描述顺序。因此,我们提出的解码器同时考虑关注节点的内容和结构,以图流顺序生成所需的内容。

最后,在ASG中完全覆盖信息而不遗漏或重复是很重要的。为此,我们的模型在解码过程中逐步更新图的表示,以保持对图访问状态的跟踪。

整个模型由role-aware graph encoder和language decoder for graphs (如图)。给定图像I和ASG G,编码器首先将每个节点初始化为角色感知嵌入,并使用多层MR-GCN对Gm中的图上下文进行编码。然后解码器动态地合并图内容和图流注意,用于生成ASG控制的字幕。生成一个词后,我们将图Xt−1更新为Xt来记录图的状态。

2.Abstract Scene Graph

图像I的ASG记为G = (V,E),其中V和E分别为节点和边的集合。节点按其意图角色可分为三类:对象节点o、属性节点a和关系节点r。注意ASG只是一个没有任何语义标签的图形布局,这意味着不依赖于外部训练的对象/属性/关系检测器。

3.The ASG2Caption Model

3.1Role-aware Graph Encoder

该编码器将ASG G编码为一组节点嵌入X = {x1,···,X |V|},包含两个组件:role-aware node embedding用于区分节点意图和multi-relational graph convolutional network (MR-GCN)用于上下文编码。

(1)role-aware node embedding

对于G中的第i个节点,首先将其初始化为相应的可视化特征vi。再进一步对每个节点进行角色嵌入,得到角色感知节点嵌入xi(0):

(2)MR-GCN

用不同的双向边扩展原来的ASG,从而得到一个多关系图gm ={V,E,R}用于上下文编码。使用MR-GCN来编码Gm中的图上下文,如下所示为第l层:

堆叠L层,最后一层的输出被用作我们的最终节点嵌入。我们也可以得到一个全局图,通过取xi的平均值 g ̄ = 1

【论文阅读笔记】Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs相关推荐

  1. Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs阅读笔记

    人们可以根据自己的意愿使用粗糙到精细的细节来描述图像内容.然而,大多数图像字幕模型是与意图无关的,不能主动根据不同的用户意图生成各种描述.本文提出了抽象场景图(ASG)结构来细粒度地表示用户意图,并控 ...

  2. 论文阅读笔记:YOLO9000: Better,Faster,Stronger

    论文阅读笔记:YOLO9000: Better,Faster,Stronger 本文主要包含如下内容:   论文地址   参考博客 论文阅读笔记YOLO9000 BetterFasterStronge ...

  3. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记

    文章目录 OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记 ...

  4. 《Progressive Growing of GANs for Improved Quality, Stability, and Variation》-论文阅读笔记

    <Progressive Growing of GANs for Improved Quality, Stability, and Variation>-论文阅读笔记 文章目录 <P ...

  5. 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

    论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...

  6. DnCNN论文阅读笔记【MATLAB】

    DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

  7. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  8. FCGF论文阅读笔记

    FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...

  9. PointConv论文阅读笔记

    PointConv论文阅读笔记 Abstract 本文发表于CVPR. 其主要内容正如标题,是提出了一个对点云进行卷积的Module,称为PointConv.由于点云的无序性和不规则性,因此应用卷积比 ...

最新文章

  1. js 常用倒计时功能:
  2. 2021年最值得推荐的13个提高开发效率工具,程序员必备
  3. Atitit swt 4.3 4.4 4.5 新特性java attilax总结
  4. java判断zip包的编码格式_java解压zip包出现乱码
  5. SPSS倾向评分匹配(PSM)插件安装与资源分享
  6. 微信小程序UI框架之【weui】怎样使用
  7. 微信小程序转支付宝小程序注意事项
  8. 在GEE平台提取Sentinel-1 SAR GRD的VV+VH波段
  9. 买不起MacBook,使用Windows 10配置zsh命令行做开发
  10. java里arraylist删除节点方法_Java之——删除ArrayList中的反复元素的2种方法
  11. Linux识别不了希捷移动硬盘,seagate移动硬盘不识别怎么回事
  12. 获取用户微信头像 高清大图
  13. 通向Golang的捷径【Top】
  14. 虚拟串口VSPD安装指南
  15. 修改MySQL数据库密码的多种方法
  16. 虹软人脸识别SDK离线激活(RV1109开发板)
  17. 一个简单的DGA(Domain Generate Algorithm)
  18. “金九银十”求职指南:这些城市和行业最热门!
  19. MYSQL的CRUD
  20. 蓄电池单格电压多少伏_蓄电池的输出电压一般是多少

热门文章

  1. 整理一篇iOS经典面试题大全
  2. 输入输出系统--习题
  3. 通过调用小黄鸡接口进行自聊天
  4. C#获取TextBox控件数量
  5. 程序不支持新服务器,解决Windows Server 2008 R2的兼容性问题
  6. 计算机查找在线设备IP指令,[转载]查看局域网内在线的电脑的IP地址(批处理)
  7. API接口,亲测有效
  8. PJblog教程:无缝滚动友情连接菜单
  9. java为什么用工厂模式_【Java】为什么建议没事不要随便用工厂模式创建对象?...
  10. xbox one 解码_如何将物理键盘连接到Xbox One