NIPS 2018

《LinkNet: Relational Embedding for Scene Graph》

文章目录

  • 《LinkNet: Relational Embedding for Scene Graph》
    • 文章贡献:
    • 本文创新:
    • 网络结构:
      • 1、 Global Context Encoding Module 全局上下文信息编码模块
      • 2、 Relational Embedding Module 关系嵌入模块 (重点)
      • 3、 Geometric Layout Encoding Module 空间位置编码模块
      • 4、 关系推断
    • 实验结果

文章贡献:

提出了基于CNN的LinkNet结构,在结构中引入了卷积自注意力机制,最终结果超越MotifsNet达到了当时的SOTA

本文创新:

引入了自注意力机制
② 目标在作为主语和宾语时的特征是不同的(即提取目标特征过程中是受其它目标影响的)
③ 和Motifs Net相似,分为多阶段进行,并利用了目标的类别标签信息
④ 结合了目标的空间位置信息

注:后两点严格来说不算是本文的创新点,是参考了其它论文的方法

网络结构:

整体网络主要可以划分为三个模块:
① Global Context Encoding Module 全局上下文信息编码模块
② Relational Embedding Module 关系嵌入模块 (重点)
③ Geometric Layout Encoding Module 空间位置编码模块

1、 Global Context Encoding Module 全局上下文信息编码模块

这一部分与其他论文里的做法是相似的,甚至更简单一些。对RPN过后的全局特征图进行AvgPool(全局平均池化)得到context Feature向量c,然后将c拼到每个RoI特征向量的后面即可。
不过这一模块还存在另一分支:将c通过全连接层得到一个作者称为multi-label distribution的向量M’,其元素都是0或1,(表示整张图里的所有类别?)然后可以使用M’与真实标签计算multi-label object classification (gce loss) 损失,可以优化c

2、 Relational Embedding Module 关系嵌入模块 (重点)

关系嵌入模块主要是由relational Embedding子模块+全连接层堆叠起来的,而relational Embedding子模块本质就是一个卷积自注意力模块,文中给出的计算公式如下:

与卷积自注意力的操作可以说是完全一样。

在经过两个 relational Embedding+FC的处理后得到了向量O4,然后将O4每行通过argmax操作得到了编码矩阵O4’ (N×类别数,每一行是独热编码的形式), 这就是目标的类别信息
然后再与O3拼接得到矩阵E0,然后输入到下面的模块中。
再来一遍相似的过程,最终得到了N×8192的矩阵E1,每行对应一个目标的作为主语、宾语的特征向量

3、 Geometric Layout Encoding Module 空间位置编码模块

每一个目标对都计算一个位置编码,计算公式如下:

o指object,s指subject
总共由N(N-1)个组成一个矩阵,这个矩阵最后会用于推断relational中。

4、 关系推断

有了上面的各部分的输出,关系推断部分操作就相对简单了,这里直接贴原文:

实验结果


超越了MotifNet达到了当时的SOTA

场景图生成论文阅读笔记 之 LinkNet: Relational Embedding for Scene Graph相关推荐

  1. 场景图生成论文阅读笔记 之 Graph R-CNN for Scene Graph Generation

    2018 ECCV <Graph R-CNN for Scene Graph Generation> 比较早使用图网络进行场景图生成的论文,对后续工作具有一定的启发性,在这做一记录 文章目 ...

  2. 场景图生成论文阅读笔记 之 Neural Motifs

    CVPR2018 <Neural Motifs: Scene Graph Parsing with Global Context> 文章目录 <Neural Motifs: Scen ...

  3. 毫米波点云生成论文 阅读笔记 | 3D Point Cloud Generation with Millimeter-Wave Radar

    毫米波点云生成论文 | 3D Point Cloud Generation with Millimeter-Wave Radar Kun Qian, Zhaoyuan He, Xinyu Zhang ...

  4. (sketch to image) 论文阅读笔记 SketchyCOCO:Image Generation from Freehand Scene Sketches

    Task Description:根据sketch生成全景图 Input: 包含前景sketch(如上图中的斑马,长颈鹿,大象等)和背景sketch(如草-草地,白云-天空,树-森林等)的全景级fre ...

  5. 医学报告生成论文阅读笔记

    1.Transformers in Medical Imaging: A Survey 综述了Transformers在医学图像分割.检测.分类.重建.合成.配准.临床报告生成和其他任务中的应用. S ...

  6. Node2Vec图神经网络论文阅读笔记

    数据集 斯坦福图神经网络数据集snap是Jure等人不间断收集的网络数据集,极大地推动了社交网络领域的发展. 数据集可能存在一些指标或性质说明需要在使用之前先理解: Average clusterin ...

  7. 图割论文阅读笔记:“GrabCut” — Interactive Foreground Extraction using Iterated Graph Cuts

    "GrabCut" - Interactive Foreground Extraction using Iterated Graph Cuts 摘要 经典的图像分割使用纹理(颜色) ...

  8. LCQuAD2.0-问题数据集生成-论文阅读笔记

    前导 本数据集的主要借助了亚马逊的众包平台,因此在理解本文之前,推荐去了解一下AmazonMechanical Turk workflow 目标 生成大规模的问题,并且需要保证使用大规模的sqarql ...

  9. AutoToon_ WACV_2020 自动几何扭曲的脸卡通生成论文阅读笔记

    AutoToon_ WACV_2020 好了 进入正题 话不多说 快上车 AutoToon: Automatic Geometric Warping for Face Cartoon Generati ...

  10. 文本检测 论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

    Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks 摘要:最近语义分割和通用对象检测框架已被场景广泛采用文 ...

最新文章

  1. bufferedreader读取中文乱码_Python读取excel的两种方法
  2. pentaho中Invalid byte 3 of 3-byte UTF-8 sequence的解决方法
  3. mujava 软件测试实验报告
  4. mysql数据回滚占用id吗_mysqlbing 回滚数据问题
  5. 看完这个你还不理解右值引用和移动构造 你就可以来咬我(上)
  6. springmvc sends and receives data by ajax request using json format
  7. java signed_如何从java中的字节读取signed int?
  8. CVE-2021-30116: Kaseya VSA 远程代码执行漏洞
  9. SAP License:SAP软件功能有哪些?
  10. c语言中cot函数图像,cot函数图像
  11. 简单使用linux感受,linux小白说说用linux的感受
  12. 【Animations】使用弹簧物理学动画运动(8)
  13. contiki list 链表
  14. 不过确实setNString 也可以解决这个??问题,但是解决不了模糊匹配问题 原因不清楚...
  15. Dubbo分析之Registry层
  16. 纯css实现三角原理,兼容IE
  17. 积化和差、和差化积公式及记忆
  18. 三维形体的数据结构(1)半边数据结构
  19. echarts-----修改折线图背景横线
  20. 武汉星起航跨境电商到底靠不靠谱?亚马逊跨境收款方式有哪些?

热门文章

  1. 如何申请公众号的专属微社区?
  2. 使用C# .net开发微信公众号之设置所属行业
  3. Linux 系统Error starting userland proxy: listen tcp4 0.0.0.0:xx端口: bind: address already in use的端口占用问题
  4. Docker 启动nginx报错Error starting userland proxy: listen tcp 0.0.0.0:80: bind: address already in use.
  5. U8glib学习使用(详细版)
  6. 英语句子主干成分分析
  7. 计算机新手必备知识,新手怎么查看电脑配置,购机必备知识!
  8. apache ftpserver 被动模式配置
  9. 无服务器搭建Artalk评论系统后端
  10. 华为OJ——将真分数分解为埃及分数