FactorizableNet(ECCV2018)

文章
  Paper认为目前有两种生成scene graph的方法,一种是two-stage的,先把object检测到(包括类别),然后再recognize他们之间的关系,另一种是基于region proposal对object的类别和他们之间的relation进行联合推理。两种方法的共同之处是都会用到object pair的union box的特征作为phrase feature,这个特征包括cnn特征和spatial特征,后者往往由mask体现。一个很常见的事实是,很多object pair的union box非常接近,因此他们的cnn feature也就是很接近的,于是一个自然的想法是让具有相似region(union box)的object pair共享cnn特征

  1. 首先通过RPN得到region proposal
  2. 构建了fully-connected graph,可以看到图中这几个object pair的union box很接近,因此将它们cluster成了一个subgraph
  3. 将fully-connected graph转换成了基于subgraph的graph,红色圆形代表object box,绿色方形代表shared union box
  4. 用roi pooling得到object feature和subgraph feature
  5. 使用paper提出的spatial-weight message passing对这些特征进行refine
  6. 对object和relation进行recognize

  要讲region proposal的数量控制得合适,虽然更多的proposal可能带来更高的recall和更复杂的scene graph,但是这可能会很影响模型的训练和推理速度,而合并subgraph的操作,可以减少这种复杂度,因为减少了图的节点的数目,大大缓解了message passing的运算复杂度和内存使用,增大运算速度,或者可以增加更多的proposal,保持运算速度不变的情况下,处理更多的proposal,提高scene graph的质量。
  值得一提的是虽然paper删除了很多冗余的union box,但并没有prune掉任何object pair,因此和ViP-CNN还有Graph R-CNN等采用triplet NMS的方法不一样,不会减少object pair candidate,从而不会影响模型的potential。
  还有,其它论文的phrase feature除了union box的卷积特征外,还有两个object的mask包含了spatial的信息。这对于每个object pair都是不一样的,paper为了实现shared representation,抛弃了显式地使用spatial mask的方法,而是使用内积注意力机制和2D的subgraph特征来保证spatial的信息
  另外关于object feature和subgraph feature,前者和其他论文一样使用feature vector表示,而后者在本paper中则是使用2D feature表示。因此在RoI pooling之后object feature和subgraph feature分别使用全连接层和卷积层处理。
1)Object feature refining:
对于第i个object,假设与之相连的subgraph有m个,首先将m个subgraph的2D特征进行avg pooling,然后将其变换(FC)到object空间并利用内积得到attention vector,将所有avg pooling之后的特征按attention vector加权求和并变换到object空间(FC),最后和object feature相加得到refined feature.

2)Subgraph feature refining:
假设一个subgraph与k个object相连,也就是说它的bbox会包含多个object,因此要用这些object的特征来refine该subgraph的特征的话,必须考虑每个object在subgraph中的位置,因此先**将每个object转换到subgraph空间(FC)后,用内积得到attention map,其通道数为k,attention map的每个位置对应的k维向量代表k个object在refine该subgraph feature时对该位置的贡献大小,于是按照这个attention map对k个object feature加权求和,然后变换到subgraph空间(conv)**之后与原feature相加即可。

论文阅读:Factorizable Net: An Efficient Subgraph-based Framework for Scene Graph Generation相关推荐

  1. 【论文阅读】An Iterative Instance Selection Based Framework for Multiple-Instance Learning

    题目 An Iterative Instance Selection Based Framework for Multiple-Instance Learning 一种基于迭代实例选择的多示例学习框架 ...

  2. 论文阅读06——《CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network for Clustering》

    欢迎到我的个人博客看原文 论文阅读06--<CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network f ...

  3. 论文阅读:Target Adaptive Context Aggregation for Video Scene Graph Generation

    Target Adaptive Context Aggregation for Video Scene Graph Generation 视频场景图中的目标自适应上下文聚合 论文地址:https:// ...

  4. 场景图生成论文阅读笔记 之 Graph R-CNN for Scene Graph Generation

    2018 ECCV <Graph R-CNN for Scene Graph Generation> 比较早使用图网络进行场景图生成的论文,对后续工作具有一定的启发性,在这做一记录 文章目 ...

  5. 论文Spatial-Temporal Transformer for Dynamic Scene Graph Generation

    最近由于要做SGG方向,恰巧之前保存过这篇论文 2107.12309.pdf (arxiv.org)https://arxiv.org/pdf/2107.12309.pdf 代码地址: GitHub ...

  6. Learning Visual Commonsense for Robust Scene Graph Generation论文笔记

    原论文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf 目录 总体结构: 感知模型GLAT: 融合感知 ...

  7. 论文阅读:A deep multimodal network based on bottleneck layer features fusion for action recognition

    摘要:提出了一个深度瓶颈多模式特征融合(D-BMFF)框架,融合RGB.RGB- d(深度)和三维坐标信息三种不同的模式进行活动分类.在四个数据集: UT-Kinect, CAD-60, Floren ...

  8. 论文阅读 Contrastive Learning-Based Dual Dynamic GCN for SAR Image Scene Classification (TNNLS2022)

    论文标题 Contrastive Learning-Based Dual Dynamic GCN for SAR Image Scene Classification 论文作者.链接 作者: Liu, ...

  9. 论文阅读:HybridAlpha: An Efficient Approach for Privacy-Preserving Federated Learning

    论文名字 HybridAlpha: An Efficient Approach for Privacy-Preserving Federated Learning 来源 会议 the 12th ACM ...

  10. 论文阅读之《CrowdPose: Efficient Crowded Scenes Pose Estimation and A new Benchmark》

    介绍 近日,上海交通大学电子信息与电气工程学院卢策吾团队(MVIG组)的论文<CrowdPose: Efficient Crowded Scenes Pose Estimation and A ...

最新文章

  1. 2012年我的十大工程9——形象工程
  2. 汇编: 使用[bx]代替[0]获取内存数据
  3. CTFshow php特性 web103
  4. python无法识别vim中文代码
  5. String类中IndexOf与SubString
  6. 第一行代码(第二版)全书代码下载
  7. 为什么不用php做系统吗,IT行业:为什么大部分人都不认可php语言呢?
  8. EasyExcel导出excel(写)
  9. malformed utf-8 characters, possibly incorrectly encoded
  10. pytorch 中 torch.optim.Adam
  11. adf4351 锁相环相关硬件设计
  12. 全球及中国卫星产业应用建设布局及投资机会分析报告2022-2028年版
  13. Python修改桌面分辨率
  14. CentOS最新版本与历史版本下载
  15. android自定义Dcloud插件,调用android原生界面并获取返回数据
  16. C++线程学习4,多线程通信和同步
  17. Excel 当前行高亮
  18. Java设计模式中组合模式是什么/树形结构怎么组合或显示存储,编程怎么实现树形结构
  19. 606.根据二叉树创建字符串
  20. 元宇宙瞎想,现在手机弄个抖音啥的都戒不掉,以后元宇宙估计更上瘾了,有时间还是静静的看书学习更好

热门文章

  1. Xcelsius 2008 在win10 64位系统下 基于OFFICE2010-x64 的安装
  2. 残差、方差、偏差、MSE均方误差、Bagging、Boosting、过拟合欠拟合和交叉验证
  3. 建立windows文件夹快捷方式
  4. 静态类型语言、动态类型语言、强类型定义语言、弱类型定义语言、编译型语言、解释型语言...
  5. 如何在MATLAB下载附加功能(下载Min-GW总结)
  6. VUE3 Composition API详解
  7. 雷霆传奇linux源码,【雷霆传奇H5服务端】2020.07首发超漂亮大翅膀传奇网页游戏客户端[附超详细搭建教程]...
  8. Android手机车牌识别OCR
  9. Amaze UI的分页设计
  10. css向右箭头形状按钮,详解Bootstrap的纯CSS3箭头按钮样式