计算机视觉一步步发展,从最初的分类、检测、分割来到了更深层的理解: Scene Graph Generation(场景图生成),即开始预测场景中物体之间的关系

Scene Graph简介

原有的检测box或者实例分割的mask不能充分地表达出图片的语义,因为两个相同的box/mask,可能是不同的语义,这个时候需要Scene Graph来能深层地理解图片的语义信息,这为caption、text2imgage等打下基础。


两个发现

Prevalent(普遍) Relations in Visual Genome

VG数据库中主要由这3种关系组成: geometric(几何): 50.9%, possessive(所有格): 40.9% semantic(语义): 8.7%.
然后本文首先从数据库中发现衣服、身体部件大多是所有格关系;家具、建筑大多是几何关系;人大多是语义关系的主语,这些都说明我们在生成SG时有很多先验可以利用

然后本文就做了右图的实验: 我们可以从最高的蓝色曲线看到,给出主语(head)和宾语(tail)的label后(没有任何图片特征,只有类别信息)能够很好地预测出relation(edge),top5时达到了97%的精度。然而给出relation,却很难预测出主语或宾语。这个实验给我们的启发是我们在预测relation时一定要利用主语宾语的类别信息

Larger Motifs(模板)

SG不仅有上文描述的普遍存在的局部结构(先验),全局里也有类似的结构特点。motif我翻译成了模板,即关系对(主语类别,关系,宾语类别)中至少2个一样,不区分instance。比如第一、二个是关系对中的3个都一样。第三个 eye of cat和ear of cat是关系对中的2个(关系和宾语)一样即of cat。第4个中的motif也是关系对中的2个(主语和关系)一样即elephant has,第5个中的motif也是关系对中的2个(主语和宾语)一样即kid snow

motif length代表一张图片中出现某一motif的次数。结果发现,有50%的图片中有长度是2的motif,也就是说某一motif在这些图片中出现一次的情况下,大概率还会出现第二次,就像上图中的elephant has一样,一下出现了4次。这启发我们在预测关系的时候要考虑全局上下文信息,即要考虑全局中出现的motif,它们之间也是有联系的

Framework

该框架分为两个context:

  • object context: 将所有roi的特征送到rnn中进行encoding,得到带有object context的特征,然后这些refine后的特征一方面送到decoder里解码预测类别,另一方面送到edge context那边
  • edge context: 将上一步预测出来的类别embeding后和refine后的特征进行cat然后送入rnn,这样为了给预测关系时用的特征加入context,就是上文说关系和主语宾语的类别十分相关而且图片中的motif经常出现多次

Experiments

注意FREQ这个实验,这是直接拿到faster rcnn生成的box和其类别信息,不用图片的特征,然后就直接从之前统计的P(Relation| Subject, Object)预测这两个box的relation,结果发现竟然已经超过Message Passing方法很多了,之前的方法都是用主语宾语的图片特征,而motif这边的这个baseline发现主语宾语的类别特征更管用(当然类别特征也是从图片特征得到类别后再embeding的)。+OVERLAP是指只预测两个box有overlap的,没有overlap即视为它俩没有关系。

当然用了motif,也就是加了box特征后还是有提高的,加了context后进一步提高。最后对比了一下这些box送入rnn的顺序,按从左到右或者大小或者置信度或者随机,差别不是很大,最后选择了从左到右。

训练细节

  1. 在VG上训练Faster RCNN
  2. 训练relation model部分,模式是sgcls,拿gt box在上一步训练好的aster rcnn上扣特征和得到类别向量,送入relation model进行训练: train_sgcls(训练好就可以测试predcls和sgclsle) 有个疑问: 按理说这个类别向量也应该用gt cls去得到而不是用faster rcnn生成的去送到后面部分训练
  3. 固定relation model参数,refine faster rcnn参数: train_sgdet(训练好就可以测试sgdet了)

Neural Motifs: Scene Graph Parsing with Global Contex解读相关推荐

  1. Neural Motifs: Scene Graph Parsing with Global Contex

    待续 Scene Graph Generation做的是预测物体之间的关系的

  2. [Scene Graph] Neural Motifs: Scene Graph Parsing with Global Context 论文解读

    [Scene Graph] Neural Motifs: Scene Graph Parsing with Global Context (CVPR 2018) 论文解读 简介 这篇文章工作的创新之处 ...

  3. 论文记录:Neural Motifs: Scene Graph Parsing with Global Context (CVPR-18)

    (这里只是记录了论文的一些内容以及自己的一点点浅薄的理解,具体实验尚未恢复.由于本人新人一枚,若有错误以及不足之处,还望不吝赐教) 总结 本文关注的问题是 Scene Graph 的生成.通过观察 V ...

  4. Neural Motifs: Scene Graph Parsing with Global Context (CVPR 2018) 运行复现遇到的一些坑以及解决方法

    写在前面 首先,感谢这篇文章 https://blog.csdn.net/weixin_38651565/article/details/87901172 的作者 @jiayan97 和他有很多交流帮 ...

  5. 论文阅读:Neural Motifs Scene Graph Parsing with Global Context(CVPR18)

    MOTIF把场景图的生成分解成了以下三部分: (1)第一部分:Pr(B | I),给定image输出bounding box,标准的目标检测模型 (2)第二部分:Pr(O | B, I),给定imag ...

  6. 【场景图生成】Graphical Contrastive Losses for Scene Graph Parsing

    文章下载地址:Graphical Contrastive Losses for Scene Graph Parsing 代码地址:https://github.com/NVIDIA/Contrasti ...

  7. 论文Spatial-Temporal Transformer for Dynamic Scene Graph Generation

    最近由于要做SGG方向,恰巧之前保存过这篇论文 2107.12309.pdf (arxiv.org)https://arxiv.org/pdf/2107.12309.pdf 代码地址: GitHub ...

  8. 场景图生成论文阅读笔记 之 Neural Motifs

    CVPR2018 <Neural Motifs: Scene Graph Parsing with Global Context> 文章目录 <Neural Motifs: Scen ...

  9. Learning Visual Commonsense for Robust Scene Graph Generation论文笔记

    原论文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf 目录 总体结构: 感知模型GLAT: 融合感知 ...

最新文章

  1. MSTAR SETBOX 常用API
  2. Office 2016中Excel的部分快捷方式
  3. C语言中字符数组的初始化与注意事项
  4. 春运渡劫?Python 帮你 12306 抢回家的火车票!
  5. 云服务器软件运行出错,云服务器程序运行中出现木马
  6. java中ajax的使用jar包_AJAX Java示例
  7. win10+android+手机驱动,win10系统电脑没有手机驱动的解决方法
  8. MOSEK优化包的安装、使用及注册:以Matlab中的二次规划为例
  9. 服务器lsass系统错误,电脑开机提示lsass.exe系统错误,安全帐户管理器初始化失败该怎么办?...
  10. 软考-信息安全工程师-下午题常考
  11. 学计算机电脑硬盘容量多大好,电脑系统盘应该分多大空间最合适,赶紧学习一下...
  12. linux进程假死的原因_谈谈 Linux 假死现象
  13. C语言oj统计衣服尺寸,如何测量衣服尺寸?
  14. python猜字游戏
  15. igraph与netwrokx的转换
  16. VIPKID大米网校“学费交多少,由家长说了算”背后的实力自信
  17. Bilibili综合分析
  18. adb不是内部或外部命令,AndroidStudio中ADB命令不能用的问题
  19. android高德地图线路,独立路径规划-路线规划-开发指南-Android 导航SDK | 高德地图API...
  20. 最大不相交子集 POJ1328

热门文章

  1. DenseVoxNet读书笔记
  2. tomcat是干嘛的
  3. 电脑显示器花屏了该如何解决?光影使者 myblogfree
  4. 网络营销(9.20)
  5. 电动汽车交流充电唤醒全剖析
  6. [转载]JBuilder2005创建开发文档之编写注释
  7. 软件测试培训费用多少?
  8. painter12在mac上解决延迟
  9. python+vue+elementui口腔牙齿健康保健网站java
  10. 你以为SOPA 和PIPA 被打败了?