Visual Relationship Detection with Language Priors(ECCV2016)

文章
尽管大多数的relationship并不常见，但是它们的object和predicate却更频繁地独立出现。paper用这个insight分别独立训练训练object和predicate的模型，然后再进行组合来预测relationship。Visual relationship detection的一个基础挑战在于要从很少的样本进行学习。
paper的另一个发现是，relationship之间有semantic的关联。比如person riding a horse和person riding an elephant在语义上式相似的，因为horse和elephant都是animal，即使模型没有见过很多person riding an elephant，也可以从person riding a horse进行推断。
一方面，本文的方法会学习object和predicate的外观模型；另一方面，会使用从language学习到的relationship embedding space。
visual relation detection中的long-tail现象，只有很少一部分relationship是频繁出现的，许多不常出现的relationship构成了long tail。
学习visual phrase模型对于object个体的检测是有帮助的，比如检测a person riding a horse有助于提高person和horse的检测和定位。
整体的框架如下：

视觉外观模型:
训练一个卷积网络用以物体分类，另一个卷积网络接收union box为输入进行predicate分类。模型的公式如下：

其中i，j代表物体类别，k代表predicate类别。

语言模型： insight是relationship之间是有语义联系的。语言模型将relationship都映射到了一个embedding space，在其中相似的relationship会很近。具体的细节如下：

l 映射函数projection function：
使用预先训练的词向量word vectors，将参与relationship的两个object转换到embedding space，然后将两个vector进行concat在用一个映射函数W转换到relationship vector space

其中w_k为600维，t为300维，每个k得到一个score。

l 训练映射函数：
我们希望映射函数f能将相似的relationship映射得更近，比如希望 (man-riding-horse) 离(man-riding-cow)近，但离(car-has-wheel)远。我们用一个启发式的方法来对这个问题进行建模，希望两个relationship之间的距离和它们的对应objects以及predicate之间的word2vec距离成正比。

d是两个relationship的object和predicate在word2vec space的cosine距离之和。为了得到上式的结果，也就是我们希望W能使所有的R参与上面的计算得到的constant是很接近的，因此想办法优化方差var，采样数目设为500K，最小化方差

l 关系的似然likelihood of a relationship：
映射函数的结果应该能够理想地反映一个visual relationship的似然。比如模型不应该给(dog-drive-car)一个高的似然，因为这几乎不可能发生。基本想法是希望训练集中出现频率越高的relationship的似然也应该更大，paper用一个rank loss来建模

注意其中R比R’出现的更频繁，所以希望

l 目标函数objective function：

这个优化函数能使ground truth relationship的rank大。最终的objective function为：

K是关于W的双二次方程，有二次闭式解，在C和L上使用随机梯度下降法，大约迭代20-25次收敛。双二次方程指的是只含偶次项的多项式。

测试方式：先用RCNN生成candidate object proposals，RCNN是会判断object类别的，然后对每对object pair都用appearance model和language model预测relationship。

因为每张image平均有70个predicates和18个objects，数据集的object总类别数为100，predicate总类别数为70，因此总共可能的relationship数目为100x70x100，于是如果随机猜测的话，recall@100为0.00014(咋算出来的啊？反正就是很低吧)。为什么不用mAP呢，因为数据集没有包含所有可能的关系，假如检测出一个正确的关系(person - taller than - person)，但是由于数据集中未标注该关系，因此mAP此时会受到惩罚。
此外，为了验证组件的性能，paper做了一系列的对比实验，但是由于是2016的会议论文了，效果肯定不如现在的，但能一定程度反应它本身方法的合理性。

scene graph（relation detection）还有一个很重要的作用是图像检索（image retrieval），用对图像的高层次的理解来检索图像。这也是最开始Justin Jonhson在论文“IRetrieval using Scene Graphs”提出scene graph的原因。比如下面就是检索效果

最后值得一提的是，paper还组织人做了和算法测试相同的实验，随机选择了1000个object pair让被测试者判断属于70中predicate中的哪一种，人类能达到98.1%的recall@50和96.4%的mAP。

论文阅读：Visual Relationship Detection with Language Priors相关推荐

＜Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation＞论文阅读
论文链接:论文论文简介: 这是一篇CVPR2018的论文,主要针对的是Visual Relationship Detection任务.论文主要利用谓词及<object,subject>对 ...
【论文阅读】 Object Detection in 20 Years: A Survey
[论文阅读]Object Detection in 20 Years: A Survey 摘要论文介绍 1.目标检测 2.目标检测的里程碑 3.数据集 4.性能度量摘要本篇博客参考Object ...
基于dota的目标检测（旋转框）论文阅读Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors
基于dota的目标检测(旋转框)|论文阅读Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors 文章目录 ...
论文阅读：Can Generative Pre-trained Language Models Serve As Knowledge Bases for Closed-book QA
论文阅读:Can Generative Pre-trained Language Models Serve As Knowledge Bases for Closed-book QA 来源:ACL 2 ...
论文阅读 R-FCN: Object Detection via Region-based Fully Convolutional Networks
本文转载自: http://www.cnblogs.com/lillylin/p/6277094.html R-FCN论文阅读(R-FCN: Object Detection via Region-b ...
视觉伺服入门第二步：带你从经典论文阅读Visual Servo Control Part II: Advanced Approaches进阶版
文章目录经典比例控制方案系统稳定性分析计算图像雅克比矩阵原理 Interaction matrix of a 3D point Interaction matrix of a 2D point ...
论文阅读：Contextual Translation Embedding for Visual Relationship Detection and SGG(PAMI2020)
还是论文题目太长打不下了(SGG:场景图生成) 中心思想:p≈u-s-o 1.目标检测 2.视觉特征提取出于对论文上下文的理解,我觉得这里的主客体特征应该融合了fasterrcnn提取的视觉特征和主 ...
ECCV2020 | 论文阅读——Arbitrary-Oriented Object Detection with Circular Smooth Label
CSL基于圆形平滑标记的任意方向目标检测 Abstract 1 Introduction 2 Related Work 3 Proposed Method 3.1 Regression-based R ...
论文阅读：A Neural Probabilistic Language Model 一种神经概率语言模型
A Neural Probabilistic Language Model 一种神经概率语言模型目录 A Neural Probabilistic Language Model 一种神经概率语言模型 ...

论文阅读：Visual Relationship Detection with Language Priors

Visual Relationship Detection with Language Priors(ECCV2016)

论文阅读：Visual Relationship Detection with Language Priors相关推荐

最新文章

热门文章