Visual Relationship Detection with Language Priors(ECCV2016)

文章
  尽管大多数的relationship并不常见,但是它们的object和predicate却更频繁地独立出现。paper用这个insight分别独立训练训练object和predicate的模型,然后再进行组合来预测relationship。Visual relationship detection的一个基础挑战在于要从很少的样本进行学习。
  paper的另一个发现是,relationship之间有semantic的关联。比如person riding a horse和person riding an elephant在语义上式相似的,因为horse和elephant都是animal,即使模型没有见过很多person riding an elephant,也可以从person riding a horse进行推断。
  一方面,本文的方法会学习object和predicate的外观模型;另一方面,会使用从language学习到的relationship embedding space。
  visual relation detection中的long-tail现象,只有很少一部分relationship是频繁出现的,许多不常出现的relationship构成了long tail。
  学习visual phrase模型对于object个体的检测是有帮助的,比如检测a person riding a horse有助于提高person和horse的检测和定位。
  整体的框架如下:

视觉外观模型:
训练一个卷积网络用以物体分类,另一个卷积网络接收union box为输入进行predicate分类。模型的公式如下:

其中i,j代表物体类别,k代表predicate类别。

语言模型: insight是relationship之间是有语义联系的。语言模型将relationship都映射到了一个embedding space,在其中相似的relationship会很近。具体的细节如下:

l 映射函数projection function:
使用预先训练的词向量word vectors,将参与relationship的两个object转换到embedding space,然后将两个vector进行concat在用一个映射函数W转换到relationship vector space

其中w_k为600维,t为300维,每个k得到一个score。

l 训练映射函数:
我们希望映射函数f能将相似的relationship映射得更近,比如希望 (man-riding-horse) 离(man-riding-cow)近,但离(car-has-wheel)远。我们用一个启发式的方法来对这个问题进行建模,希望两个relationship之间的距离和它们的对应objects以及predicate之间的word2vec距离成正比。

d是两个relationship的object和predicate在word2vec space的cosine距离之和。为了得到上式的结果,也就是我们希望W能使所有的R参与上面的计算得到的constant是很接近的,因此想办法优化方差var,采样数目设为500K,最小化方差

l 关系的似然likelihood of a relationship:
映射函数的结果应该能够理想地反映一个visual relationship的似然。比如模型不应该给(dog-drive-car)一个高的似然,因为这几乎不可能发生。基本想法是希望训练集中出现频率越高的relationship的似然也应该更大,paper用一个rank loss来建模

注意其中R比R’出现的更频繁,所以希望

l 目标函数objective function:

这个优化函数能使ground truth relationship的rank大。最终的objective function为:

K是关于W的双二次方程,有二次闭式解,在C和L上使用随机梯度下降法,大约迭代20-25次收敛。双二次方程指的是只含偶次项的多项式。

  测试方式:先用RCNN生成candidate object proposals,RCNN是会判断object类别的,然后对每对object pair都用appearance model和language model预测relationship。

  因为每张image平均有70个predicates和18个objects,数据集的object总类别数为100,predicate总类别数为70,因此总共可能的relationship数目为100x70x100,于是如果随机猜测的话,recall@100为0.00014(咋算出来的啊?反正就是很低吧)。为什么不用mAP呢,因为数据集没有包含所有可能的关系,假如检测出一个正确的关系(person - taller than - person),但是由于数据集中未标注该关系,因此mAP此时会受到惩罚。
  此外,为了验证组件的性能,paper做了一系列的对比实验,但是由于是2016的会议论文了,效果肯定不如现在的,但能一定程度反应它本身方法的合理性。

  scene graph(relation detection)还有一个很重要的作用是图像检索(image retrieval),用对图像的高层次的理解来检索图像。这也是最开始Justin Jonhson在论文“IRetrieval using Scene Graphs”提出scene graph的原因。比如下面就是检索效果

  最后值得一提的是,paper还组织人做了和算法测试相同的实验,随机选择了1000个object pair让被测试者判断属于70中predicate中的哪一种,人类能达到98.1%的recall@50和96.4%的mAP。

论文阅读:Visual Relationship Detection with Language Priors相关推荐

  1. <Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation>论文阅读

    论文链接:论文 论文简介: 这是一篇CVPR2018的论文,主要针对的是Visual Relationship Detection任务.论文主要利用谓词及<object,subject>对 ...

  2. 【论文阅读】 Object Detection in 20 Years: A Survey

    [论文阅读]Object Detection in 20 Years: A Survey 摘要 论文介绍 1.目标检测 2.目标检测的里程碑 3.数据集 4.性能度量 摘要 本篇博客参考Object ...

  3. 基于dota的目标检测(旋转框)论文阅读Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors

    基于dota的目标检测(旋转框)|论文阅读Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors 文章目录 ...

  4. 论文阅读:Can Generative Pre-trained Language Models Serve As Knowledge Bases for Closed-book QA

    论文阅读:Can Generative Pre-trained Language Models Serve As Knowledge Bases for Closed-book QA 来源:ACL 2 ...

  5. 论文阅读 R-FCN: Object Detection via Region-based Fully Convolutional Networks

    本文转载自: http://www.cnblogs.com/lillylin/p/6277094.html R-FCN论文阅读(R-FCN: Object Detection via Region-b ...

  6. 视觉伺服入门第二步:带你从经典论文阅读Visual Servo Control Part II: Advanced Approaches进阶版

    文章目录 经典比例控制方案 系统稳定性分析 计算图像雅克比矩阵原理 Interaction matrix of a 3D point Interaction matrix of a 2D point ...

  7. 论文阅读:Contextual Translation Embedding for Visual Relationship Detection and SGG(PAMI2020)

    还是论文题目太长打不下了(SGG:场景图生成) 中心思想:p≈u-s-o 1.目标检测 2.视觉特征提取 出于对论文上下文的理解,我觉得这里的主客体特征应该融合了fasterrcnn提取的视觉特征和主 ...

  8. ECCV2020 | 论文阅读——Arbitrary-Oriented Object Detection with Circular Smooth Label

    CSL基于圆形平滑标记的任意方向目标检测 Abstract 1 Introduction 2 Related Work 3 Proposed Method 3.1 Regression-based R ...

  9. 论文阅读:A Neural Probabilistic Language Model 一种神经概率语言模型

    A Neural Probabilistic Language Model 一种神经概率语言模型 目录 A Neural Probabilistic Language Model 一种神经概率语言模型 ...

最新文章

  1. Makefile 使用总结
  2. 八条是阿里6万工程师正在重点攻克的难关
  3. android如何添加gif,Android加载Gif和ImageView的通用解决方案:android-gif-drawable(1)...
  4. 如何使用C来扩展python功能。
  5. u3d资源打包只能打包场景材质,不能打包脚本
  6. 每日两SQL(2),欢迎交流~
  7. SDH与PDH的区别介绍
  8. 邮箱伪造漏洞、钓鱼邮件漏洞(未添加SPF导致)
  9. Axure电商后台业务管理系统原型模板+app电商原型交互+移动端电商通用PRD文档+全局交互用例说明+Axure高保真电商社交prd文档
  10. stl之multiset容器的应用
  11. Scala:函数式编程之下划线underscore
  12. 移动APP之专项测试
  13. 贪吃蛇php代码下载,C语言贪吃蛇代码
  14. mysql按键精灵接口,mysql,按键精灵,读取写入
  15. 统计物理中积分计算和态密度计算要点
  16. 2020数学建模国赛A题思路与代码(全)
  17. v-model 自带绑定的number 、lazy 、debounce属性
  18. 捕捉“五一劳动节”海报设计灵感
  19. Beautiful Soup 基础入门(实验楼学习笔记2)
  20. mdpda软件客户端_摇摇彩票mdpda

热门文章

  1. 论语 --- 学而第一
  2. 台式计算机质量检测标准,电脑机箱及整机外观检验标准.pdf
  3. raid5数据丢失后应该怎么做才能提高数据恢复成功率?
  4. html5在线客服源码 websocket c# socket 实现,可扩展 im 即时通讯 完整的源代码,在线聊天
  5. 老周语录-做出好产品的关键
  6. Clickhouse Live View
  7. 新手建站如何选择云服务器配置?以阿里云ecs云服务器为例说明
  8. 七种促进睡眠的好方法,让你改善睡眠质量
  9. 想要学习嵌入式开发选择教程哪家好?
  10. 阿里云OSS图床搭建方法