文献题目：Scene Graph Prediction with Limited Labels

摘要

诸如视觉基因组之类的视觉知识库为计算机视觉中的众多应用提供了支持，包括视觉问答和字幕，但存在稀疏、不完整的关系。迄今为止，所有场景图模型都仅限于在一小部分视觉关系上进行训练，每个视觉关系都有数千个训练标签。雇用人工注释者的成本很高，并且使用文本知识库完成方法与视觉数据不兼容。在本文中，我们介绍了一种半监督方法，该方法使用少量标记示例为大量未标记图像标记概率关系标签。我们分析视觉关系以提出两种与图像无关的特征，这些特征用于生成嘈杂的启发式方法，其输出使用基于因子图的生成模型进行聚合。每个关系只有 10 个标记示例，生成模型创建足够的训练数据来训练任何现有的最先进的场景图模型。我们证明，对于 PREDCLS，我们的方法在场景图预测方面优于所有基线方法 5.16 召回@100。在我们的有限标签设置中，我们为关系定义了一个复杂度指标，作为我们的方法成功超过转移学习的条件的指标 ( R 2 = 0.778 R^2 = 0.778 R2=0.778)，转移学习是使用有限标签进行训练的事实上的方法。

引言

为了将图像的结构化表示形式化，Visual Genome [27] 定义了场景图，这是一种类似于广泛用于表示知识库 [13,18,56] 的格式。场景图将对象（例如人、自行车）编码为通过成对关系（例如骑行）连接的节点作为边。这种形式化导致了图像字幕[3]、图像检索[25、42]、视觉问答[24]、关系建模[26]和图像生成[23]方面的最先进模型。然而，所有现有的场景图模型都忽略了超过 98% 的没有足够标记实例的关系类别（参见图 2），而是专注于对具有数千个标签的少数关系进行建模 [31、49、54]。
雇用更多的人工是标记关系的无效解决方案，因为图像注释非常繁琐，以至于看似明显的标签没有被注释。为了补充人工注释器，传统的基于文本的知识完成任务利用了许多半监督或远程监督方法 [6, 7, 17, 34]。这些方法从一个小的标记集合中找到句法或词汇模式，以从一个大的未标记集合中提取缺失的关系。在文本中，基于模式的方法是成功的，因为文本中的关系通常与文档无关（例如 <Tokyo - is capital of - Japan>）。视觉关系通常是偶然的：它们取决于它们出现的特定图像的内容。因此，依赖于外部知识或概念上的模式的方法（例如，飞盘旁边的狗的大多数实例都在玩它）不会概括好。由于无法利用基于文本的方法的进步，因此需要专门的视觉知识方法。
在本文中，我们使用小型标记数据集自动生成缺失的关系标签，并使用这些生成的标签来训练下游场景图模型（参见图 1）。我们首先探索如何为关系定义与图像无关的特征，以便它们遵循跨图像的模式。例如，eat 通常由一个对象消耗另一个比自己小的对象组成，而 look 通常由常见对象组成：电话、笔记本电脑或窗口（参见图 3）。这些规则不依赖于原始像素值；它们可以来自与图像无关的特征，例如对象类别和关系中对象之间的相对空间位置。虽然这些规则很简单，但它们为未注释关系提供监督的能力尚未得到探索。虽然与图像无关的特征可以很好地表征某些视觉关系，但它们可能无法捕捉具有高方差的复杂关系。为了量化我们与图像无关的特征的功效，我们定义了测量空间和类别复杂性的“子类型”（第 3 节）。

【计算机视觉】有限标签的场景图预测相关推荐

三维场景图：用于统一语义、三维空间和相机的结构
三维场景图:用于统一语义.三维空间和相机的结构 3D Scene Graph: A structure for uniﬁed semantics, 3D space, and camera 论文链接: ...
论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示
笔记整理:朱珈徵,天津大学硕士链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf 动机现有的视觉语言预训练方法试图通过在大的图像文本数 ...
重磅 | 李飞飞最新演讲：ImageNet后，我专注于这五件事——视觉理解、场景图，段落整合、视频分割及CLEVR数据集
2017中国计算机大会(CNCC2017)于10月26日在福州海峡国际会展中心开幕,大会为期3天. 而就在今天上午,李飞飞.沈向洋.汤道生.马维英等重磅大咖纷纷登台演讲. 据悉,斯坦福大学人工智能实验 ...
【论文极速看】ERNIE-VIL 一种基于场景图解析的多模态表征方法
∇ 联系方式: e-mail: FesianXu@gmail.com github: https://github.com/FesianXu 知乎专栏: 计算机视觉/计算机图形理论与应用微信公众号: ...
重磅 | 李飞飞最新演讲：ImageNet后，我专注于这五件事——视觉理解、场景图，段落整合、视频分割及CLEVR数据集...
2017中国计算机大会(CNCC2017)于10月26日在福州海峡国际会展中心开幕,大会为期3天. 而就在今天上午,李飞飞.沈向洋.汤道生.马维英等重磅大咖纷纷登台演讲. 据悉,斯坦福大学人工智能实验 ...
Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读
摘要场景图反应了人对图像内容的感知,"当人的固有感知习惯存在的时候,会在场景分离过程中存在一个人类偏好的层次结构.它把场景定义成一系列图像区域组成的仿人层次示意图(Hierarchica ...
Competition——ML/DL：机器学习、深度学习各种计算机视觉、自然语言处理、科学预测等等比赛竞赛简介
Competition--ML/DL:机器学习.深度学习各种计算机视觉.自然语言处理.科学预测等等比赛竞赛简介相关内容 Competition--互联网比赛(编程相关):国内外各种互联网比赛举办时间 ...
哈工大SCIR | 场景图生成简述
原创作者:梁家锋郑子豪王禹鑫孙一恒刘铭出处:哈工大SCIR 进NLP群->加入NLP交流群 1 引言场景图是一种结构表示,它将图片中的对象表示为节点,并将它们的关系表示为边.最近,场 ...
计算机视觉——python在一张图中画多条ROC线
在验证分类算法的好坏时,经常需要用到AUC曲线,而在做不同分类模型的对比实验时,需要将不同模型的AUC曲线绘制到一张图里. 计算机视觉--python在一张图中绘制多个模型的对比ROC线 1. 小型分 ...

【计算机视觉】有限标签的场景图预测

摘要

引言

【计算机视觉】有限标签的场景图预测相关推荐

最新文章

热门文章