3D Scene Graph 论文整理

本文会继续更新3D场景图方面的相关内容。

【2019-ICCV 】3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans 【网站】

该论文出自斯坦福大学李飞飞团队，提出了对于3D空间、语义和相机的统一框架，本质是将2D关系数据集Visual Genome拓展到了3D空间，构建的框架图层次如下所示：

该框架主要由四层组成，最下面一层为以建筑物为节点的建筑层，包含了建筑物的类别及属性；往上一层为room层，以每个房间为节点，包含了房间的类别及属性；再往上一层为object层，包含了房间中的每个object的属性及相互关系（包括属于哪个房间的关系）；最上面一层为在相机视角下看到的object层，该层只包含在某一位姿下，相机看到的object的属性及关系。整个层次架构比较符合人类的思维和感知方式。

该统一表示的构建过程主要通过（1）通过全景图像训练2D网络，和（2）通过多视觉一致性进行场景图构建。在训练2D网络时，主要采用了Mask-RCNN获取轮廓，然后用多视觉一致性进行合并。文章还提到了使用亚马逊众包服务进行标注，应该是为了标注空间中出现的关系和属性信息。在该架构中，关系被定义为多种类型，如相对大小、相对位置、遮挡、相邻、是否在同一房间等，且不同架构层次间的关系不同，非常丰富；对于属性的标注包含了功能性属性、类别、区域、位姿、mesh分割结果、大小、纹理、体素占用等，同样非常丰富。在Gibson数据集上生成的场景图也比较炫酷：

整篇文章的思想非常好，通过这种架构可以描述更多现有的表示方式无法表达的信息，但是对于场景图的生成需要经过标注，且整个过程基本是在扫描完全部场景后才进行解析构建，不能实时构建；同样，对于动态环境也没有进行相应处理。该文章还提到，这种节点表示的环境表达方式，更适合机器人导航任务中对环境的理解，由于环境抽象为节点和边，更有利于机器人在不同环境中的泛化能力，但是并没有给出机器人实际应用的实例。
【2019 Trans on cybernetics】 “3-D Scene Graph: A Sparse and Semantic Representation of Physical Environments for Intelligent Agents”

由于现有的环境表示方法，大多只是构建环境的尺度地图或语义地图，并不适用于机器人在3D空间中的任务执行，该文章提出了一种新的三维场景表示方式，即使用节点和边，构建3D环境下的场景图，每个节点表示场景中的物体和属性（颜色，位置），每条边表示物体之间的关系。整个系统框架如下：

该系统在使用首先对输入的图像（不知道为啥选ScanNet数据集，图像都有点模糊）进行去噪，然后使用ElasticFusion和BundleFusion进行位姿估计（当然数据集里包含位姿），再进行关键帧的选取，通过Fast-RCNN进行目标检测，并使用Factorizable Net (F-Net)进行关系检测（其实本质上还是检测的2D图像中的关系，只是将该关系直接作为3D场景的关系）。将检测信息经过虚假检测筛选后组合为局部场景图，然后通过相同节点检测（即分别对两个物体的类别、位置和颜色的相似度进行加权求和，满足一定阈值即为相同节点）进行合并与更新。

在实验验证中，主要验证了精度和适用性两方面（按论文中说，其图结构的稳定性和可拓展性早已被大范围的使用所验证）。该论文使用了ScanNet数据集进行测试，并通过人工评定的方式对实验结果进行判断，主要验证了3D场景图生成的精度。实验结果如下：

对该实验进行复现时，并没有取得论文中所展示的简介效果，而且该数据集场景中的物体复杂性远大于该图示，后面邮件咨询作者，作者解释该实验结果仅使用的该数据集中的部分数据。

对于场景图的适用性的验证，分别利用场景图进行了VQA与任务规划（通过将3D场景图转化为PDDL的输入格式）。

这个demo还比较有意思，其实本质上是调用了PDDL任务规划器的接口，作者只是验证了该3D场景图的表示方式，更容易转化为任务规划器的接口，从而更方便机器人对3D场景进行任务的执行。

该论文作者后面还提出四个方面需要解决的问题：

动态场景。现有场景图构建只针对静态场景，对于如何考虑动态目标（比如人），将更有利于机器人执行任务时对人的安全性。
提升精度和效率。对于框架中的每个模块（位姿估计、目标检测等）都可以进行改进提升，虽然现有的工作可以实时运行，也是只处理关键帧才可以，后面还有很大的性能提升空间。
架构提升。通过端到端的框架，或者整合多个模块为一个的形式是可能的。例如通过多任务学习等方法进行整合。
应用场景。该场景表示方法可以用于盲人对周围场景的理解，从而避免可能的危险；可以帮助3D场景的稠密重构；VQA增强问答功能；任务规划功能也可以更好的拓展。

3.【2020 ArXiv】3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans

该论文在前两篇论文的基础上，提出了动态3D场景图的概念。效果可以参考。该框架的形式如下：

该框架参考了论文一中的层次架构，整个层次分为建筑层（B），房间层（R），房间结构层、物体及智能体层和语义mesh层；同时，该框架的构建也如论文二具有较高操作性，无需人工标注。按照论文所说，这四层结构的确定是根据任务来的。该框架是在Kimera感知框架的基础上建立的，相当于早就把场景语义分割信息处理好了，只是拿过来提取一下即可，当然其中新增了通过聚类对房间范围的感知：

与前两篇文章最大的不同在于，该框架加入了动态目标（主要是人）的检测与追踪，从而消除动态变化的影响：

该文章的实验也是在仿真器中进行，测试了其robustness和expressiveness。这种规模的框架在实际场景中确实很难做实验，其实整个文章还是比较理想的，相当于在一整个仿真环境中监视环境的变化（行人运行），从而可以随时追踪其轨迹：

然而在实际环境中，除非在整个空间布满摄像头，不然不可能如此全方位的检测环境中的动态变化（最理想的情况也就是一个机器人带着摄像头一直跟着一个人，才有可能较全面的更新场景表示，但是动态场景肯定不止一个动态目标）。因此在针对机器人实际任务方面，还是存在很多问题。

在文章的最后，作者提出了四个未来的发展规划，分别是将这种场景表示框架应用于机器人决策规划、人机交互、长期自主运行及场景情况预测。在仿真场景这种全观察的环境下，可以完美构建该框架，对于这四个问题可以深入展开；但是在真实场景这种部分可观测环境中，往往很难做到全面构建该框架和实时更新该框架，对于后面的应用问题也因此较为困难。

【2019】Deep Neural Network-Based Scene Graph Generation for 3D Simulated Indoor Environments

该论文是一篇韩文论文，但是其3D场景图的构建思路还是非常好的。论文中提出，3D场景信息不止包含目标类别，位置和属性也是非常的重要。3D场景图的构建可以用于视觉问答和服务机器人的任务规划。该框架主要围绕目标检测网络ObjNet、属性检测网络AttNet和关系检测网络（转换TransNet和预测RelNet）三个部分进行构建。整体框架如下：

后面内容主要围绕ObjNet、AttNet、TransNet和RelNet进行展开。

其中，ObjNet主要使用了Yolov3；AttNet网络如下所示：

TransNet网络主要用于得到物体的3D bounding box：

而RelNet网络则用于结合前面的检测结果，输出最终的场景图：

实验结果如下图所示：

该论文存在的问题：
1. 实验结果只针对单一图像进行场景图构建，没有涉及整个场景图的构建与更新；
2. 关系检测只有相对于相机的空间关系，并不包含语义关系；
3. 对于场景中物体间的几何关系检测，使用基于规则的方法应该比使用网络训练更加方便；
4. 没有涉及前面论文提到的场景层次结构和动态目标处理，属于最开始提出来的初步成果。

3D语义场景图论文小记相关推荐

MonoScene: 单目3D语义场景补全
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨图灵智库来源丨泡泡机器人SLAM 原文链接: https://arxiv.org/pdf/21 ...
OccDepth：对标 Tesla Occupancy 的开源 3D 语义场景补全⽅法
来源丨旷世研究院开源代码 | https://github.com/megvii-research/OccDepth 论文链接 | https://arxiv.org/abs/2302.13540 ...
Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读
摘要场景图反应了人对图像内容的感知,"当人的固有感知习惯存在的时候,会在场景分离过程中存在一个人类偏好的层次结构.它把场景定义成一系列图像区域组成的仿人层次示意图(Hierarchica ...
三维场景图：用于统一语义、三维空间和相机的结构
三维场景图:用于统一语义.三维空间和相机的结构 3D Scene Graph: A structure for uniﬁed semantics, 3D space, and camera 论文链接: ...
【论文笔记】SSCDNet：弱监督语义场景变化检测模型
本文是论文<Weakly Supervised Silhouette-based Semantic Scene Change Detection>的阅读笔记. 文章提出了一个新颖的弱监督语 ...
用GAN还原语义标注图！还能手动改细节（附论文、代码）
来源:量子位本文长度为2100字,建议阅读5分钟本文为你带来高清版的pix2pix. 输入一张语义地图-- 就能为你还原整个世界: 输入一张亲妈都认不出来的语义标注图-- 为你合成一张真实的人脸. ...
论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示
笔记整理:朱珈徵,天津大学硕士链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf 动机现有的视觉语言预训练方法试图通过在大的图像文本数 ...
【论文极速看】ERNIE-VIL 一种基于场景图解析的多模态表征方法
∇ 联系方式: e-mail: FesianXu@gmail.com github: https://github.com/FesianXu 知乎专栏: 计算机视觉/计算机图形理论与应用微信公众号: ...
场景图生成论文阅读笔记之 Graph R-CNN for Scene Graph Generation
2018 ECCV <Graph R-CNN for Scene Graph Generation> 比较早使用图网络进行场景图生成的论文,对后续工作具有一定的启发性,在这做一记录文章目 ...
IROS2020 | 面向城市自动驾驶应用的概率语义建图
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达摘要统计学习和计算能力的最新进展使自动驾驶技术以更快的速度发展.虽然以前引入的许多体系结构能够在高度 ...

3D语义场景图论文小记

3D Scene Graph 论文整理

3D语义场景图论文小记相关推荐

最新文章

热门文章