3D Scene Graph 论文整理

本文会继续更新3D场景图方面的相关内容。

  1. 【2019-ICCV 】3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans 【网站】

    ​ 该论文出自斯坦福大学李飞飞团队,提出了对于3D空间、语义和相机的统一框架,本质是将2D关系数据集Visual Genome拓展到了3D空间,构建的框架图层次如下所示:

    ​ 该框架主要由四层组成,最下面一层为以建筑物为节点的建筑层,包含了建筑物的类别及属性;往上一层为room层,以每个房间为节点,包含了房间的类别及属性;再往上一层为object层,包含了房间中的每个object的属性及相互关系(包括属于哪个房间的关系);最上面一层为在相机视角下看到的object层,该层只包含在某一位姿下,相机看到的object的属性及关系。整个层次架构比较符合人类的思维和感知方式。

    ​ 该统一表示的构建过程主要通过(1)通过全景图像训练2D网络,和(2)通过多视觉一致性进行场景图构建。在训练2D网络时,主要采用了Mask-RCNN获取轮廓,然后用多视觉一致性进行合并。文章还提到了使用亚马逊众包服务进行标注,应该是为了标注空间中出现的关系和属性信息。在该架构中,关系被定义为多种类型,如相对大小、相对位置、遮挡、相邻、是否在同一房间等,且不同架构层次间的关系不同,非常丰富;对于属性的标注包含了功能性属性、类别、区域、位姿、mesh分割结果、大小、纹理、体素占用等,同样非常丰富。在Gibson数据集上生成的场景图也比较炫酷:

    ​ 整篇文章的思想非常好,通过这种架构可以描述更多现有的表示方式无法表达的信息,但是对于场景图的生成需要经过标注,且整个过程基本是在扫描完全部场景后才进行解析构建,不能实时构建;同样,对于动态环境也没有进行相应处理。该文章还提到,这种节点表示的环境表达方式,更适合机器人导航任务中对环境的理解,由于环境抽象为节点和边,更有利于机器人在不同环境中的泛化能力,但是并没有给出机器人实际应用的实例。

  2. 【2019 Trans on cybernetics】 “3-D Scene Graph: A Sparse and Semantic Representation of Physical Environments for Intelligent Agents”

    ​ 由于现有的环境表示方法,大多只是构建环境的尺度地图或语义地图,并不适用于机器人在3D空间中的任务执行,该文章提出了一种新的三维场景表示方式,即使用节点和边,构建3D环境下的场景图,每个节点表示场景中的物体和属性(颜色,位置),每条边表示物体之间的关系。整个系统框架如下:

该系统在使用首先对输入的图像(不知道为啥选ScanNet数据集,图像都有点模糊)进行去噪,然后使用ElasticFusion和BundleFusion进行位姿估计(当然数据集里包含位姿),再进行关键帧的选取,通过Fast-RCNN进行目标检测,并使用Factorizable Net (F-Net)进行关系检测(其实本质上还是检测的2D图像中的关系,只是将该关系直接作为3D场景的关系)。将检测信息经过虚假检测筛选后组合为局部场景图,然后通过相同节点检测(即分别对两个物体的类别、位置和颜色的相似度进行加权求和,满足一定阈值即为相同节点)进行合并与更新。

​ 在实验验证中,主要验证了精度和适用性两方面(按论文中说,其图结构的稳定性和可拓展性早已被大范围的使用所验证)。该论文使用了ScanNet数据集进行测试,并通过人工评定的方式对实验结果进行判断,主要验证了3D场景图生成的精度。实验结果如下:



对该实验进行复现时,并没有取得论文中所展示的简介效果,而且该数据集场景中的物体复杂性远大于该图示,后面邮件咨询作者,作者解释该实验结果仅使用的该数据集中的部分数据。

​ 对于场景图的适用性的验证,分别利用场景图进行了VQA与任务规划(通过将3D场景图转化为PDDL的输入格式)。

这个demo还比较有意思,其实本质上是调用了PDDL任务规划器的接口,作者只是验证了该3D场景图的表示方式,更容易转化为任务规划器的接口,从而更方便机器人对3D场景进行任务的执行。

​ 该论文作者后面还提出四个方面需要解决的问题:

  1. 动态场景。现有场景图构建只针对静态场景,对于如何考虑动态目标(比如人),将更有利于机器人执行任务时对人的安全性。
  2. 提升精度和效率。对于框架中的每个模块(位姿估计、目标检测等)都可以进行改进提升,虽然现有的工作可以实时运行,也是只处理关键帧才可以,后面还有很大的性能提升空间。
  3. 架构提升。通过端到端的框架,或者整合多个模块为一个的形式是可能的。例如通过多任务学习等方法进行整合。
  4. 应用场景。该场景表示方法可以用于盲人对周围场景的理解,从而避免可能的危险;可以帮助3D场景的稠密重构;VQA增强问答功能;任务规划功能也可以更好的拓展。

3.【2020 ArXiv】3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans

​ 该论文在前两篇论文的基础上,提出了动态3D场景图的概念。效果可以参考。该框架的形式如下:

​ 该框架参考了论文一中的层次架构,整个层次分为建筑层(B),房间层(R),房间结构层、物体及智能体层和语义mesh层;同时,该框架的构建也如论文二具有较高操作性,无需人工标注。按照论文所说,这四层结构的确定是根据任务来的。该框架是在Kimera感知框架的基础上建立的,相当于早就把场景语义分割信息处理好了,只是拿过来提取一下即可,当然其中新增了通过聚类对房间范围的感知:

​ 与前两篇文章最大的不同在于,该框架加入了动态目标(主要是人)的检测与追踪,从而消除动态变化的影响:

​ 该文章的实验也是在仿真器中进行,测试了其robustness和expressiveness。这种规模的框架在实际场景中确实很难做实验,其实整个文章还是比较理想的,相当于在一整个仿真环境中监视环境的变化(行人运行),从而可以随时追踪其轨迹:


然而在实际环境中,除非在整个空间布满摄像头,不然不可能如此全方位的检测环境中的动态变化(最理想的情况也就是一个机器人带着摄像头一直跟着一个人,才有可能较全面的更新场景表示,但是动态场景肯定不止一个动态目标)。因此在针对机器人实际任务方面,还是存在很多问题。

​ 在文章的最后,作者提出了四个未来的发展规划,分别是将这种场景表示框架应用于机器人决策规划、人机交互、长期自主运行及场景情况预测。在仿真场景这种全观察的环境下,可以完美构建该框架,对于这四个问题可以深入展开;但是在真实场景这种部分可观测环境中,往往很难做到全面构建该框架和实时更新该框架,对于后面的应用问题也因此较为困难。

  1. 【2019】Deep Neural Network-Based Scene Graph Generation for 3D Simulated Indoor Environments

    ​ 该论文是一篇韩文论文,但是其3D场景图的构建思路还是非常好的。论文中提出,3D场景信息不止包含目标类别,位置和属性也是非常的重要。3D场景图的构建可以用于视觉问答和服务机器人的任务规划。该框架主要围绕目标检测网络ObjNet、属性检测网络AttNet和关系检测网络(转换TransNet和预测RelNet)三个部分进行构建。整体框架如下:

    后面内容主要围绕ObjNet、AttNet、TransNet和RelNet进行展开。

    其中,ObjNet主要使用了Yolov3;AttNet网络如下所示:

    TransNet网络主要用于得到物体的3D bounding box:

    而RelNet网络则用于结合前面的检测结果,输出最终的场景图:

    实验结果如下图所示:

    该论文存在的问题:

    1. 实验结果只针对单一图像进行场景图构建,没有涉及整个场景图的构建与更新;
    2. 关系检测只有相对于相机的空间关系,并不包含语义关系;
    3. 对于场景中物体间的几何关系检测,使用基于规则的方法应该比使用网络训练更加方便;
    4. 没有涉及前面论文提到的场景层次结构和动态目标处理,属于最开始提出来的初步成果。

3D语义场景图论文小记相关推荐

  1. MonoScene: 单目3D语义场景补全

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨图灵智库 来源丨泡泡机器人SLAM 原文链接: https://arxiv.org/pdf/21 ...

  2. OccDepth:对标 Tesla Occupancy 的开源 3D 语义场景补全⽅法

    来源丨旷世研究院 开源代码 | https://github.com/megvii-research/OccDepth 论文链接 | https://arxiv.org/abs/2302.13540 ...

  3. Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读

    摘要 场景图反应了人对图像内容的感知,"当人的固有感知习惯存在的时候,会在场景分离过程中存在一个人类偏好的层次结构.它把场景定义成 一系列图像区域组成的仿人层次示意图(Hierarchica ...

  4. 三维场景图:用于统一语义、三维空间和相机的结构

    三维场景图:用于统一语义.三维空间和相机的结构 3D Scene Graph: A structure for unified semantics, 3D space, and camera 论文链接: ...

  5. 【论文笔记】SSCDNet:弱监督语义场景变化检测模型

    本文是论文<Weakly Supervised Silhouette-based Semantic Scene Change Detection>的阅读笔记. 文章提出了一个新颖的弱监督语 ...

  6. 用GAN还原语义标注图!还能手动改细节(附论文、代码)

    来源:量子位 本文长度为2100字,建议阅读5分钟 本文为你带来高清版的pix2pix. 输入一张语义地图-- 就能为你还原整个世界: 输入一张亲妈都认不出来的语义标注图-- 为你合成一张真实的人脸. ...

  7. 论文浅尝 | ERNIE-ViL:从场景图中获取结构化知识来学习视觉语言联合表示

    笔记整理:朱珈徵,天津大学硕士 链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf 动机 现有的视觉语言预训练方法试图通过在大的图像文本数 ...

  8. 【论文极速看】ERNIE-VIL 一种基于场景图解析的多模态表征方法

    ∇ 联系方式: e-mail: FesianXu@gmail.com github: https://github.com/FesianXu 知乎专栏: 计算机视觉/计算机图形理论与应用 微信公众号: ...

  9. 场景图生成论文阅读笔记 之 Graph R-CNN for Scene Graph Generation

    2018 ECCV <Graph R-CNN for Scene Graph Generation> 比较早使用图网络进行场景图生成的论文,对后续工作具有一定的启发性,在这做一记录 文章目 ...

  10. IROS2020 | 面向城市自动驾驶应用的概率语义建图

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 摘要 统计学习和计算能力的最新进展使自动驾驶技术以更快的速度发展.虽然以前引入的许多体系结构能够在高度 ...

最新文章

  1. 算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)
  2. FE.ENV-manjaro虚拟机配置和常见前端工具安装
  3. 由C过渡到C++-入门知识点
  4. ASP.NET创建文件并写入内容
  5. html5新变化,HTML5的新变化,分享
  6. 昇思MindSpore全场景AI框架 1.6版本,更高的开发效率,更好地服务开发者
  7. 【C#】【MySQL】C# 查询数据库语句@Row:=@Row+1以及执行存储过程失败解决方案
  8. c语言printf源码浮点数,printf以%d输出浮点数
  9. 简单python脚本实例-五个python常用运维脚本面试题实例
  10. CRON 定时任务 在线解析
  11. yuv422转rgb565
  12. EMC EMI EMS 介绍
  13. 8K摄像机研发之路有多难?一起了解你不知道的首款国产8K小型化广播级摄像机背后的故事
  14. maven报错问题汇总
  15. 霍夫直线检测原理详解
  16. 玩转华为数据中心交换机系列 | 配置M-LAG维护模式下升级示例
  17. datatable隐藏列设置及获取隐藏列的值
  18. QWERTY,QWERTZ和AZERTY
  19. OpenCore-Legacy-Patcher 0.5.1正式版
  20. 滑环电机是如何工作的

热门文章

  1. 网站服务器在什么地方怎么查,如何查询一个网站所在服务器信息
  2. 联想m5服务器管理口远程重启,服务器远程管理的两个技巧|R740|SR650|SR550|2288hv5|5270m5|联想存储|联想服务器|戴尔服务器|惠...
  3. 依图科技创始人:如何对AI技术和产业发展更全面的理解?
  4. 存储过程(无参,IN多个输入参数,OUT多个输出参数,INOUT输入输出)
  5. 在注册表里查找classid
  6. 怎样把已经做好的网页传到网上去?
  7. android 脚本swipe,appium1.1 版本使用 swipe 方法报错
  8. 【转】游戏项目管理经验
  9. hdu 5956 The Elder
  10. meta标签下http-equiv 属性详解