以下是研究朱松纯FPICU概念中F（functionality）的第一篇论文记录：

读后感：

文章做了什么事？
- 提出一种3D室内场景解析和重建的算法，可以从单个RGB图像同时重建出室内场景的功能层次和3D几何结构。
怎么实现的？
- 提出了一种使用整体场景语法（holistic scene grammar, HSG）来解译和重构场景的随机方法。HSG描述了一种功能性的、以任务为中心的场景表征。描述符由功能场景类别、以任务为中心的活动组和单个物体组成。将基于人的上下文的场景解译过程反过来，场景功能还可以用于合成具有类人物体布置的新场景。
- 提出了一个完整的生成模型（即随机语法图）、判别模型（即深度，法线和分割图的直接估计）和图形引擎（即渲染图像）相结合的场景解析和重构计算框架。
效果怎么样？
- 在数据集上表现很好，能够准确估计出RGB图中各种目标物的3D空间区域形态。
模型需要哪些前提条件或数据？
- 训练的方法没有看懂，尚不清楚需要什么前提数据。

《Holistic 3D Scene Parsing and Reconstruction from a Single RGB Image》

《整体的三维场景解析和重建从单一的RGB图像》，作者Siyuan Huang等6人

ECCV2018，源码：https://github.com/thusiyuan/holistic_scene_parsing

翻译参考了https://www.sohu.com/a/246572603_100177858新闻报道（估计也是机翻，下划线表示），其余有道机翻。

摘要

我们提出了一种计算框架，用于联合解析单个RGB图像，并使用随机语法模型重建由一组CAD模型组成的整体3D配置。具体来说，我们引入了一个整体场景语法（HSG）来表示3D场景结构，它表征了室内场景的功能和几何空间上的联合分布。拟议的HSG捕获了室内场景的三个基本和潜在的维度：i）潜在的人类背景，描述房间布局的可供性和功能，ii）场景配置的几何约束，以及iii）物理约束，保证物理上合理的解析和重建。我们以综合分析的方式解决这个联合解析和重建问题，寻求在深度，表面法线和对象分割的空间上最小化输入图像和由我们的3D表示生成的渲染图像之间的差异。地图。使用马尔可夫链蒙特卡罗（MCMC）推断出由解析图表示的最优配置，其有效地遍历不可微分解空间，共同优化对象定位，3D布局和隐藏的人类背景。实验结果表明，该算法提高了通用化能力，在三维布局估计，三维物体检测和整体场景理解方面明显优于现有方法。

1 简介

人类视觉的复杂性和丰富性不仅体现在识别可见物体的能力上，而且体现在潜在的可操作信息[1]上，包括推断潜在的人类语境作为场景的功能[2,3]。，重建三维分层几何结构[4,5]，并遵守物理约束，保证物理上合理的场景配置[6]。对室内场景的这种丰富的理解是构建智能计算系统的本质，其超越了主要的基于外观和几何的识别任务，以考虑对观察到的图像或图案的更深层次的推理。

一个有希望的方向是合成分析[7]或“视觉反转图形”[8,9]。在这个范例中，计算机视觉被视为与计算机图形相反的逆问题，其目标是对产生观察图像的物理过程中发生的隐藏因素进行逆向工程。

在本文中，我们将视觉概念作为逆图形，并提出了一种整体3D室内场景解析和重建算法，可以从单个RGB图像同时重建室内场景的功能层次和3D几何结构。图1示意性地说明了合成分析推理过程。联合推理算法从各种视觉模块中获取建议，并通过比较从恢复的3D结构渲染的各种投影（即，深度，法线和分割）与从输入图像直接估计的投影来推断3D结构。

图1示意性地说明了合成分析推理过程。联合推理算法从各种视觉模块中获取建议，并通过比较从恢复的3D结构渲染的各种投影（深度，法线，分割）与从输入图像直接估计的投影来推断3D结构。

具体来说，我们引入一个整体场景语法（HSG）来表示场景的层次结构。如图2所示，我们的HSG将场景分解为功能空间中的潜在组（即，包括活动组的分层结构）和几何空间中的对象实例（即，CAD模型）。对于功能空间，与仅模拟物 - 物关系的传统方法相比，我们提出了一种通过在活动组中想象潜在的人来进一步帮助解释和解析观察到的图像来模拟人 - 物关系的新方法。对于几何空间，采用各个对象的几何属性（例如，大小，位置，方向）考虑因素，以及它们之间的几何关系（例如，支持关系）。另外，结合物理约束（例如，对象之间的碰撞，违反布局）以生成对观察图像进行物理上可信的3D解析和重建。

图2:由横跨功能空间和几何空间的HSG解析图(pg)表示的室内场景。功能空间表征层次化结构，几何空间编码具有上下文关系的空间实体。

这里，室内场景由语法的解析图（pg）表示，其由终端节点上的分层结构和马尔可夫随机场（MRF）组成，其捕获对象和房间布局之间的丰富上下文关系（即，房间配置的墙壁，地板和天花板）。

设计最大后验概率（MAP）估计以找到解析和重建观察图像的最优解。可能性测量观察图像与从推断的pg投影到各种2D图像空间上的渲染图像之间的相似性。因此，可以通过基于后验概率的模拟退火对MCMC进行采样来迭代地细化pg。我们通过将重建的3D室内房间与地面实况进行比较来评估我们在大规模RGB-D数据集上的方法。

1.1 相关工作

场景解析：现有的场景解析方法分为两个流。 i）判别方法[10-16]将每个像素分类为语义标签。虽然先前的工作在标记像素方面已经达到了高精度，但是这些方法缺乏视觉词汇的一般表示和探索一般场景的语义结构的主要方法。 ii）生成方法[17-24]可以提取场景结构，使其更接近人类可解释的场景结构，实现机器人，VQA等潜在应用。在本文中，我们将这两个流组合在一个分析中 - 合成框架，用于推断生成图像的隐藏因素。

来自单个图像的场景重建：来自单个RGB图像的室内场景重建的先前方法[25-27]可以被分类为三个流。 i）通过提取几何特征并对3D立方体建议进行排序来预测2D或3D房间布局[28-35]。 ii）通过几何图元或CAD模型表示对象，先前的方法[36-44]利用3D对象识别或姿势估计来将对象提议与RGB或深度图像对齐。 iii）使用上下文联合估计房间布局和3D对象[18,19,22-24,33,45,46]。尤其是Izadinia等人。 [33]展示了在没有上下文关系和物理约束的情况下推断布局和对象的有希望的结果。相比之下，我们的方法联合模拟了层次结构的场景结构，隐藏的人类背景和物理约束，为整体场景理解提供了语义表示。此外，提出的方法提出了一种使用MCMC的联合推理算法，理论上可以实现全局最优。

场景语法：场景语法模型已用于从RGB图像推断出3D结构和功能[3,17,18,47]。我们的HSG在两个方面与[17,18]不同：i）我们的模型用CAD模型而不是几何图元表示3D对象，能够建模细节上下文关系（例如，支持关系），这提供了更好的解析和重建实现。 ii）我们在HSG中推断出隐藏的人类和活动组，这有助于解释和解析。与[3,47]相比，我们从单个RGB图像模拟和解析对象和布局的3D结构，而不是使用RGB-D图像标记的点云。

1.2 贡献

本文作出5大贡献：

我们整合几何和物理，用CAD模型解释和重建室内场景。我们共同优化3D房间布局和对象配置，大大提高了SUN RGB-D数据集[45]的场景解析和重建性能。
我们将隐藏的人类语境（即功能）纳入我们的语法，通过分组和抽样，可以想象每个活动组中潜在的人类姿势。通过这种方式，我们可以优化场景的可见和不可见[48]分量的联合分布。
我们提出了一个完整的计算框架，将生成模型（即随机语法），判别模型（即深度，法线和分割图的直接估计）和场景中的图形引擎（即渲染图像）相结合。解析和重建。
据我们所知，我们的第一项工作是使用推断的深度，曲面法线和物体分割图来帮助解析和重建3D场景（房间布局和多个物体）。请注意，[49]对单个对象使用类似的中间表示。
通过学习对象之间的支持关系，所提出的方法消除了以前工作中广泛采用的假设，即所有对象必须站在地面上。模型的这种灵活性可以更好地解析和重建具有复杂对象关系的真实场景。

2 整体场景语法

我们通过整体场景语法（HSG）来表示室内场景的层次结构。 HSG由功能空间F中的潜在分层结构和几何空间G中的终端对象实体组成。直觉是，对于人造环境，几何空间中的对象布置应该是来自功能的“投影”。空间（即人类活动）。作为概率上下文无关语法（PCFG）的功能空间捕获功能组的层次结构，并且几何空间通过在终端节点上定义MRF来捕获对象之间的空间上下文。这两个空间一起形成随机上下文敏感语法（SCSG）。 HSG从根场景节点开始，以一组终端节点结束。室内场景由解析图pg表示，如图2所示。

后续算法定义略

3 概率公式

略

4 推理

对于单个RGB图像作为输入，在恢复三维场景结构时，推理的目标是找到最优的pg，最好地解释生成观察图像的隐藏因素。推理包括三个主要步骤：

房间几何形状估计:通过预测二维房间布局和相机参数来估计房间几何形状，并将估计的二维布局投影到三维中。详情载于第4.1小节。
对象初始化:检测对象和检索的CAD模型对应最相似的外观，然后粗略估计其三维姿态、位置、大小，初始化支持关系。见4.2节。
联合推理:通过最大化pg的后概率，以综合分析的方式优化3D场景中的对象、布局和隐藏的人的背景。详细信息见第4.3节。

4.1 空间几何估计

尽管最近的方法[33 35]能够使用CNN特征生成一个相对稳健的二维房间布局预测，但由于其对集群场景中摄像机参数估计的敏感性，三维房间布局估计仍然不准确。针对二维布局估计与相机参数估计不一致的问题，设计了一种基于深度神经网络的二维布局估计方法，并利用布局热图对相机参数进行了估计。

二维布局估算:类似于[34]，我们用房间布局类型和关键点位置来表示二维布局。网络结构在补充材料中提供。该网络优化了布局热图回归的欧几里得损失和房间类型估计的交叉熵损失。

相机参数:传统的基于几何的方法[28]通过从观测图像中估计消失点来计算相机参数，该方法在拥挤、遮挡较重的室内场景中敏感且不稳定。受[43]的启发，我们提出了一种基于学习的方法，使用关键点热图来预测相机参数，即焦距，以及相机的偏航、俯仰和滚动角度。由于偏航角度已经被纳入到房间布局的评估中，我们通过在关键点热图上叠加四个FC层(1024-128-16-3)来估计剩下的三个变量(焦距、俯仰和滚动)。

三维布局初始化:利用估计的二维布局和摄像机参数，将二维布局的角投影到三维空间中，得到三维房间长方体。假设摄像头和天花板分别为1.2米和3.0米。为了简单起见，我们对3D房间进行平移和旋转，使其中一个可见的房间角落位于世界坐标系的原点。

4.2 对象初始化

我们使用软nms[51]对可变形卷积网络[50]进行微调，以检测二维边界盒。为了初始化三维对象，我们检索最相似的CAD模型，并初始化它们的三维姿态、大小和位置。

模型检索:我们考虑ShapeNetSem reposi- tory[53,53]中的所有模型，从48个视点(包括均匀采样的16个方位角和3个仰角)绘制每个模型。在检测到的边界盒和候选渲染图像中，从图像微调检测器的ROI-pooling层中提取7 - 7个特征。通过对同一类物体中检测到的物体特征与渲染的图像特征之间的余弦距离进行排序，得到具有相应姿态的前10个CAD模型。

几何属性估计:物体的几何属性由三维姿态、位置和大小的9D向量表示，其中三维姿态从检索过程中初始化。之前的工作大致将2D点投影到3D上，假设所有物体都在地板上，恢复3D位置和大小。这种方法在复杂的场景中显示了局限性。

在不做上述假设的情况下，我们通过计算检测边界盒和分割图中像素的平均深度值来估计每个物体的深度。然后我们使用深度值来计算它的三维位置。经验表明，该方法具有较强的鲁棒性，即使在杂乱的场景中，单像素深度估计误差也很小。为了避免二维边界盒的对齐问题，我们通过对已知分布的对象大小进行采样来初始化对象大小，并选择概率最大的对象。

支持关系估计:对每个对象v i v of，从对象或布局中找出支持能量最小的支持对象v j

4.3 联合推理

给定一个图像I，我们首先估计房间的几何形状，对象属性和关系，如上面两小节所述。如alg1总结的，联合推理包括:(1)优化对象和布局(图3);(2)将每个活动分组，分配活动标签，想象人的姿态;(3)迭代优化对象、布局和人的姿态。

图3:利用模拟退火的MCMC对物体和布局进行联合推理的过程。上图:深度地图。中间:正常的地图。下图:对象分割映射。对象和布局是迭代优化的。

后续算法细节略。

图4:在各种室内场景中采样的人体姿态。在多个活动组中的对象具有多个姿态。我们以最高的可能性来想象这个姿势。

图4展示了在各种室内场景中采样的人体姿态结果。

5 实验

我们使用SUN的RGB-D数据集[45]来评估我们在3D场景解析、3D重建以及其他3D场景理解任务上的方法。

数据集总共有5050个测试图像和10355个图像。虽然它提供了RGB- d数据，但是我们只使用RGB图像作为训练和测试的输入。图5显示了一些定性分析结果(前20%)。

图5:本文方法对SUN RGB-D数据集的定性结果。联合推理显著提高了单个模块的性能。

我们在三个任务上评估我们的方法:i)三维布局估计，ii)三维物体检测，iii)整体场景理解与SUN RGB-D的所有5050个测试图像在所有场景类别。由于相机参数估计的不准确性和对杂波场景中遮挡的敏感，传统的方法很难将其推广到所有场景类别。在本文中，我们利用所提出的基于学习的相机参数估计方法和一种新的几何属性初始化方法来缓解这一问题。此外，我们还在LSUN数据集[55]和Hedau数据集[28]上取得了最先进的二维布局估计结果。补充资料中总结了相机参数估计和二维布局估计的实现细节和附加结果。

三维空间布局估计:采用预先提出的联合推理方法对三维空间布局进行优化。我们用我们的方法(有和没有联合推断)估计与3DGP[19]比较。根据[45]中提出的评估协议，我们计算了与地面真实值相关的自由空间与所估计的自由空间的并集的平均交点。表1显示了我们的方法的性能大大优于3DGP。通过对对象和布局的联合推理，我们证明了该算法的性能提高了8.2%，证明了集成联合推理过程的有效性。

由于IM2CAD[33]在没有发布图像列表的情况下从客厅和卧室手动选择了484张图像，因此我们将我们的方法与它们在整个客厅和卧室集合上进行比较。表1显示了我们的方法超过了IM2CAD，特别是在合并了联合推理过程之后

3D物体检测：我们使用[45]中定义的指标评估我们的3D物体检测结果。我们使用预测和地面真实3D边界框之间的3D IoU计算平均精度（mAP）。在没有深度的情况下，我们将阈值IoU从0.25（以深度作为输入的评估设置）调整为0.15并在表2中报告我们的结果。由于空间有限，此处报告了30个对象类别中的15个;补充材料中报告了全部表格。结果表明，我们的方法不仅大大超过了检测分数，而且还可以评估整个对象类别。请注意，尽管IM2CAD还评估检测，但它们使用与指定距离阈值相关的度量。在这里，我们还使用此特殊度量而非IoU阈值与子集上的IM2CAD进行比较。我们能够获得80.2％的mAP，高于IM2CAD中报告的mAP为74.6％。

整体场景理解：我们估计详细的3D场景，包括对象和房间布局。使用[45]中提出的度量，我们评估几何精度Pg，几何回忆Rg和语义回忆Rr，IoU阈值设置为0.15。我们还评估了地面实况和估计之间的自由空间（房间多边形内部但在任何物体边界框之外的3D体素）的IoU。表1显示所提出的方法显示出显着的改进。此外，我们将初始化结果的几何精度提高了12.2％，几何召回率提高了7.5％，语义召回率提高了6.1％，自由空间估计提高了4.1％。总场景理解的改进表明联合推理可以在很大程度上改善每项任务的性能。使用与3D布局估计相同的设置，我们与IM2CAD [33]进行比较，并将自由空间IoU提高3.1％。

烧蚀分析：拟议的HSG包含几个关键组件，包括支持关系，物理约束和潜在的人类对话关系。为了分析每个组成部分将如何影响最终结果，以及联合推理过程将使每项任务受益多少，我们通过打开和关闭某些组件或在不同设置下对整体场景理解进行消融分析。在联合推理期间跳过某些步骤。实验在办公室子集上进行测试，我们将潜在的人类背景纳入其中。表3总结了结果。在我们所包含的所有能量项中，物理约束对性能的影响最大，这证明了推理过程中物理常数的重要性。它还反映了联合推理的效率，因为在没有迭代联合推理的情况下，性能会大幅下降。

表3:我们的方法对SUN RGB-D数据集的烧蚀分析。我们评估在不同背景下的整体场景理解。支持关系为c1，物理约束为c2，人类想象力为c3。类似地，我们将推理时只优化布局的设置表示为s4，将推理时只优化对象表示为s5

6 结论

我们提出了一个综合分析框架，使用与潜在人类背景，几何和物理相结合的随机语法模型，从单个RGB图像中恢复室内场景的3D结构。我们从三个方面证明了算法的有效性：i）联合推理算法显着改善了各种单独任务的结果; ii）优于其他方法; iii）烧蚀分析表明每个模块在整个框架中起着重要作用。总的来说，我们相信这将是迈向整体3D场景理解的统一框架的一步。

读后感与机翻《整体的三维场景解析和重建从单一的RGB图像》相关推荐

读后感与机翻《从视频中推断力量和学习人类效用》
以下是研究朱松纯FPICU概念中U(utility)的相关论文记录: 读后感: 作者干了什么事? (1)算法能够预测当人们与物体交互时,身体各个部位(臀部.背部.头部.颈部.手臂.腿等)所承受的力/压 ...
读后感与机翻《人类因果学习的分解:自下而上的联想学习和自上而下的图式推理》
研究朱松纯FPICU体系的第 2 篇文章 <Decomposing Human Causal Learning: Bottom-up Associative Learning and Top-d ...
从母语学习规律中推断出英语学习的规律
从母语学习规律中推断出英语学习的规律 2011年08月17日 [b]从母语学习规律中推断出英语学习的规律[/b] [b] [/b]在此文的开始我提到:同步的精髓是指按照母语的学习规律和要求学习包括英语 ...
读后感和机翻《他们在看哪里，为什么看?在复杂的任务中共同推断人类的注意力和意图》
以下是研究朱松纯FPICU概念中I(intent)的相关论文记录: 读后感: 作者干了什么事? 算法可以从视频中预估人类的注意力位置和意图. 怎么实现的? 提出了一个人-注意力-对象(HAO)图来联合 ...
读后感与机翻《基于理论的因果迁移:结合实例级的归纳和抽象级的结构学习》
研究朱松纯FPICU体系的第 3 篇文章 <Theory-based Causal Transfer: Integrating Instance-level Induction and Abst ...
读后感与机翻《理解工具:面向任务的对象建模、学习和识别》
以下是研究朱松纯FPICU概念中P(physics)的第一篇论文记录: 目录读后感: 作者干了什么事? 作者怎么做的? 效果怎么样? 局限性摘要 1 介绍 2 面向任务的对象表示 2.1 三维空间 ...
读后感和机翻《人类因果迁移:深度强化学习的挑战》
研究朱松纯FPICU体系的第1篇文章 <Human Causal Transfer: Challenges for Deep Reinforcement Learning>CogSci 2 ...
读后感与机翻《AOGNets》
本文是在研究朱松纯团队中大量使用的"与或图"概念而找到的一篇学习论文,下述论文并非朱松纯团队的,而是北卡州立大学一个博士生发明的,其实验室专门研究可解释性深度学习. 读后感作者干 ...
Android黑屏死机--充电运行土豆视频【.4.4】》播放视频中黑屏死机》手动按电源键开机显示电量为6%
[测试版本] T0405 [测试模块] [测试步骤] 充电运行土豆视频[.4.4]> [测试结果]播放视频中黑屏死机>手动按电源键开机显示电量为6%[开机后恢复] [预期结果]可正常播放 ...

读后感与机翻《整体的三维场景解析和重建从单一的RGB图像》

读后感：

文章做了什么事？

怎么实现的？

效果怎么样？

模型需要哪些前提条件或数据？

摘要