摘要

基于深度学习的三维重建技术最近取得了令人印象深刻的成果。然而,尽管最先进的方法能够输出复杂的3D几何图形,但如何将这些结果扩展到时变的拓扑结构尚不清楚。单独处理每个时间步长的方法缺乏连续性,推理速度慢,而传统的4D重建方法通常使用模板模型或以固定分辨率离散4D空间。在这项工作中,我们提出了Occupancy Flow,这是一种新的具有隐式响应的时变三维几何的时空表示。为了这个目标,我们学习了一个时空连续的矢量场,它为空间和时间中的每个点分配一个运动矢量。为了从图像或稀疏点云中实现密集的4D重建,我们将我们的方法与连续的3D表示相结合。隐含地,我们的模型随着时间的推移产生对应关系,从而在提供对时间动态的合理物理描述的同时实现快速推断。我们证明了我们的方法可以用于内插和重建任务,并证明了学习的对应关系的准确性。我们相信,Occupancy Flow是一种很有前途的新的4D表示,它将用于各种时空重建任务

静态到动态,推理,DL中的推理是什么意思?因果推理是不是一回事?

1 简介

我们生活在一个充满3D运动物体的4D世界里。因此,对于我们以及在相同环境中导航的机器人来说,准确而有效地表示时变3D几何学是必不可少的。然而,目前的四维重建方法往往需要复杂的多视图设置[33,41,42,44,45,58],利用固定拓扑的模板模型[2,5,15,27,30,63,75],或要求时空平滑输入[48,70],限制了可能应用于非常具体的任务的范围。

现有的4D重建方法,4D重建的概念,也需要看看,这里给出了概括。

最近,基于学习的方法从各种形式的输入中恢复三维几何图形,已经显示出了很好的结果[13,14,20,25,34,38,46,54,71]。与传统方法不同,他们利用在训练过程中获得的先验知识来解决歧义。特别是,最近的连续表示[13,22,28,38,39,46,56,72]在有限的内存成本下取得了令人印象深刻的结果。然而,仍然不清楚如何将这些方法扩展到4D重建的任务,即随着时间的推移重建3D形状。单纯地离散时间域会导致高存储成本和缓慢的推理。此外,它既不能提供隐含的对应关系,也不能提供时间演变的物理描述。这些问题不仅从科学的角度来看不令人满意,而且还限制了现有4D重建技术在需要快速推断和可靠对应的应用中的使用。

贡献:在本文中,我们提出了一种新的连续4D表示法(图1),它隐式地模拟了对应关系。我们使用神经网络参数化矢量场,该神经网络将三维运动矢量分配给空间和时间中的每个4D点。我们将该模型与占用网络(ONet)[38]相结合,ONet将形状连续表示为三维空间中二元分类器的决策边界。由于空间中的每个点都被分配了一个占用值以及随时间变化的连续轨迹,我们将其称为新的表示占用流(OFlow)。我们的表示不仅在空间和时间上是连续的,而且在空间中的每个点都隐含地提供了相应的响应,因此OFlow可以被视为场景流的连续泛化[67,68]。因此,OFlow不仅适用于重建任务,还适用于更广泛的应用,例如学习形状插值、查找形状之间的对应关系或学习概率潜变量模型。此外,通过使用连续介质力学建模三维形状的时间演化,我们的表示具有原则性的物理解释。

图1:OFlow。我们通过时间和空间连续的向量场来表示时变的三维几何体,该向量场将运动向量分配给空间和时间中的每个点,从而隐式地捕捉对应。我们证明,我们的表示可以用于从点云和图像序列以及插值、形状匹配和生成任务的4D重建。

2 相关工作

我们现在讨论最相关的3D表示、4D重建技术以及形状配准和插值方法。

三维表示:最近,基于学习的方法在各种三维任务中显示出了良好的结果。它们可以大致分为基于体素的[10、14、21、53、54、59、74]、基于点云的[1、20]、基于网格的[25、29、34、71]和连续表示[13、22、28、38、39、46、56、72]。

虽然体素表示可以很容易地送入深度学习管道,但即使是在稀疏数据结构上操作的变体也仅限于高达2563或5123个体素的相对较小分辨率[23、54、61]。点云是一种内存效率更高的替代方案[51,52],但不提供任何连接信息,因此需要密集的后处理。基于网格的方法[25、34、71]不需要任何后处理,但生成由边和纹理组成的最终图形并不简单,尤其是使用深度学习方法。因此,通常通过变形初始网格[73]或缝合多个3D面片[24]来简化任务。最近,引入了连续表示法,该表示法准确地描述了三维几何体[13,22,28,38,39,46,56,72]。与上述方法相比,这些方法不受离散化的限制,并且允许对任意拓扑进行建模。因此,它们构成了我们提出的OFlow表示的理想基础。

4D重构。4D重建领域的大多数工作通过使用模板模型[2、5、15、27、30、63、75]局限于固定域,需要多视图设置[33、41、42、44、45、58、64],或设置关于动作的强假设,例如刚性、线性。Mustafa等人[41,42]利用多个视图对动态场景进行4D重建。然而,该方法需要足够多的宽基线视图来覆盖场景,并且受到这些视图中模糊性的限制。Wand等人[70]提出了一种精心设计的技术,用于从点云重建变形的三维几何体。虽然产生了令人信服的结果,但他们的方法仅限于时空平滑和小运动,假设点云的时间密集采样,并且计算成本高。另一项成功的工作是利用模板模型来指导重建过程[2,17,27,30,63,75]。虽然为经典模型和基于学习的模型提供了有价值的框架,但根据定义,这些结果受到模板模型的质量和可用性的限制,并且是非常特定于领域的。此外,获得适当的模板成本非常高,因此大多数现有的工作都集中在特定的形状类别上,例如人体、手或脸[7、35、47、49、55]。与所有这些4D重建方法相比,我们基于深度学习的方法既不需要精心设计的多视图设置,也不需要特定领域的模板模型,并且可以处理刚性和非刚性运动

形状配准和插值。在图形学界,大量研究有针对性地完成了三维形状插值、配准和匹配等任务。由于范围有限,我们将讨论仅限于最相关的作品,请读者参阅[6,60,66]进行彻底的讨论。

3D形状的配准?匹配?:从扫描的多个视图中建立3D模型。

我们建模时变几何体的方法与基于变形场的方法[36,43]有关,这些方法在计算机图形学中有着悠久的历史[40,69]。然而,与我们的方法相反,这些方法通常只考虑一小部分输入点上的向量场。Eisenberger等人[19]计算整个嵌入空间上的变形场,但与我们的方法不同的是,他们的方法无法处理几何体的体积变化。Slavcheva[57]提出了一种通过预测带符号距离场的演化来隐式获得对应关系的相关方法。然而,由于它们要求LaplaCian算子是不变的,所以它只在小运动下才能成功。Groueix等人[24]引入形状变形网络,其中通过预测模板的参数化以及从任意形状到该模板的转换来学习网格对应关系。虽然这种方法在形状配准方面取得了有希望的结果,但它对于某些对象类是高度专门化的,并且需要对每个配准进行昂贵的微调。与本节讨论的所有方法相比,我们的方法不仅限于形状配准,而是一种处理各种不同类型和3D拓扑的一般4D重建方法。此外,与传统的基于向量场的方法需要精心设计不同领域的推理流水线不同,我们的基于学习的方法可以自动从观测中获取丰富的先验知识来解决歧义。

3 方法

在这一部分,我们介绍我们的新的三维几何的时变表示,我们称之为占有流(OFLOW)。我们从正式介绍我们的模型开始。接下来,我们解释如何从各种类型的输入(如点云序列或图像)中学习这种表示。最后给出了推理过程和实现细节。图2包含我们的方法的概述。

图2,模型总览。(a)在推理过程中,以及为了计算相关性损失(由(10)定义),通过积分依赖于输入的速度矢量场,我们将t=0的Groud truth网格上的点在时间上向前传播。我们通过取t=τ处的网格上的传播点地面真实点之间的L2距离,获得相关性损失。(b)为了计算重构损失,我们回溯时间backforward,将一个随机点p变换到t = 0的坐标系中。这允许我们在t=0时使用式(8)来评估(evaluating)占用网络f θ x,进而计算预测出的占用概率。现在通过取关于t = τ时的地面真实占有率的二进制交叉熵给出重建损失。

富文本编辑器输入公式有问题,接下来换成markdown在下一篇文章继续。

Occupancy Flow: 4D Reconstruction by Learning Particle Dynamics(1)相关推荐

  1. Occupancy Flow: 4D Reconstruction by Learning Particle Dynamics(2)

    Occupancy Flow: 4D Reconstruction by Learning Particle Dynamics(2) 一直在思考Lcorr和Lrecon的区别和各自的作用,下面用Lc和 ...

  2. 024_SSS_Occupancy Flow: 4D Reconstruction by Learning Particle Dynamics(ICCV2019)

    Occupancy Flow: 4D Reconstruction by Learning Particle Dynamics(ICCV2019) 本文提出了一种利用Occupancy Flow,一种 ...

  3. CVPR2020:4D点云语义分割网络(SpSequenceNet)

    CVPR2020:4D点云语义分割网络(SpSequenceNet) SpSequenceNet: Semantic Segmentation Network on 4D Point Clouds 论 ...

  4. 机器学习(三十六)——Integrating Learning and Planning(2)

    Integrating Learning and Planning(续) Table Lookup Model 查表模型适用于MDP的P,R都为已知的情况.我们通过visit得到各状态行为的转移概率和 ...

  5. NLP之路-Deep Learning in NLP (一)词向量和语言模型

     from: http://licstar.net/archives/328 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必 ...

  6. Deep Learning in NLP (一)词向量和语言模型

    这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必然有局限性,欢迎各种交流,随便拍. Deep Learning 算法已经在图像和音 ...

  7. 【排序算法】Learning to Rank(二):Pairwise之RankSVM 和 IR SVM

    之前的文章:[排序算法]Learning to Rank(一):简介 中简单介绍了Learning to Rank的基本原理,也讲到了Learning to Rank的几类常用的方法:pointwis ...

  8. 机器学习(三十七)——Integrating Learning and Planning(3)

    Integrating Learning and Planning Monte-Carlo Search(续) 下面我们结合实例(下围棋)和示意图,来实际了解MCTS的运作过程. 第一次迭代:五角形表 ...

  9. 机器学习(三十五)——Actor-Critic, Integrating Learning and Planning(1)

    Actor-Critic 概述 MC策略梯度方法使用了收获作为状态价值的估计,它虽然是无偏的,但是噪声却比较大,也就是变异性(方差)较高.如果我们能够相对准确地估计状态价值,用它来指导策略更新,那么是 ...

最新文章

  1. 新建一个spyder窗口
  2. 银行加速“去房地产化”
  3. mysql linux centos7_MySQL在Linux centos7环境下安装教程详解(图)
  4. 关于爬虫中遇到的问题
  5. UnrealEngine4 - 关于UObject被自动GC垃圾回收的巨坑
  6. 考研编程练习----畅通工程
  7. c语言银行系统个人心得,c,,银行管理实验报告心得体会.docx
  8. php soap function,从PHP SoapServer返回PHP数组
  9. Linux安装nginx详细步骤
  10. 中国高校改名发展史:改了名,我们就是一流大学了
  11. FreeTextBox的使用方法
  12. 人脸识别常用开源数据集大全
  13. PLC编程实现堆栈功能
  14. 谷歌相机镜像翻转_Google快速翻转:有用还是没用?
  15. 解决win10安装失败原因和方法
  16. [GAMES101]现代计算机图形学课程总结2:光栅化和反走样
  17. JavaScript_牛客网_编程初学者入门训练(21-30题解)
  18. 论文: TextBoxes
  19. 港中深、华为联合培养,韩晓光课题组招收三维视觉数字人方向博士生
  20. pc端和移动端集成第三方快捷登录 --- 微博为例

热门文章

  1. c语言中d的作用是什么,在C语言中c% 和 d% 是表示什么意思?
  2. 暗影精灵7安装Ubuntu双系统、RTX3060 Nvidia 驱动及搭建深度学习环境
  3. AutoCAD2024最新版介绍及安装下载
  4. 如何运营出一个有吸引力的微信公众号?
  5. 缓存篇(二)- JetCache
  6. mysql介绍索引类型的章节_mysql索引总结--mysql索引类型以及创建的详细介绍
  7. vue安装vue-awesome-swiper@3实现图片列表缩略图双向控制效果
  8. Linux初学者如何安装jdk,tomcat,mysql和svn
  9. 学it需要学历吗_低学历者是否适合学IT?IT行业对学历要求高吗
  10. [book]《岩田先生》