点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

今日视频推荐

讲者介绍

杨明玥

本科毕业于华南理工大学,目前在华南理工大学几何感知与智能实验室就读硕士一年级,导师为贾奎教授。研究兴趣包括三维计算机视觉与深度学习。

摘要

Many learning-based approaches have difficulty scaling to unseen data, as the generality of its learned prior is limited to the scale and variations of the training samples. This holds particularly true with 3D learning tasks, given the sparsity of 3D datasets available. We introduce a new learning framework for 3D modeling and reconstruction that greatly improves the generalization ability of a deep generator. Our approach strives to connect the good ends of both learning-based and optimization-based methods. In particular, unlike the common practice that fixes the pre-trained priors at test time, we propose to further optimize the learned prior and latent code according to the input physical measurements after the training. We show that the proposed strategy effectively breaks the barriers constrained by the pre-trained priors and could lead to high-quality adaptation to unseen data. We realize our framework using the implicit surface representation and validate the efficacy of our approach in a variety of challenging tasks that take highly sparse or collapsed observations as input. Experimental results show that our approach compares favorably with the state-of-the-art methods in terms of both generality and accuracy.

一、什么是三维建模和重构?

上图展示了三维重建的一个示例,通过不同角度的三张图片,有四种方法展现了重建结果。这里面,DVR是一个基于Differentiable volumetric rendering方法进行重建的技术,它没有学习的先验,只是单纯地通过图片关系拟合三维模型。因此它的结果在给出的视角下符合观测,却在某些角度上有所缺陷。第二个是DISN,通过对一类物体的学习,泛化性很差,重建结果缺失细节。本文的方法同时兼顾了学习的先验,也包含了优化过程的优点。

上图中的两张图片,对于人而言重建是很简单,基于人的经验很容易推断出图片表示的物体是椅子,也容易推断出其中没有显示出来的第4条腿。而对于神经网络而言,这不是一个容易的任务,特别是在训练集上没有类似的图片的时候。

二、从现有的方法中寻找解决方案

在最近的解决方案中,隐式场因其不受分辨率的限制,拓扑可以随意变换的特点获得大家的青睐。

有两种结构被普遍采用,第一种是encoder-decoder architecture,另外一种是DeepSDF提出的Auto-decoder architecture。对于两种结构,训练过程是很相似的。

在进行测试时,encoder-decoder architecture的参数是固定的,只需要输入数据,即能够得到结果。而DeepSDF方法则需要更多的时间,去不断的迭代优化latent code,使运算结果与观测结果相一致。这种latent code初始是从高斯分布中采样的,然后之后优化到一个合适的位置。

我们来思考一个问题,对于3D重建这个特定的任务来说,目前的这些深度学习方法是否是最好的方法?他们存在着怎样的问题呢?答案非常明显,它们的泛化性并不强,特别是迁移到真实场景,比如图片重建。这些方法非常依赖先验,和训练数据,它的重建结果在很多细节处是缺失的。

而对于一些重建领域的传统方法,它们可以获得很高精度的物体。举个简单的例子,重建一个物体,COLMAP使用了近百张图片。和深度学习基于学习的方法不同的是,他们没有依赖数据的先验,但是他们有自己的一套物理公式去计算图片之间的correspondence,进而计算出匹配点的深度。这类方法的精度可以达到非常高,但是有一个问题,当只有有限的视图时,很难重建出表面。对于我们人来说就不是这样了,给出一个椅子的单张视图,我们就大致知道它的3D模型是什么样的,很大一部分是因为我们有关于椅子的先验。所以先验是个很好的东西,关键在于我们应该怎样去使用它。

三、利用先验进行深度学习

对于大多数的深度学习方法,在测试时参数是固定的,这说明大多数方法非常依赖于学到的先验,测试时对先验进行了很强的限制。这导致学到的东西会非常依赖于训练数据的scale and diversity,另一方面学到的先验也永远是真实数据的一个大致估计,或者是说一个很小的子集,现实中生活中的椅子类的样子千千万万,总是有一些是学到的模型不能估计的。

在学习的过程中,一类物体共享一个网络;在测试的时候,我们还用这套网络参数,就必然会lack of details,必然会受到泛化性的影响。这使得一些深度学习的方法没有办法去迁移在真实场景中,或者是去真正的重建出一些让人满意的结果。所以如何能把这些传统方法跟深度学习方法结合起来?

图中的蓝色部分可以把它想象成是一个流形,他代表了整个椅子空间的landscape。偏白色的部分是用训练数据构建的learning shape prior,因为是用有限的数据去训练,它是有限的。

Path-a 展示的是DeepSDF的结果,它在优化的过程中很难跳出先验, 所以它会缺乏细节。IDR是对单个物体进行拟合,它没有在大量的数据集上学习先验,与传统方法是相似的:根据现有数据去优化形状。所以它在某些视角上效果不好,或者是说它推断不出来这是一个椅子。而我们的方法,做了一个trade off,既可以保证有椅子的先验,又能保证可以优化出来这些细节与观测是相对应的。

接下来详细地解说我们的方法。它并不是针对某种特定的task,是一个非常general的方法,我们做了点云的实验,也做了图片重建的实验,它们都采用了一种统一的框架。(O代表了物体的表面)如第一行所显示的结构,左边的项叫做energy term,右边的叫做regularizer。最小化左边的energy term,意味着需要让被优化的物体是高保真的,即与观测一致。右边的regularizer目的是保证优化的过程不与这一类别的先验“距离”过远。具体来说,第二行公式优化了z和θ,z是指lantent code,θ可看作decoder parameter,或encoder-decoder parameter,也就是整个网络的参数。这个模型不会像DeepSDF那样固定decoder,固定参数会大大地影响它的泛化能力。

那么要用什么样的方式去保证优化的时候不破坏先验,或者说在某种程度上保留先验呢?我们使用regularizer来达到这个目的(encouraging a plausible surface)。具体实验面对的task的不同, energy term是不同的。比如点云,有自己的损失函数,而对于图片,我们具体在论文里使用的是RGB loss,以及一个mask loss,使用可微分渲染实现。当然,还可以借鉴传统方法定义的一些photo consistency loss,去约束这个优化的过程,保证它的形状跟观测是一致的。因此它是一个task specific的项。对于后面的这一项,先验首先会体现在一个很好的初始化上:θ和Z这些参数是在一个类上学好的,所以它自然会比IDR这种从头优化的速度快很多;另外实验中采用L2正则化施加在decoder上,即令优化之后的网络参数与先验的参数比较接近,实现简单却很有效。

四、重建结果展示

这里我们将会展示一些重建的结果,分为两个部分,第一个部分是用稀疏的图片进行重建,具体使用的是三张视图,但实际上单视图也可以重建出不错的结果。后面一部分是稀疏点云重建结果,使用了300个点。

第一个椅子的图片大家已经见过,这里是它的重建结果。DVR因为缺乏先验,图片上没有的这根腿无法重建。

另外,这里有一些格外有趣的事情,对于第一个椅子,使用的三张view是很接近的,它比较容易找correspondence,所以DVR,IDR这种没有先验,能使用图片进行重建物体的方法大致重建出了一个椅子的形态。第三个例子,三张图片的角度与第一个例子相比,角度差别较大。对于IDR,DVR,这种椅子开始很难找到correspondence,所以可以看到它的椅子会非常的奇怪。左边这三个是learning-based的方法,他们普遍展现出来的特点就是lack of detail,很难泛化在训练集上没有过的情况,特别是一些细杆等细节。

这里是一些灯的例子,灯其实在数据集上是一个形状间方差很大的类,各式各样奇怪的灯,通常learning base的方法在这个类上因为泛化能力有限,所以结果不理想。我们的方法的数值会在灯这个类上比他们高很多。IDR跟DVR依然是之前提到的相似的问题。

这个椅子具有比较复杂的细节,所以在learning的方法上,并不容易恢复出来这个东西,那我们的方法就可以很好的重建出来。

接下来是点云重建。从结果来看,因为我们有优化过程,所以它会将观测点落在我们training出的mash上。另外因为保留有先验,所以即使是如此稀疏的点,也可以重建得很好。这里左边两个是纯learning的方法,我们进行了比较。

一些车的例子,不过车因为它类间差异不是很大,所以数值可能就不会差太多。

五、总结

最后我们来总结一下,这个方法在论文中其实验证了很多种setting,所以它并不是针对去解决一个特定的问题。另外它是一个比较简单,容易操作的方法,而且提出的combination的方式是可以借鉴的,所以我们在论文中格外的着重说了一句话:the pretrained data prior could obtain a maximum generality if it is optimized, rather than fixed. Pretrained data prior蕴含在learning之后的那一组网络参数。如果想让它获得最大的泛化的能力,那么在测试的时候,不应该把参数全都固定,这样很难得到一个很好的具有细节的结果。

我们认为它应该被优化,但这种被优化,是一种什么样的方式优化?所以我们提出了regulation的方式在。以一种合理的regulation的方式下,可以在优化的过程把prior很好地保留,从而达到重建的目的。当然在实验过程中可能还有一些额外要注意的点,比如怎样选取energy term,这可能取决于你的目的是什么,以及达到一个什么样的结果。

相关资料

论文标题:

Deep Optimized Priors for 3D Shape Modeling and Reconstruction

论文链接:

https://arxiv.org/abs/2012.07241

整理:闫昊

审核:杨明玥

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

(点击“阅读原文”查看精彩回放)

最佳化三维建模与重构中的神经网络先验相关推荐

  1. 附加 集合数据_浩辰3D软件新手教程:三维建模设计中如何重用CAD模型数据?

    在日常三维建模设计过程中,经常会遇到CAD模型数据的重复,那么如何重用CAD模型数据呢?下面小编就来给大家介绍一下在进行三维建模设计的过程中重用CAD模型数据的操作教程吧! 对CAD数据的重用,就如同 ...

  2. cad加载dll_关于CAD三维建模的35个问题

    钢结构设计师一定要会CAD三维建模吗?--如果想做稍微复杂一点的空间钢结构设计,CAD三维绘图也是必备技能,要不然项目的CAD空间计算线模都弄不好,无法做后续的模型计算分析. 本文介绍CAD三维建模的 ...

  3. 【第五课】UAV倾斜摄影测量三维建模之空三计算问题

    前言 基于UAV倾斜摄影测量技术进行三维建模的过程中,有一个至关重要的步骤--空三计算,在此前,Smart3D必须非常准确知道每张航片的照片属性和姿态,其实姿态也就是(x,y,f).如果忽略这些属性, ...

  4. 标记三维点_SSW系统在地下大型停车场三维建模中的应用研究

    作 者 信 息 邓学锋,徐 娜,贾 宝 (河南省测绘工程院,河南 郑州 450003) " [摘要]针对地下空间GNSS信号弱.空间狭窄等特殊场景,基于国产SSW移动激光测量系对大型地下停车 ...

  5. 三维扫描、三维建模在数字展厅中的应用

    背景介绍 随着互联网时代的到来,新媒体技术.虚拟现实技术的进步,虚拟展厅进入了快速发展的阶段. 传统展厅的展示多为静态.实物展示,因而局限性较高,受空间.地域.时间的影响较大.而线上虚拟展厅则实现了展 ...

  6. 三维建模:浩辰3D软件中实体建模与曲面建模有什么区别?

    实体建模和曲面建模是3D设计中较为常用的两种三维建模方式,那么这两者在实际的绘图操作中有什么区别呢?又该如何区分使用这两种三维建模方式呢?下面就让小编以浩辰3D软件为例给大家详细介绍一下实体建模与曲面 ...

  7. CAD绘图设置中怎么进行设置三维建模?怎么进行查看有效模型?

    关于三维建模,大家肯定有一个大致的了解了,它的作用有两个,一个熟悉世界坐标系和三维空间的关系.其次是掌握CAD的用户坐标系以及多个视图的使用技巧,那我们在CAD绘图的过程中怎么进行三维建模?今天就和大 ...

  8. 三维建模模型STP格式与Matlab中simscape数据交换的问题

    最近在研究把三维模型中的数据转换到MATLAB上进行仿真,初步知道了MATLAB工具包中Simscape可以进行物理建模.下面的内容主要是从迈斯沃克官方网站上看到的,当然也有一点自己的琢磨. 可以将C ...

  9. 三维建模和UWB定位在核电厂中的应用

    一.UWB在电厂的应用场景: 1.巡检人员的巡检规范性操作:是否按照巡检路线行走,巡检点位停留时间: 2.电子围栏:进入禁区.外来人员进入: 3.视频联动:调取巡检人员对应的摄像头,实时监控巡检人员的 ...

最新文章

  1. 4.Java面向对象相关知识总结
  2. Windows自带的杀进程工具
  3. 小菜学习设计模式(五)—控制反转(Ioc)
  4. Qt工作笔记-让界面飞一会(让界面旋转出来)
  5. 科大讯飞回应“同传造假”:承认转写人类同传,沟通不足造成误解
  6. Mysql 查询某个字段最长的记录
  7. IMDB.TOP250.2020.09.BluRay.1080p.x265.10bit
  8. 电子商业汇票知识问答题
  9. Java实习日记(7)
  10. 气象数据之积温数据的获取与处理
  11. 心态对了一切都对了 -- Entropy 熵
  12. vue权限管理实现思路
  13. 安静品生活,这个周末在《Cabbage Harvest》里种菜如何?
  14. ArcGIS基础:要素转点、要素折点转点与面转线
  15. 计算机视频接口有,HDMI,DVI为什么我们的计算机有这么多视频接口?
  16. 六种常见的平面设计构图技巧
  17. Excel里如何设置保留几位小数
  18. 面试鸭专业面试刷题网站源码 支持自由组卷/在线刷题等功能
  19. sublime text3解决Gosublime无法自动补全代码
  20. 银河护卫队漫威大法好之漫威系列

热门文章

  1. 【R语言】白葡萄酒的EDA分析
  2. 小马哥---高仿苹果7 7p已出现市场 图文鉴赏假机面目 警惕购买
  3. PPT、word破解加密文档
  4. 【云扩RPA】CreateFirstAutomationProject
  5. 如何保持积极的心态?
  6. 遇见Laravel Migrations的migrate与rollback
  7. Asp.net Core使用Microsoft.Office.Interop.Word转换文档
  8. 问小鱼如何看?小米机器人之铁蛋!
  9. 朴素贝叶斯应用之在手写数字识别的实践
  10. win10上网显示dns服务器未响应,win10无法上网DNS服务器未响应的解决方法