多尺度的CityNeRF: Building NeRF at City Scale
作者丨黄浴@知乎
来源丨https://zhuanlan.zhihu.com/p/450671684
编辑丨3D视觉工坊
arXiv在2021年12月17日上传论文"CityNeRF: Building NeRF at City Scale",作者来自香港中文大学、德国马普研究所和新加坡南洋理工等。
神经辐射场(NeRF)在三维目标和受控场景的建模中取得了优异的性能,通常在单尺度下。这项工作首次尝试将NeRF引入城市规模,视图范围从捕获城市概览的卫星级图像到显示建筑复杂细节的地面级图像变化。摄像机到场景的距离很宽,产生了具有不同细节级(level-of-detail)和空间覆盖范围的多尺度数据,这给普通NeRF带来了巨大挑战,并走向一种折衷的结果。为解决这些问题,CityNeRF采用一种渐进学习(progressive learning)方式,同时发展了NeRF模型和训练集。从浅的base block拟合远视图开始,随着训练进行,添加新块以适应在越来越近的视图中出现的细节。该策略有效地激活了位置编码(positional encoding)中的高频通道,并在训练过程中打开更复杂的细节。各种各样城市规模场景,视图中有急剧变化,这方面CityNeRF有优势,而且支持不同细节级(level-of-detail)的视图渲染。
上面的图其实是告诉这样的事实:对城市规模场景,摄像机可以在很大程度上自由移动;值得注意的是,摄影机到场景的距离跨度很大,这导致了固有的多尺度特性:随着摄影机升高,场景中的地面目标将获得更粗的外观图,几何细节更少,纹理分辨率更低;与此同时,来自周边区域的新目标正以不断增长的空间覆盖率被一个个纳入视图中。
NeRF使用多层感知器(MLP)的权重,将体积密度和颜色做参数化,成为输入坐标的函数。对于图像上显示的每个像素,光线r(t)从相机的投影中心发射并通过像素。一种分层抽样方法,确定摄像机预定义的近平面和远平面之间光线的排序距离向量。对于射线上的任何查询点r(tk),MLP将用其傅里叶变换的特征,即位置编码(PE),输出颜色和密度:
将3D位置x(也可加上观察方向)的一组正弦和余弦映射组合到预定义的频率级M,可实现PE:
然后根据经典体绘制(volume rendering)方法对网络进行优化,其中所有采样点r(tk)的估计密度和颜色通过数值正交(quadrature)近似体绘制积分:
最后的(颜色)损失函数是:
不过,普通NeRF在某些情况下出现问题,如图所示:渲染图像上的瑕疵在实心框高亮区域显示,GT patch显示在侧面。(a) 在所有尺度的联合训练会导致:近景的纹理模糊,远景的几何不完整;(b) 每个尺度的单独训练产生连续尺度之间不一致的几何和纹理。
另外,位置编码PE也发现在尺度不同情况下的频率通道不同,如图所示:(a) 不同尺度的视图需要不同的傅里叶特征频率来恢复细节;虽然高频傅里叶特征对于近距离视图是必需的,但低频傅里叶特征足以表示远程视图;(b) 渐进式训练策略有效地激活了PE在较深区块(如B3)的高频傅里叶特征,而普通NeRF不断失败,即使加上最深的跳连接。
如图所示是提出的CityNeRF方法总概览:(a) 城市规模场景中多尺度数据的图示,其中L∈ {1,2,3,…}表示每个尺度。每个阶段模型都与训练集同步增长。(b) 新的residual blocks附加到网络中,从最远尺度到当前尺度的样本合并集,监督这个训练过程;residual blocks的结构如虚框所示。(c) 在不同residual blocks上获得的细节级渲染结果。可见细节从浅到深、一点一点地添加。
由于浅的base blocks适合在远视图上,因此所学习特征匹配低细节级,因此仅激活PE的低频通道。然而,新的residule blocks需要访问PE的高频通道,以便在更近的视图构建新的细节。
新层基于前面训练中最后点变换层得到的潜特征,输出残差颜色和密度:
头输出聚合成:
在一个多尺度监督框架下,在训练步L的损失是从所有以前的输出头聚合而成:
实验结果比较:
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程推荐:
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
多尺度的CityNeRF: Building NeRF at City Scale相关推荐
- 尺度不变特征变换匹配算法详解 Scale Invariant Feature Transform(SIFT)
1.SIFT综述 尺度不变特征转换(Scale-invariant feature transform或SIFT)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取 ...
- 2021年必读的10 个计算机视觉论文总结
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Louis Bouchard 来源丨DeepHub IMBA 编辑丨极市平台 本文是作者总结的今 ...
- 超赞!2021年最惊艳的38篇AI论文!
转载于 :新智元 1.Zero-Shot Text-to-Image Generation https://arxiv.org/pdf/2102.12092.pdf 文本到图像的生成传统上侧重于为固定 ...
- GAN独领风骚!盘点2021最惊艳38篇AI论文
来源:新智元 [导读]2021年是人工智能继续突飞猛进的一年.近日,Github上有人总结出了今年最有趣.最惊艳的38篇关于AI和机器学习论文,值得收藏. 1.Zero-Shot Text-to-Im ...
- 2021 年不可错过的 40 篇 AI 论文,你都读过吗?
来源:机器之心 编辑:蛋酱 虽然世界仍在从新冠疫情的破坏中复苏,人们无法向从前那样时常线下相聚.共同探讨交流关于学术领域的最新问题,但AI研究也没有停下跃进的步伐. 转眼就是2021年底了,一年就这么 ...
- 【学术相关】Github大盘点!2021年最值得推荐的38篇AI论文
新智元报道 来源:Github 编辑:David [导读]2021年是人工智能继续突飞猛进的一年.近日,Github上有人总结出了今年最有趣.最惊艳的38篇关于AI和机器学习论文,值得收藏. ...
- 尺度不变特征变换匹配算法详解
尺度不变特征变换匹配算法详解 Scale Invariant Feature Transform(SIFT) Just For Fun 对于初学者,从David G.Lowe的论文到实现,有许多鸿沟, ...
- 【尺度不变性】An Analysis of Scale Invariance in Object Detection – SNIP 论文解读
[尺度不变性]An Analysis of Scale Invariance in Object Detection – SNIP 论文解读 前言 本来想按照惯例来一个overview的,结果看到1篇 ...
- (十三:2020.08.28)CVPR 2015 追踪之论文纲要(译)
CVPR 2020 追踪之论文纲要(修正于2020.08.27) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...
最新文章
- Python 标准库之 fcntl
- SQL与NoSQL区别-规范化
- gstreamer 获取帧数据_Android App卡顿率(顺滑度、顺滑度)并整理数据
- 将查询结果插入到现有表中
- mysql 删除原理_MySQL权限原理及删除MySQL的匿名账户
- html 定义函数调用函数,请问HTML function函数怎么定义和调用?
- 【渝粤教育】 国家开放大学2020年春季 2542行政组织学 参考试题
- jq之mouseleave()
- asp.net 初步入门使用正则抓取网页信息
- 极客大学产品经理训练营 产品经理新人如何落地 第0课总结
- Git(10):删除远端仓库中多余文件(**.iml/target文件)
- 如何保存你的登录密码
- Linux系统之安装PDF阅读器
- 常见编程错误及解决方法,避免踩雷
- 课程设计 --- 黑白棋中的 AI
- 域名解析-/etc/hosts
- python多边形的绘制教程_绘制最新:python绘制封闭多边形教程_爱安网 LoveAn.com
- 你有什么道理后悔没早点知道
- The rate shock 利率冲击 | 经济学人中英双语精读笔记
- 量子力学与量子计算(2)——光电效应与爱因斯坦光子假说