回想一下你曾经玩过的 3D 游戏:游戏场景可随鼠标前后左右任意角度移动,玩家也可获得完全沉浸式的体验感受。

与此相同,假如未来 3D 观球方式普及,你也可以用手指移动任意角度,清楚地观看球赛中的扣篮和进球。

图 | 用 4 个 RGB 相机实现自由视点(来源:受访者)

近日,浙江大学计算机辅助设计与图形学国家重点实验室的 “百人计划” 研究员、博士生导师周晓巍团队的论文,发表在计算机视觉顶会 CVPR 2021 上(IEEE Conference on Computer Vision and Pattern Recognition)。其中,周晓巍担任通讯作者,其学生彭思达为第一作者。

图 | 相关论文(来源:受访者)

研究主要成果是一款名为 Neural Body 的新型视图合成技术的实现与发展。综合来看,Neural Body 在使用时,其选取的输入视点较少,还能更好地捕捉人物的动作,高效完成 3D 立体成像。

这也意味着,将来的某一天,使用更少的摄影机,就可为全球各地观众带来一场亲临现场般的沉浸式观球体验。

图 | 从单个视频实现人体重建与视图合成(来源:受访者)

少量角度拍摄,合成 360° 人体 3D 视图

传统的 3D 视图合成技术一般比较依赖于 3D 重建,这种技术主要有两大限制 :一个是重建质量有限,导致视觉真实感较差;另一个是没办法处理一些反光表面或者透明区域。

随着技术的推进,近年来基于神经网络实现三维场景表示与渲染的技术逐步发展,以谷歌的 2D 图像转 3D 模型 NeRF 为代表,它能较好地解决上述问题中的一部分。

图 | Neural Body 的基本概念,Neural Body 可以基于神经网络从一组隐编码生成人体在不同帧的三维影像(来源:受访者)

但是,周晓巍表示:“我们意识到,还有一个问题没有解决,那就是动态场景的视图合成。” 他说,当场景是随着时间而变化时,我们需要能够建模这种变化,NeRF 作为针对静态场景的技术对此束手无策,而这正是该团队研发 Neural Body 技术的初衷。

图 | 和其他模型的对比(来源:受访者)

如果沿用静态视图合成的思路,一种方法是采用多视点的拍摄,当输入的图像角度足够多,理论上就能实现每一时刻单独去学习 3D 表示及渲染图像的目的。

但这需要大量相机对同一个人进行不同视角的拍摄,成本非常之高。“所以我们想的是怎样才能降低采集的成本,用非常稀疏的视角输入,比如三四个 RGB 相机就可以完成视图采集。今天,Neural Body 真的做到了。”周晓巍说。

图 | 隐式神经表示与结构化隐编码(来源:受访者)

概括来说,Neural Body 的贡献主要有以下几点:

能从稀疏的多视图视频合成动态人体的新视图,无需预先扫描人体模板;

提出了一种新的动态人体隐式表示,使研究人员能更有效地利用视频中所有帧的信息来学习人体的 3D 表示;

极大地提升了动态人体 3D 视图合成的效果。

渲染出各个视角的图像

上文提到的 NeRF 是基于一个叫辐射场(radiance field)的 3D 表示方式来完成视图合成。那么,什么是辐射场?

“你可以把辐射场理解成 3D 空间内每个点所发出光线的集合,记录了每个点的光线颜色及密度,基于辐射场就可以渲染出各个视角的图像。” 周晓巍表示。

对静态视图合成技术来说如 NeRF,当处理动态场景的时候,它需要针对不同时刻去学习不同的辐射场,而这些辐射场之间没有关联,因此学习效率很低。

图 | 视图合成技术的对比(来源:受访者)

Neural Body 与众不同的地方就在于,其假设不同时刻的辐射场都由同一组隐编码来生成,这一组隐编码附着在人体模型上,会随着人体运动。这样就可建立起不同时刻辐射场之间的联系,从而充分利用视频中所有时刻的信息,来学习人体的 3D 表示。

针对此方法,他们创建了一个多视图数据集来进行评估,该数据集使用一个有 21 个同步摄像头的多摄像头系统,共捕获 9 个动态人体视频,并选择 4 个均匀分布的摄像机进行训练,使用剩余的摄像机进行测试。

所有序列的长度都在 60 到 300 帧之间。结果表明,当人物进行复杂的运动,包括旋转、太极、手臂摆动、跳舞、拳击和踢腿等动作时,都能实现较好的重建与视图合成。

图 | 呈现各种动作的人的 3D 表示(来源:受访者)

通过对比可以发现,本次方法相比其他方法,能呈现出更多人物外观细节,特别是对于穿着宽松服装的实验者来说,Neural Body 可以精确地进行渲染,以下图女士为例,使用其他方法出来的效果图,其衣服和身体紧贴,而 Neural Body 出来的效果中,可明显看出衣服的轮廓。

图 | Neural Body 渲染的衬衫不会与人体紧密相连(来源:受访者)

未来有望大规模应用于电商直播和 VR 看房

随着 Neural Body 的不断迭代,周晓巍下一步会逐步优化技术。目前有几个地方亟待优化:

改进计算效率;

生成可驱动的人体模型;

实现重光照。

Neural Body 目前依赖于对人体动作的捕捉。在运动捕捉稳定性上,该团队近两年正在逐步提高。随着算法的不断迭代、以及硬件设备的改善,当 Neural Body 效率能够稳步提升到一个更高的层次后,实现商用将会指日可待。

对于未来的应用场景,周晓巍表示:“随着 3D 技术的发展,VR 产业正在迅速崛起。无论是对物品进行 360° 展示,还是体育比赛的自由视点观赛,或者说全息的沉浸式远程会议,都是 VR 将来的重要应用领域。而这些应用背后的关键技术正是视图合成。”

周晓巍认为,视图合成技术在短期内可能很快实现大规模应用领域为:电商领域、场景浏览如 VR 看房等。

从长远看,该技术的最大刚需是在“人人交互”上,如今天我们已经习以为常的语音连线和视频连线。可以想象,当 Neural Body 的技术更成熟后,开会就能以 3D 形式呈现,从而实现真正的远程零距离交流,就像坐在一起一样自然真实。

目前,该研究的相关代码已经在 GitHub 上开源,主要使用 Python 编程,少量代码使用 Shell 编程。该工作的合作者,还包括浙江大学的鲍虎军教授、张远青、帅青,香港中文大学的徐英豪,以及康奈尔大学的王倩倩。

坚定学术生涯,选择回国发展

周晓巍属于实打实的“学习他人,为我所用”,2008 年其本科毕业于浙江大学,2013 年获得香港科技大学博士学位,随后三年间,他在美国宾夕法尼亚大学 GRASP 机器人实验室从事博士后研究。

图 | 周晓巍(来源:受访者)

正是这三年的博后研究,才使他坚定了 3D 视觉的研究方向。随后,他带着热忱与梦想踏上了回国归途。

谈及回国原因,周晓巍觉得这是一个正确的选择,他看好国内的发展,认为国内相比国外在某些方面具有优势。

他说:“我个人感触比较大的是产学研的合作机会比较多。比如目前我们跟商汤、华为都有非常紧密的合作,通过这种产学研的结合,我们的研究成果既有对学术前沿的探索,又能根据实际需求去攻克一些技术瓶颈。与此同时,国内的 3D 视觉领域还处于新兴发展阶段,也需要我们回来一起把这个方向给发展壮大起来,不断缩短与国际领先水平之间的差距。”

而之所以没有选择进入业界,是因为他更喜欢学校的氛围。他觉得,从研究方向和周期上来说,在学校的自由度会大一些。

另一方面,在学校有机会接触到一些新萌发的想法和智慧 —— 这里往往聚集着一些最聪明,最有才华和想法的学生。通过和他们一起讨论与合作,可以把好的想法快速落地变成现实。

并且,浙大本身也有很多优秀学生。比如,本次研究中的彭思达虽然才 25 岁,但实战经验已经相对颇丰。

他目前是浙江大学 CAD&CG 国家重点实验室三年级博士研究生,研究三维重建与物体位姿检测。2019 年,彭思达参加中国研究生人工智能创新大赛,在一千多支参赛队伍中获得第一名。2020 年曾获评 CCF-CV 学术新锐奖,该奖项每年由中国计算机协会视觉专委会在前三年的领域内博士中评选三人,相关论文开源到 GitHub 后,已获得 Star 数 2000 余次。

图 | 彭思达(来源:受访者)

谈及研究过程,彭思达告诉 DeepTech:“一开始周老师让我做这个研究时,我几乎没有头绪。当时他给我看了 NeRF 和 DynamicFusion(此前动态三维重建的一个经典工作)这两篇文章。仔细研究后,我发现可以利用统计人体模型来整合时序信息,于是就有了 Neural Body 这篇文章。在此之前,我对统计人体模型一点了解都没有,多亏了组里帅青同学的帮助。全部做下来,最大的感触是:个人的知识总是有限的,要利用好实验室的资源,才能做出扎实的工作。”

-End-

http://xzhou.me/

https://arxiv.org/pdf/2012.15838.pdf

https://github.com/zju3dv/neuralbody

浙大 博士 计算机视觉,95后浙大博士生开发全新视图合成系统Neural Body,稀疏视角输入即可合成360°人体视图|专访...相关推荐

  1. “后浪95后”吴尚哲的 CVPR 最佳论文:无需任何监督,即可重建三维图像

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 我有一张二维照片,能让它变成三维图像么?可以,当前的一些3D电影相册工具,给图片加一个相框也能形成动态 ...

  2. 95后北大博士,任教北京高校走红网络,本人回应质疑!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文整合自:央视网综合九派新闻.极目新闻.上观新闻.映象网 随着各大 ...

  3. 95后博士生曹原连发两篇Nature,均为一作,网友:这才是真正的后浪

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 石墨烯研究领域的「巨浪」再次掀起! 当地时间 5 月 6 日,中科大 2010 级少年 ...

  4. 浙大博士130页论文,教你用人工智能挑西瓜

    作者 | 神经小姐姐 来源 | HyperAI超神经(ID:HyperAI) [导读]要问什么水果和夏天最搭,答案一定是西瓜.作为西瓜生产与消费大国,中国在 2018 年以全世界 20% 的人口消耗掉 ...

  5. 浙大博士求助:华为总包50万,oppo约70万,选谁?

    前言: 互联网时代催生网络热词无数,如今"人生赢家"这个词开始横行,越来越多的"人生赢家"也开始变得透明,当然,这些"人生赢家"们也总是拿着 ...

  6. 浙大博士在阿里:曾想低头离开,没想到一干就停不下来……

    点击查看全文 甲第,80后,标准的山东汉子,浙大博士. 目前在阿里巴巴安全部带着一百多号人的一个团队. 听说他有个标签"资深吵架专家",背后有什么故事呢? 学霸的青春也迷茫 从浙大 ...

  7. 冲上热搜!清华95后博士,搞科研演绎浪漫爱情故事获赞千万

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文系募格课堂整合,参考来源:清华大学.中国新闻周刊.辽沈晚报.微博 ...

  8. 博士申请 | 中山大学金枝教授课题组招收计算机视觉方向2023级博士生

    博士申请 | 中山大学金枝教授课题组招收计算机视觉方向2023级博士生 中山大学 中山大学深圳校区是教育部直属的综合性重点大学中山大学的主体校园之一.智能工程学院作为中山大学深圳校区新工科布局的重要组 ...

  9. AI一分钟|倪光南:“中国芯”切勿重硬轻软;阿里达摩院入职95后最年轻科学家,参与无人车研发...

    ▌倪光南:"中国芯"切勿重硬轻软 中国工程院院士.计算机专家倪光南在接受媒体采访时表示,"过去汽车电子领域被外国跨国公司所垄断,它们的芯片有强大的生态支持,使中国芯片难以 ...

  10. 第一批95后已经是阿里科学家了

    摘要: 14岁高考23岁博士毕业加入阿里,胡晋觉得AI是未来世界的原力,希望能成为"掌握原力的绝地武士". 前几天入职了一个新同事.他是一个95年出生的博士生,来阿里人工智能实验室 ...

最新文章

  1. 《ANSYS 14.0超级学习手册》一第2章 高级应用的基石——APDL
  2. 常见的 IO 模型有哪些?Java 中 BIO、NIO、AIO 的区别?
  3. java 传参字符串数组_JAVA语言之okhttp传递数组参数
  4. SQL CREATE TABLE 语句(转)
  5. linux redhat、ubuntu系统 docker启动、停止命令
  6. 青少年蓝桥杯_2020_steam考试_初级组_第三题
  7. 运维Linux系统中的用户管理
  8. 利用zookeeper实现分布式服务故障自动剔除/服务自动注册的思路
  9. 分度器中硒定位器的完整指南(示例)
  10. cpan mysql dbd,Perl中DBI和DBD-mysql模块的安装
  11. 我的docker随笔29:oracle数据库部署
  12. python 彩票分析_294期钱哥福彩3D预测奖号:杀号分析
  13. 以写代学:python shutil模块
  14. 《计算机网络 自顶向下方法》 第2章 应用层 Part1
  15. python yield和generators(生成器)
  16. Python Web 框架-Django day06
  17. lisp scheme 果壳_学习LISP(一): Scheme编辑器 Edwin
  18. 云南中医药大学计算机与科学技术,2019年云南科学技术厅-云南中医药大学应用基础-云南中医学院.PDF...
  19. python爬虫下载梨视频
  20. 分类算法及其应用场景

热门文章

  1. java c c++ 1000 套计算机毕业设计(论文+源码)
  2. c 语言病毒源码大全,易语言病毒源码大全
  3. hadoop 学习心得
  4. Django 设置中文和中国时区
  5. android Tbs腾讯X5内核初始化失败
  6. MySQL入门教程:SQL语言入门
  7. 非参数统计单样本非参数检验之Kolmogorov-Smirnov检验
  8. 产品配件类目税目分类_商品和服务税收分类编码表
  9. 批量找关键词的软件-再也不用担心找不着 关键词了
  10. 10款开源网上教学课程管理系统