【CV】给AI一张高清照片，分分钟还你细节满满的3D人体模型，GitHub标星4.4k

继上次分享的中科院博士用一张“静态图”就能实现人脸3D建模新研究，又一重要力作。

手动对人体进行3D建模并非易事。

但现在，只给AI一张高清照片，它还真就能分分钟搞定这件事。

甚至还挺高清，衣服褶皱、面部表情，细节一点不少。

这项新研究来自南加州大学和Facebook，中选CVPR 2020。

并且已经在GitHub上开源，标星3.6k，还在一天内就涨了207颗星，登上GitHub热榜。

一起来看看，这究竟是如何实现的。

论文摘要

深度神经网络驱动基于图像的3D人体形状估计发展前沿技术。尽管当前的方法已经证明了在现实环境中的潜力，但是它们仍然无法以输入图像中经常出现的细节水平进行重建。

作者认为，这种局限性主要来自两个相互矛盾的要求。准确的预测需要大背景，但是精确的预测需要高分辨率。由于当前硬件中的内存限制，以前的方法倾向于将低分辨率的图像作为输入来覆盖较大的空间上下文，并因此产生精度较低（或低分辨率）的3D估计。

作者通过制定一种端到端可训练的多层体系结构来解决此限制。粗糙级别以较低的分辨率观察整个图像，并着重于整体推理。这提供了一个很好的环境，可以通过观察更高分辨率的图像来估计高度详细的几何形状。

通过充分利用1k分辨率的输入图像，该方法在单图像人形重建方面明显优于现有的最新技术。

多级像素对齐隐式函数

这只AI名叫PIFuHD，其基础框架是ICCV 2019上已经登场的像素对齐隐式函数PIFu。不过，PIFu以分辨率为512×512的图像作为输入，输出的3D模型分辨率不高。

为了得到高分辨率的输出，在这项研究中，研究人员在PIFu的基础之上，额外叠加了一个像素对齐的预测模块。

如图所示，顶部粗层次像素对齐预测器捕捉全局的3D结构。高分辨率的细节则由下面的Fine模块添加。

具体而言，fine模块将1024×1024的图像作为输入，并将其编码成高分辨率的图像特征（512×512）。

此后，高分辨率特征嵌入和第一个模块中得到的3D嵌入被结合起来，用以预测占位概率场。

为了进一步提高重建的质量和保真度，该方法还会在图像空间中预测正反两面的法线图，并将其作为额外的输入反馈给网络。

细节捕捉高手

所以，跟前辈们相比，PIFuHD究竟进步了多少？

研究人员在People Snapshot dataset数据集上将其与此前的SOTA方法进行了定性比较。

可以明显看出，由于PIFuHD充分利用了基础形状和精细形状，能够直接在像素级别上预测3D几何形状，它对输入图像的细节把握更加精准，重建出来的3D人体模型分辨率更高。

Oral视频

Demo可玩

论文代码已经开源，并且，研究团队还在Colab上提供了在线试玩。

输入一张你自己的照片，几分钟之内就能收获一个数字3D的你。

真·3D建模师福音。

结合可以让3D模型动起来的Mixamo食用，网友们都玩嗨了。

赶快上手玩起来吧~

作者简介

最后，附上作者简介。

论文一作斋藤俊辅（Shunsuke Saito），目前在Facebook Reality Labs担任研究科学家，致力于深度人类数字化的有效数据表征研究。

他在南加州大学工作期间，曾与计算机图形学领域知名华人教授黎颢合作。

传送门

论文：https://arxiv.org/pdf/2004.00452.pdf
GitHub地址：https://github.com/facebookresearch/pifuhd
项目地址：https://shunsukesaito.github.io/PIFuHD/
Demo地址：https://colab.research.google.com/drive/11z58bl3meSzo6kFqkahMa35G5jmh2Wgt?usp=sharing#scrollTo=afwL_-ROCmDf

- END -

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑
获取本站知识星球优惠券，复制链接直接打开：
https://t.zsxq.com/qFiUFMV
本站qq群704220115。加入微信群请扫码：