基于图像到UV Map映射的3D手部高保真重建网络（ICCV2021）

论文地址：https://arxiv.org/pdf/2102.03725v2.pdf

Introduction

Challenge：由于不同的手部姿势和严重的遮挡，目前方法的结果缺乏准确性和保真度。

Main Contribution：提出了一个I2UV-HandNet模型，用于精确的手部姿态和形状估计，以及三维手部超分辨率重建。

具体来说，（1）提出了第一个基于UV的三维手部的形状表示；（2）设计了AffineNet，以图像到图像的转换方式从输入预测UV位置贴图；（3）利用额外的SRNet网络将低分辨率UV贴图转换为高分辨率UV贴图。

Related Work

3D Hand Pose Estimation：三维手部姿态估计任务的目的是预测手部关节的三维位置。近年来，从深度图像或RGB图像中估计三维手姿态得到了很好的探索。由于三维关节标注难以直接从二维图像中获取，许多方法利用三维关节与其二维投影的对应关系来提高三维姿态估计。在本文中，作者仅使用输出的三维关节来帮助评估手部网格建模的性能。

Hand Pose and Shape Estimation：由于稀疏关键点对三维形状的表示方式有限，最近的工作将稀疏姿态估计与密集形状重建相结合，以提供更好的形状表示。该领域的方法可分为两类——是否使用先验模型。虽然参数模型带来了三维形状先验，但从RGB图像中估计模型的参数打破了二维像素之间的空间关系。在这项工作中，作者提出了一个更通用的高保真手部重建解决方案，输入一个低分辨率的UV位置图，并输出一个高分辨率的UV位置图。

Dense Shape Representation：虽然通过参数模型或三维网格来表示三维形状既简单又易于监督，但也有其他工作提出以更密集的方式来表示三维表面。引入UV表示法来表示图像到曲面的对应关系，然后可以直接利用2D CNN来学习图像到UV的映射，但是会出现坐标歧义的问题。在本文中，作者首次将UV位置图引入手部重建任务，并提出了一个连接模块减少坐标歧义的问题。

Method

3D Hand Representation：MANO是一种从手部扫描中学习的参数化手部模型，它定义了从姿势和形状参数到包含778个顶点和1538个面的网格之间的映射，其中面拓扑是固定的，以指示手部曲面中顶点的连接。根据预定义的顶点索引，作者使用MANO模型推断得到16个关节和5个指尖。

Hand Surface as UV Position Map：给定一个手部表面，如MANO手部网格时，可以将该表面展开成一个UV图，这样可以将三维表面表示为一个图像。UV映射定义网格顶点和图像像素之间的对应关系，如下图所示。

在训练时，AffineNet直接从输入图像中输出UV位置图，而SRNet从UV位置图输入中输出另一种UV位置图，最后通过上述定义的UV映射，从UV位置图中重新恢复三维手部网格模型。

AffineNet：为了预测手部形状的UV位置图，采用编码器-解码器结构将输入图像映射到UV图像中。给定一个手在其范围内的彩色图像I，使用ResNet-50作为主干网络将图像编码为一系列具有不同分辨率的编码特征{Eⁱ|i=1,2,3,4,5}。在扩展路径中，每一步都对特征图和预测的UV图进行上采样，同时使用相应的编码特征图，得到一系列解码特征{Dⁱ|i=0,1,2,3,4}和预测的UV位置图{Iⁱ_UV | i=0,1,2,3,4}：

其中，Eⁱ是在第i层编码的特征图，Aⁱ是通过仿射变换的UV对齐特征，Dⁱ是特征图，F_up表示2倍上采样，F_ac表示仿射连接操作，f_conv表示卷积层，π表示从UV位置图到图像坐标系的投影。

SRNet：由于3D手部表面由UV位置图表示的，因此通过UV图像空间中的超分辨率获得更精细的手部表面。作者提出了一种SRNet来将低分辨率的UV位置转移到一个高分辨率的图中。SRNet的网络结构类似于超分辨率卷积神经网络(SRCNN)，但是输入和输出的是UV位置映射，而不是RGB图像。通过SRNet回归高分辨率UV位置图后，可以重建具有较高保真度的手部网格模型。

Training Objective

Losses of the AffineNet：为了学习AffineNet，使用了三种对齐损失，分别是UV对齐E_UV、UV梯度对齐E_grad和网格对齐E_verts：

UV对齐：作者提出了一种基于真实UV位置图Iˆ_UV和输出UV位置图I_UV之间L1距离的对齐损失E_UV：

UV梯度对齐：理想的手部表面应该是连续的，UV位置图也应该是连续的。为此，作者引入了一种UV梯度对齐，以鼓励预测的UV位置图与真实的UV位置图共享相同的梯度：

网格对齐：除了在2D UV位置图空间中计算形状重建的E_UV和E_grad外，作者还引入了网格对齐损失E_verts，以强制预测的3D手部网格与真实网格对齐：

Losses of the SRNet：SRNet的输出是UV位置图，它与AffineNet的输出相似，只是SRNet可以产生一个具有更高分辨率的UV图。在这里，作者采用了类似的损失函数：

将E_UV中的组件替换为SRNet中相应的组件来表示E_UV—SR，E_verts—SR也是采用同样的方式。

Experiments

在FreiHAND测试集上的主要结果的比较

在HO3D测试机上的主要结果的比较

备注：作者也是我们「3D视觉从入门到精通」特邀嘉宾：一个超干货的3D视觉学习社区

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~