3d卷积神经网络_HSNets:使用卷积神经网络从2D轮廓预测3D人体模型
文章摘要
本文使用人体二进制轮廓或阴影图像进行3D人体建模。利用参数化的人体模型,训练卷积神经网络(CNN)来学习从输入到形状参数的全局映射,这些参数用于在中性姿势下重构人体模型。同时还利用两个相互正交的轮廓图像来改善单个轮廓图像的预测效果。并在数千个真实数据上进行了评估,与同期方法相比,明显优于基于全局拟合的方法,并且速度比基于局部拟合的方法快几个数量级。
1. 引言
人体建模是计算机视觉中一个重要的问题,同时期的建模方法一方面依赖于特殊的算法并且需要手工制作特征;另一方面,大多数算法在实际应用中具有过高的时间复杂度。实践表明,神经网络在许多问题(例如分类、分割、姿势估计和形状分类)上表现优异。然而,在当时尚未考虑将该技术应用于人体建模。在应用方面,本文契合当下医疗和个人服装测量以及虚拟试衣相结合的趋势。
本文提出了一种准确、自动且非常快速的方法,利用卷积神经网络(CNN)来预测人体的3D模型,从而避免了手工制作特征和姿势的限制,同时在虚拟试衣和人体尺寸测量方面进行应用。本文分析了四种可能的情况作为网络的输入(a)将人的单个二进制轮廓缩放到固定大小,以防丢失相机校准信息;(b)将人的阴影图像缩放到固定大小,因为阴影会保留与轮廓互补的信息;(c)假定已知相机参数的正面轮廓;(d)假定已知相机参数的正面、侧面轮廓。本文假设人们穿着紧身衣服,并以允许轻微姿势变化的中立姿势站立,利用大约AlexNet大小的CNN ,学习了从输入到形状参数(20个)的全局映射。这些参数用于重建人体模型。此外,本文还展示了如何结合两个轮廓的人体视图来改善单个视图的预测。并通过计算人体尺寸值来评估模型。
2.方法
2.1 方法概述
本文的目标是从人体轮廓或阴影图像中准确估计3D人体模型。更具体地说,本文想利用CNN学习从2D图像到3D模型的形状参数的全局映射。本文将输入图像分为两类:轮廓图像和阴影图像。
如图1所示,本文将人体3D模型作为监督学习的一个实例。具体来说,本文解决了一个回归问题。使用基于SCAPE的统计人形模型生成数据,利用人体模型形变参数,重建3D人体模型。为了学习从数据到参数的全局映射,本文从头开始训练CNN,以发现从图像特征到人体模型参数映射最快、最有效的方式。
图1. 将四种输入类型之一(缩放到固定高度的正面轮廓,阴影图像,一个或两个未缩放的轮廓)馈入人体形状网络(HS-Net),以学习全局映射并预测人体模型参数,可用于重建人体模型。
2.2 人体模型
本文选择SCAPE人体模型。它是一个低维参数模型。SCAPE定义为一组12894个可形变的网格三角形,形变是由三角形的旋转、伸缩等参数控制的,分为姿态和体型形变参数。
更具体的说,形变包括关节旋转、姿势引起的非刚性变形和人体体型的变形。本文尝试估计人体体型形变参数。通过在相同姿势下堆叠不同人体的网格三角形变形来学习人体体型的变形空间,然后应用PCA。数据集包含大约5000个不同的人体模型,模板人体模型是所有人体模型的平均值,通过在每个人体模型上计算出每个三角形相对于模版模型的变形后,应用PCA来提取最大形变空间。经计算知,20个参数足以描述95%以上的形变。
本文对估计关节旋转的形变不感兴趣。由于本文的人体模型统一为中立的站立姿势,因此不需要估计姿势引起的变形。假设人体的形状不会因所考虑的姿势范围而显著变化,因此本文将姿势变形与体型变形解耦。
2.3 学习全局映射
本文将全局映射视为一个从2D图像到形状参数的回归问题。并从头开始训练类似于AlexNet的CNN。关于输入图像的数量,分为两种情况:一张正面视图图像,以及正面和侧面两张图像。
一张图像:正面视图图像可以以三种形式出现。首先,当摄像机校准未知时,以中性姿势将图像二进制人体轮廓缩放到固定高度。其次,如果相机参数是已知的,输入是轮廓大小和高度变化的固定大小的图像。本文最后考虑使用阴影图像与缩放轮廓互补一起作为输入。本文在Lambertian假设下使用阴影渲染图像。所有上述方法的输入大小均设置为264×192像素。
两张图像:本文还选择同时使用两个轮廓,即正面和侧面轮廓。假设已知的摄像机参数,这种情况的困难是如何在卷积网络中组合多个图像输入。本文提供和评估了三种不同的组合方法。第一种方法采用的模型架构与一张图像的情况非常相似,但输入图像沿通道维度进行堆叠,请参见图2。然后将这两个通道图像馈入网络进行训练。对于第二种方法,该体系结构与先前的情况不同,在两组卷积层之后添加了一个图像合并层,然后是完全连接的层,其中使用串联操作进行合并。第三种方法与第二种方法的区别在于,合并层在每个维度上执行Max操作。这三种方法都是对单视图案例的改进,其中最大合并操作是最好的。
图2.二张图像的输入架构。(a)将两个轮廓输入为两个通道。(b)将每个轮廓输入到两个单独的卷积层(CL)块中,然后通过合并层(c)将CL的输出连接在一起,但合并时执行Max操作。
3.实验
为了评估所重建模型的可靠性,必须进严格的定量实验,尤其是对人体各个重要身体部位的测量。本文对预测的人体模型进行评估,该模型是通过对CAESAR数据集的真实人进行扫描然后拟合模型参数而获得的,除了非常接近真实人的体型外,在此数据集上执行评估还能十分容易地测量身体的各个部位。这些模型非常逼真,可以看到手臂,腿甚至肩膀的不同开口。在本文的实验中,采用与图3(右上)相同的测量部位。为了进行评估,本文在16个人体尺寸测量中使用了1500个模型和4个真实的人。
图3. 不同输入类型的所有测量的平均误差。3个测试模型的姿势略有变化。
3.1 模型训练与参数设置
本文根据正视图和侧视图以及在Maya3的朗伯假设下生成的阴影图像生成轮廓。在进行预处理时,图像均居中,归一化为[0,1]间隔并固定为264×192像素分辨率。本文使用95000张图像进行训练,使用5000张图像进行验证。并对1500个真实的人类样本进行了测试。根据实验,训练通常会在15至25个轮次之间收敛。本文对RMSprop,Adagrad和Adadelta优化器进行了实验。观察到RMSprop(初始学习率为0.001)和Adadelta(衰减率为0.95)的收敛速度比Adagrad快,并且测试误差较小。因此,所有的实验结果均使用Adadelta训练的模型。对于两个视图,本文使用了一个视图中性能最佳的网络配置,但是对体系结构进行了修改以适应输入,本文在这里还区分了三种情况:HS-2-Net-CH用于将两个输入图像作为单个图像的两个通道传入;HS-2-Net-MM用于将两个输入分别训练为不同的单通道图像并应用合并层;HS-2-Net-MC应用Max合并操作。
3.2 定量实验
本文在测试模型上进行了16个尺寸的3D测量,对于直线测量,本文计算两个极端顶点之间的欧几里得距离,而对于椭圆形,则在模型表面上计算周长。对于每次测量,计算估计值与真实值之间的差,并列出测得身体尺寸的平均误差和在误差值上计算出的标准偏差(见表1)。
表1.各种输入和所介绍的训练方式以及最新方法(最后三列)的尺寸测量结果的误差比较。误差表示为平均值±标准差。
3.3 噪声的影响
由于轮廓提取算法还存在缺陷,本文评估了模型在噪声影响下的鲁棒性。通过使用各种半径的滤镜随机腐蚀或扩大轮廓在边框处的轮廓来对轮廓施加噪点,并对其进行1、3、5、7、9像素的评估。并绘制了多种尺寸(A-P)测量的误差,并在图4中显示了半径为1、5和9像素的嘈杂轮廓的示例。该方法在合理的噪声半径内可以获得与无噪声情况类似的性能,这意味着对噪声的鲁棒性。
图4. 施加噪声时尺寸(A-P)测量的误差图。3个轮廓,其噪声参数分别为1、5和9。
3.4 定性结果
本文展示了HS-1-Net-S获得的人体模型的结果,该轮廓取自图5中真实人物的图像。采用中性姿势站立,但是请注意手臂和腿部的变化。本文的方法设法重建准确的形状,即轻微的姿势变化不会影预测的鲁棒性。
图5. 4个真实对象在轻微变化的姿势下的模型重建。(左)输入图像(中)提取的轮廓(右)重建的模型。
4.讨论与总结
本文提出了一种新颖的技术,利用CNN准确地从轮廓或阴影图像中预测人体3D模型,并试图找到2D图像到3D模型形变参数的全局映射。本文对成千上万的人体和真实的人进行了广泛的评估。还通过综合实验证明,如果存在阴影信息,则可以获得更好的预测结果。由于缺乏真实数据,因此难以评估其在真实人上的性能。尽管轮廓提取不是本文的瓶颈,但由于对统一背景的假设,本文还是评估了在不同级别的噪声影响下的性能,并表明本文的方法在合理的假设下对轮廓噪声具有鲁棒性。本文进一步假设人类穿着紧身衣。将所提方法应用于穿着其他衣服的人会使误差增大。本文方法的局限性在于,在当前的训练中,它无法处理与中性姿势明显不同且包含自遮挡的姿势。这可以通过生成更大的训练集(包括更多突出的姿势)来解决此问题,这超出了本文的范围。
3d卷积神经网络_HSNets:使用卷积神经网络从2D轮廓预测3D人体模型相关推荐
- 收藏 | 3D目标检测综述:从数据集到2D和3D方法
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...
- 3D目标检测综述:从数据集到2D和3D方法
本文经机器之心(almosthuman2014)授权转载,禁止二次转载. 作者:Yilin Wang, Jiayi Ye 机器之心编译 编辑:Panda 目标检测一直是计算机视觉领域中一大难题.近日, ...
- 基于单幅图像的2D转3D算法研究(转)
原文地址:https://blog.csdn.net/trent1985/article/details/14449567 最近,3D影片盛行,3D电视技术也层出不穷,3D技术在带给大家非凡的视觉冲击 ...
- 基于单幅图像的2D转3D算法研究
最近,3D影片盛行,3D电视技术也层出不穷,3D技术在带给大家非凡的视觉冲击同时,也在告诉大家这背后隐藏了太多的商机. 目前的3D技术大体分为两种:软件技术和硬件技术.所谓硬件技术就是在拍摄影片时采用 ...
- 2D转3D技术的优势
从传统电影出现到目前为止,已经积累了大量的2D的电影,2D转3D可以让2D影片绽放3D的魅力.在3D电影的制作中,由于拍摄上物理的限制,很多特殊的镜头是拍摄不出正确的3D效果,和得不到需要的3D艺术效 ...
- 2D转3D 业界调研
北京聚力维度科技有限公司 公司网址 http://www.12dms.com/ 人工智能实时3D转换平台"峥嵘" 聚力维度的科幻成真实验室 目前已发展到"峥嵘5号&quo ...
- XRSPACE 总经理刘冠廷:元宇宙行业如何通过 2D、3D 联动,实现高速用户增长?
序言: 元宇宙领域创业并非坦途,似乎已经成为了行业共识. 即使到今天,VR/AR 领域的装备开支和上手学习成本居高不下,全球整体用户体量相比移动互联网也仍属早期阶段. 在这样的背景下,元宇宙公司如何持 ...
- xml文件 卷积神经网络_理解卷积神经网络中的输入与输出形状(Keras实现)
即使我们从理论上理解了卷积神经网络,在实际进行将数据拟合到网络时,很多人仍然对其网络的输入和输出形状(shape)感到困惑.本文章将帮助你理解卷积神经网络的输入和输出形状. 让我们看看一个例子.CNN ...
- 花书+吴恩达深度学习(十)卷积神经网络 CNN 之卷积层
目录 0. 前言 1. 2D 图像卷积 2. 3D 图像卷积 3. 过滤器(核函数) 4. 过滤器应用于边缘检测 5. padding 填充 6. stride 步长 7. 使用卷积的动机 8. 1乘 ...
最新文章
- SQL Server数据库表锁定原理以及如何解除表的锁定转
- 鲍姆-韦尔奇算法 数学推导
- 分布式事务解决方案框架(LCN)
- 【cocos】无法启动程序“..\proj.win32\Debug.win32\libcocos2d.dll
- html限制显示字数其余用...代替,html实现钝角效果;html实现限制一行字数的显示,超出的部分用省略号(....)来代替...
- 内部比较器:Comparable的定义使用
- [Scala]正则表达式——去除特殊字符,只保留中英文和数字以及下划线
- 顺德苹果售后维修体验
- 《东周列国志》第九回 齐侯送文姜婚鲁 祝聃射周王中肩
- LV4500二维码扫描器对接到安卓访客一体机系统应用-拓展扫描二维码登记访客功能
- mysql按天执行分区表sql_Mysql按天自动表分区教程
- 全美“50大好差事” 软件工程师排名第一
- SpringBoot结合Redis实现维护客户端登录状态
- 【思前享后】区块链应用
- glance镜像服务
- io包下 文件类 字节流 字符流 缓冲流 转换流 序列化流 打印流
- goland集成golint
- 汉澳sinox载入ntfs硬盘,移动ntfs硬盘,u盘 并读写完全成功
- Android 对接 dropbox Chooser
- 31-scrapy框架爬虫【简单应用】-3个例子
热门文章
- object references an unsaved transient instance【异常】
- 我可以强制pip重新安装当前版本吗?
- 如何强制Visual Studio重新生成aspx / ascx文件的.designer文件?
- 将新更新从原始GitHub存储库中提取到派生的GitHub存储库中
- #研发解决方案#智慧的太空桥管理智慧设备
- Linux系统(一)文件系统、压缩、打包操作总结
- linux svn安装和配置
- [zz]lxc使用tc+tbf限制网速
- WCF技术剖析之二十五: 元数据(Metadata)架构体系全景展现[WS标准篇]
- MspEmu W.I.P