库克放大招啦!一张照片生成3D头像,新模型击败StyleGAN2!
来源:量子位
随便一张照片,就可生成3D头像。而且光线真实,任意角度可调。
这是苹果的最新黑科技生成框架FaceLit。
正如其名,FaceLit的特色就是可以将人脸“点亮”。
“自带光环”的FaceLit在易用性上也不输同类,甚至更胜一筹——
进行3D建模时,需要的照片素材无需专门选择角度,数量上也只需一张。
甚至对表情、发型、眼镜等元素进行调节时,也不需要额外素材。
而传统的头像合成工具或者需要多张图片才能工作,或者对照片角度有刁钻的要求。
正是凭借这一创新,FaceLit获得了3.5的FID评分,较同类产品直接高出了25%。
改进式EG3D合成人像,光线信息单独处理
下面就来看一下FaceLit具体是如何实现头像合成的。
总的来说,苹果采用了将人物本体与光线分别处理再进行叠加的策略。
早期的三维人像合成工具在转换过程中可能产生形变。
而爆火的NeRF通过将场景拆分成具体因素,提高了3D图像合成效果,改善了这一问题。
但苹果团队认为,在可控性方面,NeRF仍存有不足之处。
于是,在EG3D框架的基础上,苹果创造了FaceLit的合成模型。
EG3D通过三平面解码器,赋予了二维卷积神经网络生成渲染3D模型所需深度参数的能力。
苹果团队对标准的EG3D训练方式进行了扩展,并将之转化成了FaceLit框架。
△FaceLit与传统EG3D渲染流程对比图
标准的ED3G使用相机位置p参数作为基本输入参数。
在建立GAN2操作时,苹果在EG3D的基础上加入了光照参数l。
△不同p(左→右)与l(上→下)值下的初始图像
苹果选择了经过球形谐波方式简化后的Phong反射模型作为处理光源的物理基础。
光照参数l就是在这一基础之上独立处理得到的。
在自然界中,反射包括镜面反射和漫反射两种形式。
△不同镜面反射率条件下的效果对比
因此,苹果在ED3G模型中加入了镜面反射解码器和漫反射解码器。
它们替代了可以直接得到颜色c、密度σ数据的三平面解码器。
△反射解码器流程示意图
通过对GAN2产生的数据进行再次解码,可以得到镜面反射率ks和漫反射率kd。
然后再通过两种反射着色器得到颜色c,密度σ则由漫反射解码器计算得出。
最终,FaceLit以与三平面解码器相同的参数(c,w,σ)渲染图像,并进行分辨率优化。
有的放矢设计训练策略,数据无需人工标注
生成框架已有,那就来到训练阶段,其特点在于训练过程中无需人工标注。
方法论层面,在训练时,团队使用了FFHQ、MetFaces和CelebA-HQ数据集。
对于不同的数据集,苹果使用了不同的训练方式。
FFHQ包含了7万余条人脸数据,其训练分为两个阶段:先在较低的分辨率下训练,再提高分辨率再次进行。
对于包含2万数据量的CelebA-HQ,训练不需要分阶段进行。
而对于更小的MetFAces,则只需要通过ADA扩容的方式,使用预训练的FFHQ进行优化调整即可。
定性地看,训练结果在机位、光源和反射高光等方面都有出色的表现,图中的细节也有所增强。
△FaceLit生成的头像(左侧四列)唇齿部位的细节进行了明显重构
定量结果同样表明,FaceLit在FID、KID等指标上均优于包括标准EG3D在内的传统生成方式。
在使用FFHQ作为训练集的条件下,各生成方式的表现如下表,不难看出FaceLit拥有最低的FID和KID值。
而相比于英伟达的StyleGAN2,FaceLit的表现依旧出色:
光线准确度方面,FaceLit在使用三种不同训练数据集的情况下,与人工设定的标准值平均均方误差均低于0.01。
网友:人们低估了苹果AI
消息发出后,便有网友认为“这是对更重磅产品的预热”。
更有网友直接推测,FaceLit的出现标示着人工智能将进军AR和VR领域,苹果的混合现实将最终实现商用……
也有网友认为,FaceLit不会商用,否则苹果才不会以论文的形式发表。
针对FaceLit本身,也有网友表示,除了LLM,其他都是浮云,他们(苹果)如果不开发LLM,就没有未来。
但这位网友同时也说,苹果可能已经在做(LLM)了。
相应的,也有网友称人们“低估了苹果在AI领域的深度”。
所以各位网友对苹果在AI领域还有什么样的期待呢?
论文地址:
https://arxiv.org/abs/2303.15437
GitHub地址:
https://github.com/apple/ml-facelit
参考链接:
https://twitter.com/AlphaSignalAI/status/1648361623004774400
推荐阅读
西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》
润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)
如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研
奖金675万!3位科学家,斩获“中国诺贝尔奖”!
又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职
最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!
【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!
2021李宏毅老师最新40节机器学习课程!附课件+视频资料
欢迎大家加入DLer-计算机视觉技术交流群!
大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。
进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)
库克放大招啦!一张照片生成3D头像,新模型击败StyleGAN2!相关推荐
- 一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?...
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 随便一张照片,就可生成3D头像.而且光线真实,任意角度可调. 这是苹果的最新黑科技生成框架FaceLit. 正如其名,FaceLit的特色就是可 ...
- 最新“3D版”DALL·E爆火,超快速度生成3D点云模型,OpenAI向谷歌新领域发起挑战丨开源...
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 这边AI画画的热度还没下去,OpenAI已经连"3D版"AI画画都搞出来了. 没错,用文字生成3D点云模型,还是超--快的那种 ...
- 超百万人用它生成3D头像,这项技术刚刚中选了SIGGRAPH Asia 2022
如何才能做一个和真人一样的 3D 头像? 先上传一张照片: 变成这样: 换一个人的照片: 再看一个例子: 眼镜也可以放进来: 在此基础上,还可以换上各种各样的发型.饰品,眼睛.帽子.发色.胡须,皆可编 ...
- 捏脸是如何实现的?程序化生成3D头像
clonex.rtfkt.com 最近有一些类似程序化生成角色的需求,10k project这种头像类已经玩过很多了,3D类的是不是也是类似于这种排列组合呢? shadow Farazz Shaikh ...
- halcon双目搭建生成3d点云模型
1.搭建平台(halcon和c#联合) 1.1.光机 1.2.相机 1.3.平台搭建 1.4.大恒官网下载相机光机驱动 注意: 1.PC需要选择有USB3.0的端口,否则相机报警 2.标定板选择在光机 ...
- AI画师技术又精进了? AI画师三维版试玩——Dreamfields和DreamFusion向文本生成3D模型领域进发
0.AI画师二维版的出圈 最近AI画师的杰出表现让人惊讶无比,2022虽然不是ai绘图这项技术诞生的时间,但却是到目前为止最爆火出圈的绘图元年,现在市场上也已经有了很多成熟的AI绘画APP:用户仅需打 ...
- DCGAN生成二次元头像(Pytorch)
任务:基于Pytorch搭建DCGAN网络进行训练自动生成二次元头像的模型 文章目录 简介 网络介绍 代码详解 实验结果 参考 简介 好久没发Blog了,发个Pytorch的入门项目一起happy下~ ...
- 一张照片就能生成3D模型,GAN和自动编码器碰撞出奇迹,苏黎世联邦理工学院出品...
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 2D图片"脑补"3D模型,这次真的只用一张图就行了-- 只需要给AI随便喂一张照片,它就能从不一样的角度给你生成"新 ...
- 照片上的人出来了!云从3D人体重建登顶三项榜单,一张照片就能生成3D形象
郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI 跳起来的妹子被定格在半空中,成为一张平面的照片. 现在,输入这张照片到特定的程序里,就变成了这样: 不只360°,全角度可见的3D立体形 ...
最新文章
- AI在管理临床试验设计和执行中,人和机器还在学习曲线上?
- linux 修改时区_【003】一文全面掌握Linux初始化进程(超详细)
- 实录分享 | 计算未来轻沙龙:图神经网络前沿研讨会
- ssm(Spring+Spring mvc+mybatis)Spring配置文件——applicationContext-servlet.xml
- mysql中如何把两个查询结果列数不同并成一张表_MySQL
- B端产品如何做好从1到10的架构搭建?
- nagios监控windows主机 linux主机
- android NDK的单步调试
- 【muduo源码分析 】 MutexLock和MutexLockGuard封装
- 监控提示服务器状态变更,服务器故障排除与状态监控
- 归并排序 Java实现 简单易懂
- PS2022丨Photoshop 2022软件下载+Ps安装教程
- 淘宝被中差评了应该怎么办
- Excel数据分析—柱状图
- 利用openssl之 htps服务端和客户端编写
- Spring IOC解析
- 找出最长的有效括号内子括号的长度
- 数据爬取-奇技淫巧系列1——抓取隐藏在CDN,防爬代理等服务后面的数据
- 打工人的「周游世界」,AI算法帮你实现,泪目!
- OCAD应用:双高斯照相物镜半部结构设计
热门文章
- UEFI+GPT 双硬盘(固态+机械)装双系统(win10+ubuntu16.04)
- Android开发之视频播放器
- 数据结构(c语言版) 计算机科学丛书,数据结构与算法分析--C语言描述(原书第2版)(计算机科学丛书)...
- 共享打印机(联想M7605D)出现0x00000709错误代码的解决方法
- 在页面上的输入框中即可以输入文字,又可以动态的插入图片的功能.
- OSChina 周四乱弹 —— 为什么现在社会越来越鄙视直男
- 小白入门python教程自学python
- 海思3518ev200视频录制到TF卡,关于循环覆盖存储的问题。
- 智汇云校携手院校组织数千学生参加“2020华为中国大学生ICT大赛”
- [USACO13FEB]拖拉机Tractor