来源:量子位

随便一张照片,就可生成3D头像。而且光线真实,任意角度可调。

这是苹果的最新黑科技生成框架FaceLit

正如其名,FaceLit的特色就是可以将人脸“点亮”。

“自带光环”的FaceLit在易用性上也不输同类,甚至更胜一筹——

进行3D建模时,需要的照片素材无需专门选择角度,数量上也只需一张。

甚至对表情、发型、眼镜等元素进行调节时,也不需要额外素材。

而传统的头像合成工具或者需要多张图片才能工作,或者对照片角度有刁钻的要求。

正是凭借这一创新,FaceLit获得了3.5的FID评分,较同类产品直接高出了25%。

改进式EG3D合成人像,光线信息单独处理

下面就来看一下FaceLit具体是如何实现头像合成的。

总的来说,苹果采用了将人物本体与光线分别处理再进行叠加的策略。

早期的三维人像合成工具在转换过程中可能产生形变。

而爆火的NeRF通过将场景拆分成具体因素,提高了3D图像合成效果,改善了这一问题。

但苹果团队认为,在可控性方面,NeRF仍存有不足之处。

于是,在EG3D框架的基础上,苹果创造了FaceLit的合成模型。

EG3D通过三平面解码器,赋予了二维卷积神经网络生成渲染3D模型所需深度参数的能力。

苹果团队对标准的EG3D训练方式进行了扩展,并将之转化成了FaceLit框架。

FaceLit与传统EG3D渲染流程对比图

标准的ED3G使用相机位置p参数作为基本输入参数。

在建立GAN2操作时,苹果在EG3D的基础上加入了光照参数l

不同p(左→右)与l(上→下)值下的初始图像

苹果选择了经过球形谐波方式简化后的Phong反射模型作为处理光源的物理基础。

光照参数l就是在这一基础之上独立处理得到的。

在自然界中,反射包括镜面反射漫反射两种形式。

不同镜面反射率条件下的效果对比

因此,苹果在ED3G模型中加入了镜面反射解码器和漫反射解码器。

它们替代了可以直接得到颜色c、密度σ数据的三平面解码器

反射解码器流程示意图

通过对GAN2产生的数据进行再次解码,可以得到镜面反射率ks和漫反射率kd

然后再通过两种反射着色器得到颜色c,密度σ则由漫反射解码器计算得出。

最终,FaceLit以与三平面解码器相同的参数(c,w,σ)渲染图像,并进行分辨率优化。

有的放矢设计训练策略,数据无需人工标注

生成框架已有,那就来到训练阶段,其特点在于训练过程中无需人工标注。

方法论层面,在训练时,团队使用了FFHQ、MetFaces和CelebA-HQ数据集。

对于不同的数据集,苹果使用了不同的训练方式。

FFHQ包含了7万余条人脸数据,其训练分为两个阶段:先在较低的分辨率下训练,再提高分辨率再次进行。

对于包含2万数据量的CelebA-HQ,训练不需要分阶段进行。

而对于更小的MetFAces,则只需要通过ADA扩容的方式,使用预训练的FFHQ进行优化调整即可。

定性地看,训练结果在机位、光源和反射高光等方面都有出色的表现,图中的细节也有所增强。

FaceLit生成的头像(左侧四列)唇齿部位的细节进行了明显重构

定量结果同样表明,FaceLit在FID、KID等指标上均优于包括标准EG3D在内的传统生成方式。

在使用FFHQ作为训练集的条件下,各生成方式的表现如下表,不难看出FaceLit拥有最低的FID和KID值。

而相比于英伟达的StyleGAN2,FaceLit的表现依旧出色:

光线准确度方面,FaceLit在使用三种不同训练数据集的情况下,与人工设定的标准值平均均方误差均低于0.01。

网友:人们低估了苹果AI

消息发出后,便有网友认为“这是对更重磅产品的预热”。

更有网友直接推测,FaceLit的出现标示着人工智能将进军AR和VR领域,苹果的混合现实将最终实现商用……

也有网友认为,FaceLit不会商用,否则苹果才不会以论文的形式发表。

针对FaceLit本身,也有网友表示,除了LLM,其他都是浮云,他们(苹果)如果不开发LLM,就没有未来。

但这位网友同时也说,苹果可能已经在做(LLM)了。

相应的,也有网友称人们“低估了苹果在AI领域的深度”。

所以各位网友对苹果在AI领域还有什么样的期待呢?

论文地址:
https://arxiv.org/abs/2303.15437
GitHub地址:
https://github.com/apple/ml-facelit
参考链接:
https://twitter.com/AlphaSignalAI/status/1648361623004774400

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 奖金675万!3位科学家,斩获“中国诺贝尔奖”!

  • 又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

库克放大招啦!一张照片生成3D头像,新模型击败StyleGAN2!相关推荐

  1. 一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?...

    克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 随便一张照片,就可生成3D头像.而且光线真实,任意角度可调. 这是苹果的最新黑科技生成框架FaceLit. 正如其名,FaceLit的特色就是可 ...

  2. 最新“3D版”DALL·E爆火,超快速度生成3D点云模型,OpenAI向谷歌新领域发起挑战丨开源...

    萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 这边AI画画的热度还没下去,OpenAI已经连"3D版"AI画画都搞出来了. 没错,用文字生成3D点云模型,还是超--快的那种 ...

  3. 超百万人用它生成3D头像,这项技术刚刚中选了SIGGRAPH Asia 2022

    如何才能做一个和真人一样的 3D 头像? 先上传一张照片: 变成这样: 换一个人的照片: 再看一个例子: 眼镜也可以放进来: 在此基础上,还可以换上各种各样的发型.饰品,眼睛.帽子.发色.胡须,皆可编 ...

  4. 捏脸是如何实现的?程序化生成3D头像

    clonex.rtfkt.com 最近有一些类似程序化生成角色的需求,10k project这种头像类已经玩过很多了,3D类的是不是也是类似于这种排列组合呢? shadow Farazz Shaikh ...

  5. halcon双目搭建生成3d点云模型

    1.搭建平台(halcon和c#联合) 1.1.光机 1.2.相机 1.3.平台搭建 1.4.大恒官网下载相机光机驱动 注意: 1.PC需要选择有USB3.0的端口,否则相机报警 2.标定板选择在光机 ...

  6. AI画师技术又精进了? AI画师三维版试玩——Dreamfields和DreamFusion向文本生成3D模型领域进发

    0.AI画师二维版的出圈 最近AI画师的杰出表现让人惊讶无比,2022虽然不是ai绘图这项技术诞生的时间,但却是到目前为止最爆火出圈的绘图元年,现在市场上也已经有了很多成熟的AI绘画APP:用户仅需打 ...

  7. DCGAN生成二次元头像(Pytorch)

    任务:基于Pytorch搭建DCGAN网络进行训练自动生成二次元头像的模型 文章目录 简介 网络介绍 代码详解 实验结果 参考 简介 好久没发Blog了,发个Pytorch的入门项目一起happy下~ ...

  8. 一张照片就能生成3D模型,GAN和自动编码器碰撞出奇迹,苏黎世联邦理工学院出品...

    萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 2D图片"脑补"3D模型,这次真的只用一张图就行了-- 只需要给AI随便喂一张照片,它就能从不一样的角度给你生成"新 ...

  9. 照片上的人出来了!云从3D人体重建登顶三项榜单,一张照片就能生成3D形象

    郭一璞 发自 凹非寺  量子位 报道 | 公众号 QbitAI 跳起来的妹子被定格在半空中,成为一张平面的照片. 现在,输入这张照片到特定的程序里,就变成了这样: 不只360°,全角度可见的3D立体形 ...

最新文章

  1. AI在管理临床试验设计和执行中,人和机器还在学习曲线上?
  2. linux 修改时区_【003】一文全面掌握Linux初始化进程(超详细)
  3. 实录分享 | 计算未来轻沙龙:图神经网络前沿研讨会
  4. ssm(Spring+Spring mvc+mybatis)Spring配置文件——applicationContext-servlet.xml
  5. mysql中如何把两个查询结果列数不同并成一张表_MySQL
  6. B端产品如何做好从1到10的架构搭建?
  7. nagios监控windows主机 linux主机
  8. android NDK的单步调试
  9. 【muduo源码分析 】 MutexLock和MutexLockGuard封装
  10. 监控提示服务器状态变更,服务器故障排除与状态监控
  11. 归并排序 Java实现 简单易懂
  12. PS2022丨Photoshop 2022软件下载+Ps安装教程
  13. 淘宝被中差评了应该怎么办
  14. Excel数据分析—柱状图
  15. 利用openssl之 htps服务端和客户端编写
  16. Spring IOC解析
  17. 找出最长的有效括号内子括号的长度
  18. 数据爬取-奇技淫巧系列1——抓取隐藏在CDN,防爬代理等服务后面的数据
  19. 打工人的「周游世界」,AI算法帮你实现,泪目!
  20. OCAD应用:双高斯照相物镜半部结构设计

热门文章

  1. UEFI+GPT 双硬盘(固态+机械)装双系统(win10+ubuntu16.04)
  2. Android开发之视频播放器
  3. 数据结构(c语言版) 计算机科学丛书,数据结构与算法分析--C语言描述(原书第2版)(计算机科学丛书)...
  4. 共享打印机(联想M7605D)出现0x00000709错误代码的解决方法
  5. 在页面上的输入框中即可以输入文字,又可以动态的插入图片的功能.
  6. OSChina 周四乱弹 —— 为什么现在社会越来越鄙视直男
  7. 小白入门python教程自学python
  8. 海思3518ev200视频录制到TF卡,关于循环覆盖存储的问题。
  9. 智汇云校携手院校组织数千学生参加“2020华为中国大学生ICT大赛”
  10. [USACO13FEB]拖拉机Tractor