超百万人用它生成3D头像,这项技术刚刚中选了SIGGRAPH Asia 2022
如何才能做一个和真人一样的 3D 头像?
先上传一张照片:
变成这样:
换一个人的照片:
再看一个例子:
眼镜也可以放进来:
在此基础上,还可以换上各种各样的发型、饰品,眼睛、帽子、发色、胡须,皆可编辑。
这效果,是不是可以做一套自己专属的表情包了?
创造这些 3D 头像的 AI 模型,是字节跳动技术团队创造出来的 AgileAvatar,已经中选了计算机图形学顶会SIGGRAPH Asia 2022。而它的前身,是我们去年介绍过的 AgileGAN 。
AgileAvatar 使用自监督学习的方式训练完成,也就是说,它无需耗费大量“人工”,直接实现“智能”,不需要标注数据即可训练,因此也更容易变成可用的产品。
应用于 TikTok Avatar 以及创建游戏角色
AgileAvatar 技术已经应用在 TikTok 中,今年年初的 TikTok Avatar 功能背后的模型就是它,这个功能上线后迅速收获了超过百万尝鲜用户。
另外,AgileAvatar 也将会在近期上线的游戏《星球:重启》中落地,这是一款朝夕光年旗下多端发行的科幻生存游戏,当玩家进入游戏创建角色时,可以上传真人照片,借助云端算法模型,创建和本人更像、更生动的虚拟角色。
注意,左下角是上传到游戏里的原图
即便你上传的不是真人照片,也可以基于图片来创建你的游戏角色。
甚至你上传的是表情包也行:
三个步骤输出可编辑 3D 头像
如何让照片变成 3D 头像?论文中介绍了三个主要的步骤。
先输入的一张正面的人脸照片。
第一步,借助一个风格化模型,直接把照片变成一个平面的头像。在这一步里,为了让最终的 3D 头像更像这个人本人,模型忽略了照片中的表情,更真实的展现出这个人的样貌。
注意,这还是一张平面图
这一步使用的模型,正是作者团队此前曾中选 SIGGRAPH 2021 的 AgileGAN,并做了两个调整:
一方面,为了让照片中人物的表情不影响生成效果,作者微调了 GAN 模型的生成器,只用无面部表情的数据来训练,这样模型就只会生成无表情的图形;
另一方面,为了保留照片里人物的眼镜等样貌特征,作者提出使用携带语义信息的 W+ 空间,相比于 AgileGAN 的 Z 空间,能更好的保留这些语义特征。
就像这样,下图左边一列是输入的原图,中间一列是原本 AgileGAN 的生成结果,右边一列是调整后的生成结果,人物的表情消失了,眼镜保留了。
第二步,通过一个自监督学习的模型确定一组参数,根据这组参数,模型把上面那张平面图,变成下面这样的 3D 头像。
现在,它是3D的了
这一步里,论文作者自己造了一个可微分的神经渲染器,直接集成在模型里,它可以达到图形学引擎的渲染能力,同时也可以让模型能在自监督学习的框架下进行训练。
为什么一定要造一个渲染器放进去呢?
一般来说,想要给这样一个 3D 头像建模,需要用到两种参数:
一种叫离散参数,它用来确定眼镜、头发等部位的类型,决定一个部位“是什么”;
另一种叫连续参数,靠它确定人脸长度、眼睛大小等数值,决定一个部位“有多大”。
训练模型的时候,如何把他们两个放在一起优化一直是一个棘手的问题。于是作者决定不强制模型估计离散值,而是将离散空间扩展到连续空间进行优化,这样能够帮助收敛。
然而,解决了一个问题,另一个问题出现了:
这样会导致算法生成的是一个粗糙的 3D 形象,没法用现成的图形学引擎来渲染——那就只能现造一个。所以就有了下面这一步,生成一个精细的头像,它的参数空间和 3D 头像的建模系统完全匹配。
第三步,用搜索的方式从预先设计好的大量素材中找到和它最像的头发和肤色,把它从一个粗糙的 3D 头像变成一个精致的矢量化 3D 头像。
三个步骤完成后,把生成的 3D 头像输出为一个可编辑的 3D 模型,进行你想操作的任何编辑。
比如可以修改发型和装饰:
看,发型、发色、胡须、眼镜都可以编辑
可以做表情包:
可以实现人脸驱动,在录视频的时候当做虚拟头像:
AgileAvatar 项目相关链接
项目网站:
https://ssangx.github.io/projects/agileavatar
论文地址:
https://arxiv.org/abs/2211.07818
字节跳动智能创作团队
AgileAvatar 的研发者来自字节跳动智能创作团队。
智能创作团队是字节跳动 AI、特效和音视频创作技术和业务中台,负责了各短视频平台和视频剪辑产品的核心技术和业务研发,涵盖了深度学习、计算机视觉、图形学、语音、拍摄编辑、特效、客户端、服务端工程等技术领域,并以多种形式向公司内部其他各业务线以及外部合作客户提供业界最前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
字节跳动智能创作团队部分技术岗位正在招聘中,欢迎点击文末「阅读原文」或扫描下图二维码投递简历。
超百万人用它生成3D头像,这项技术刚刚中选了SIGGRAPH Asia 2022相关推荐
- 库克放大招啦!一张照片生成3D头像,新模型击败StyleGAN2!
来源:量子位 随便一张照片,就可生成3D头像.而且光线真实,任意角度可调. 这是苹果的最新黑科技生成框架FaceLit. 正如其名,FaceLit的特色就是可以将人脸"点亮". & ...
- 一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?...
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 随便一张照片,就可生成3D头像.而且光线真实,任意角度可调. 这是苹果的最新黑科技生成框架FaceLit. 正如其名,FaceLit的特色就是可 ...
- 捏脸是如何实现的?程序化生成3D头像
clonex.rtfkt.com 最近有一些类似程序化生成角色的需求,10k project这种头像类已经玩过很多了,3D类的是不是也是类似于这种排列组合呢? shadow Farazz Shaikh ...
- android o 结构光流程,惊艳亮相!一分钟看懂OPPO Find X 3D结构光技术是什么鬼,太牛了...
法国时间6月19日,OPPO在巴黎卢浮宫正式举办未来旗舰Find X发布会.此次亮相的Find X新机,既有充满艺术感的3D玻璃机身设计,又有3D结构光.曲面全景屏.双轨潜望结构等多项黑科技.众多黑科 ...
- 全球与中国3D透视导航技术市场现状及未来发展趋势(2022)
本文研究全球及中国市场3D透视导航技术现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲.中国.日本.东南亚和印度等地区的现状及未来发展趋势. 根据QYR(恒州博智)的统计及预测 ...
- Android3d结构光,一文看懂OPPO Find X 3D结构光技术有多牛
法国时间6月19日,OPPO在巴黎卢浮宫正式举办未来旗舰Find X发布会.此次亮相的Find X新机,既有充满艺术感的3D玻璃机身设计,又有3D结构光.曲面全景屏.双轨潜望结构等多项黑科技.众多黑科 ...
- 最新“3D版”DALL·E爆火,超快速度生成3D点云模型,OpenAI向谷歌新领域发起挑战丨开源...
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 这边AI画画的热度还没下去,OpenAI已经连"3D版"AI画画都搞出来了. 没错,用文字生成3D点云模型,还是超--快的那种 ...
- 照片生成3D虚拟数字人,虚拟形象主播搭建(软件+教程)
1.一张照片快速生成3D虚拟数字人,无需建模和动画基础 2.真人驱动数字人,数字人代替真人出镜,真人无需露脸也能轻松做直播 3.形象丰富,角色自定义,场景自定义,可以每天都换着花样的直播 5.操作简单 ...
- 或比人眼更清晰!世界首个3D人工眼球问世:数百万人重见光明
来源:快科技网站 据媒体报道,香港科技大学的研究人员发表在<自然>杂志上的一项新研究表明,设计出世界上第一个3D人造眼球,或将比人眼成像更清晰.如果一切进展顺利,预计五年内可以让数百万人重 ...
最新文章
- python中sorted函数逆序_Python中sorted函数的用法(转)
- 【系统架构师修炼之道】(1):『序』
- mysql内置变量_详解MySQL注入利用的变量
- 全国计算机等级考试题库二级C操作题100套(第71套)
- 2021牛客暑期多校训练营7 J-xay loves Floyd(最短路+bitset优化集合交)
- 原生开发小程序 和 wepy 、 mpvue 对比
- 你见过股市亏最惨的有多惨?
- 微信小程序 云开发 生成带参数小程序二维码
- Python垃圾回收机制:gc模块
- JMeter之接口测试脚本编写
- 给个华为服务器账号和密码忘了怎么办啊,华为路由器登陆用户名和密码忘了怎么办?...
- Xuxiang Qi--Deep Learning based Semantic Labelling of 3D Point Cloud in Visual SLAM
- 数论 —— 逆元与同余式定理
- Android耗电统计算法
- 【word 2016】保存太慢解决办法
- [Algorithms] Gale-Shapley算法(婚姻匹配问题,高考录取机制)
- deep learning实践经验总结
- Markdown还能这么玩?这款开源神器绝了
- 2.3、JavaScript 数据类型 - 数字类型
- 关于google浏览器打不开网页问题之容易被忽略的点