大火的 Avatar到底是什么 ?

随着元宇宙概念的大火,Avatar 这个词也开始越来越多出现在人们的视野。2009 年,一部由詹姆斯・卡梅隆执导 3D 科幻大片《阿凡达》让很多人认识了 Avatar 这个英语单词。不过,很多人并不知道这个单词并非导演杜撰的,而是来自梵文,是印度教中的一个重要术语。根据剑桥英语词典解释,Avatar 目前主要包含三种含义。


avatar 在剑桥词典的翻译结果 © Cambridge University Press

最初,Avatar 起源于梵文 avatarana ,由 ava ( off , down )+ tarati ( cross over )构成,字面意思是 “下凡”,指的是神灵降临人间的化身,通常特指主神毗湿奴 ( VISHNU ) 下凡化作人形或者兽形的状态。后于1784年进入英语词语中。

1985 年切普・莫宁斯塔和约瑟夫・罗梅罗在为卢卡斯影视公司Lucasfilm Games ( LucasArts ) 设计网络角色扮演游戏Habitat时使用了 Avatar 这个词来指代用户网络形象。而后在1992 年,科幻小说家 Neal Stephenson 撰写的《Snow Crash》一书中描述了一个平行于现实世界的元宇宙。所有的现实世界中的人在元宇宙中都有一个网络分身 Avatar,这一次也是该词首次出现在大众媒体。

互联网时代,Avatar 一词开始被程序员们广泛使用在软件系统中,用于代表用户个人或其性格的一个图像,即我们常说的 “头像” 或 “个人秀”。这个头像可以是网络游戏或者虚拟世界里三维立体的图像,也可以是网络论坛或社区里常用的二维平面图像。它是可以代表用户本人的一个标志物。

从QQ秀到Avatar

如今支持让用户创建属于自己的头像已经成为了各种软件应用的标配,用户使用的头像也随着技术发展从普通 2D形象发展到了3D形象。里程碑事件当属2017 年,苹果在 iPhone X 发布了新功能 ——Animoji,使用面部识别传感器来检测用户面部表情变化,同时用麦克风记录用户的声音,并最终生成可爱的 3D 动画表情符号,用户可以通过 iMessage 与朋友分享表情符号。但是第一代不支持用户自定义形象,仅支持系统内置的动物卡通头像。随后更新的 Animoji 二代开始支持用户自由化捏脸,生成风格化的人脸头像。当前不少场景中可以看到自动化捏脸功能,仅通过拍摄一张或几张照片,自动生成符合用户人脸特点的CG模型,但背后依赖于复杂的CG建模及渲染技术支持。

Avatar也可以跳过昂贵的CG建模及渲染流程,通过机器学习算法将拍摄人脸进行“风格化”。即自动化将目标训练风格迁移、与拍摄者本来的面目特征做融合,创建符合用户脸部特征的风格化人脸 Avatar。

人脸风格化 Avatar 的四种技术实现路线

什么是人脸风格化?

所谓人脸风格化,就是将真实的人脸头像转换为特定的风格头像,例如卡通风格、动漫风格、油画风格,如下图所示:

基本上说,实现人脸风格化可通过纹理贴图、风格迁移、循环对抗网络和隐变量映射等几种技术路线实现。

纹理贴图

纹理贴图一般是给定一张样本图片,通过算法自动将该图片的纹理逐像素或逐块贴到目标人脸上,形成一种合理自然、可随动的人脸面具 [1]。


[1] 中样例图片

风格迁移

风格迁移是给定一张或一组风格照片,基于学习方法从风格图片中提取出风格编码、从目标人脸图片中提出内容编码,通过两组编码自动化生成对应的风格化图片 [2, 3]。只更改了人脸图片的表面纹理,而无法合理地保留或调整人脸的结构属性、形成有意义的结构性风格改变。

[3] 中样例图片

循环对抗网络

采用循环对抗网络的方法,通过利用循环对抗网络及其重建约束来训练得到可实现没有成对训练样本的风格化效果。往往配合使用风格迁移,即分别提取风格编码和内容编码。针对人脸的风格化也会显示建模并根据目标风格属性对人脸结构信息做形变(如基于人脸关键点)。但由于循环对抗网络缺少对中间结果约束(如A->B->A中的B)导致最终生成效果不可控、不稳定(即无法保证A->B的合理性)[4]。

[4] 中样例图片

隐变量映射

隐变量映射一般将一个预先训练好的真实人脸生成模型、利用一组风格图片往目标风格微调,从而获得一个对应的人脸风格化生成模型 [5, 6]。采用一个编码网络将输入人脸图片映射成或基于多步的优化得到该图片对应的隐变量,并将该变量作为人脸风格化生成模型的输入,从而得到该人脸图片对应的风格化图片。其中基于优化的隐变量映射方法往往得到比较好的效果,但在实际运行时需要大量计算。映射后的隐变量虽然包含了人脸的全局信息,但容易丢失原输入人脸的细节特征,容易造成生成的效果无法反映出个人辨识特征和细节表情。



[5] 中样例图片(来自https://toonify.photos/)

[6] 中样例图片

阿里云视频云自研卡通智绘 Avatar

2020年,由阿里云视频云自研的卡通智绘Avatar横空出世,获得了业界瞩目。在2021年10月的云栖大会上,阿里云视频云的卡通智绘项目亮相阿里云开发者展台,近2000名参会者争相体验,成为了大会爆款。

阿里云卡通智绘采用了隐变量映射的技术方案,对输入人脸图片,发掘其显著特征(如眼睛大小,鼻型等),可以自动化生成具有个人特色的虚拟形象(即风格化后的效果)。

首先利用自有的海量有版权的高清人脸数据集通过无监督的方式训练一个可以生成高清人脸图片的模型,即真实人脸模拟器,在隐变量的控制下生成大量不同人脸特征的高清人脸图片。利用收集的少量目标风格图片(目标风格图片无需跟真实人脸一一对应)微调该模型、得到风格化模拟器。真实人脸模拟器和风格化模拟器共享隐变量,即一个隐变量可以映射得到一对“伪”人脸图片及其对应的风格化图片。


通过采样大量的隐变量,我们可以得到大量涵盖不同人脸属性(性别、年龄、表情、发型、是否戴眼镜等)的数据对,从而用来训练图像翻译网络。基于人脸先天的结构性(如眼睛、鼻子等)以及真实人脸和风格化后虚拟形象的结构性差异(如卡通形象的眼睛往往又大又圆),在网络中加入局部区域相关性计算模块以及人脸重建的约束,从而训练得到的网络生成的虚拟形象既生动可爱、又具有个人特色。

模型设计

基于人脸先天的结构性(如眼睛、鼻子等)以及真实人脸和风格化后虚拟形象的结构性差异(如卡通形象的眼睛往往又大又圆),在网络中加入局部区域相关性计算模块(即希望真人的眼睛和虚拟形象的眼睛的特征有一定对应关系)以及人脸重建的约束,从而使生成的虚拟形象既生动可爱、又具有个人特色。

效果展示:

Avatar 的未来

得益于 AI 技术的高速发展,我们现在已经拥有了制作虚拟人技术,但相信这一切只是开端。在可预见的未来,Avatar 将作为元宇宙数字居民的数字化身,越来越频繁的出现在虚拟世界中。而 Avatar 也将成为虚拟世界中的极其重要的一项数字资产。

最后引用扎克伯格对数字人的一段描述,“虚拟世界的特征是存在感,即你可以真切感受到另一个人或在另外一个地方。创造、虚拟人和数字对象将成为我们表达自我的核心,这将带来全新的体验和经济机会。”

“The defining quality of the metaverse is presence, which is this feeling that you’re really there with another person or in another place,” Mr. Zuckerberg told analysts in July. “Creation, avatars, and digital objects are going to be central to how we express ourselves, and this is going to lead to entirely new experiences and economic opportunities.”

参考文献:
[1] Aneta Texler, Ondřej Texler, Michal Kučera, Menglei Chai, and Daniel Sýkora. FaceBlit: Instant Real-time Example-based Style Transfer to Facial Videos, In Proceedings of the ACM in Computer Graphics and Interactive Techniques, 4(1), 2021.
[2] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. A Neural Algorithm of Artistic Style. Journal of Vision September 2016, Vol.16, 326.
[3] Vincent Dumoulin, Jonathon Shlens, and Manjunath Kudlur. A Learned Representation for Artistic Style. In International Conference on Learning Representations 2017.
[4] Kaidi Cao, Jing Liao, and Lu Yuan. CariGANs: Unpaired Photo-to-Caricature Translation. In ACM Transactions on Graphics (Siggraph Asia 2018).
[5] Justin N. M. Pinkney and Doron Adler. Resolution Dependent GAN Interpolation
for Controllable Image Synthesis Between Domains. In NeurIPS 2020 Workshop.
[6] Guoxian Song, Linjie Luo, Jing Liu, Wan-Chun Ma, Chunpong Lai, Chuanxia Zheng, and Tat-Jen Cham. AgileGAN: Stylizing Portraits by Inversion-Consistent Transfer Learning. In ACM Transactions on Graphics (Siggraph 2021).

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

四种 AI 技术方案,教你拥有自己的 Avatar 形象相关推荐

  1. 大厂钟爱的全链路压测有什么意义?四种压测方案详细对比分析

    全链路压测? 基于实际的生产业务场景和系统环境,模拟海量的用户请求和数据,对整个业务链路进行各种场景的测试验证,持续发现并进行瓶颈调优,保障系统稳定性的一个技术工程. 针对业务场景越发复杂化.海量数据 ...

  2. 四种AI一键抠图软件,看看哪种适合你吧

    在日常生活中,许多人喜欢使用抠图工具来处理图片.抠图是一种去除图片背景的方法,使图片看起来更加美观和专业.抠图工具通常允许用户手动或自动选择要保留或删除的图像区域,以便更轻松地控制图片的外观.抠图工具 ...

  3. 复用和多址,手画一张图带你学习五种复用技术和四种多址技术及其区别

    很多时候我们经常碰到这些名词,频分复用.频分多址,时分复用.时分多址等等,我曾经就是被这些概念给搞混了,所以特地花了点时间来整理出下面的笔记,如下图.下面将会介绍五种复用技术和四种多址技术,然后他们之 ...

  4. 四种寻找技术合伙人的建议让你茅塞顿开

    移动互联网火热,创业者越来越多,但很多创始人都不是技术出身,在创业初期,除了花很多时间去找资源和找钱以外,大部分时间都花在找技术合伙人的路上.其实现在很多人的创业项目都不是以技术为主导,更多是因为自身 ...

  5. 成本速度定成败 四种宽带接入技术大比拼(1)

    尽管前几年曾出现DDN专线.ISDN等多种网络接入方式,但由于成本和速率等多方面的原因一直未能成功普及.现在宽带上网方式较多,目前大家可考虑的宽带接入方式主要包括四种--电信ADSL.FTTX+LAN ...

  6. python怎么画波浪线_国画知识:水很难画?四种常见画法图解教你,保证你一学就会画...

    俗话说:"水无常形",可见水是非常难画的,但是水真的很难画吗?只是你的画法不对而已,只要掌握好水的正确画法,画水其实很简单. 第一种:波浪法 波浪法顾名思义起笔画时就像波浪一样,用 ...

  7. C/C++编程知识分享:C++四种强制转换,教你多种类型转换方式!

    C语言的强制转换为在数据面前之间加数据类型进行转换,即(目标数据类型)原数据类型.c++为了更好的区分强制转换的类型,达到见其名知其意的效果,共将强制转换分为四种,即 1.static_cast< ...

  8. 四种宽带接入技术功能及说明

    1.xDSL 数字用户线(DSL)是基于普通电话线的宽带接入技术,它在同一对铜线上分别传送数据和语音信号,数据信号并不通过电话交换设备,从而减轻了电话 交换机的负担:而且无需拨号,一直在线,属于专线上 ...

  9. 【大师教】利用工业机器人四种编程技术来提高生产效率

    一.概述 当前机器人广泛应用于焊接.装配.搬运.喷漆及打磨等领域,任务的复杂程度不断增加,而用户对产品的质量.效率的追求越来越高.在这种形式下,机器人的编程方式.编程效率和质量显得越来越重要.降低编程 ...

最新文章

  1. 对另一个布局文件里的Button按钮进行监听
  2. 一张图解释Linux的目录结构
  3. 【Kafka】Kafka-配置参数详解-参数调优
  4. html必有标记,前段必备Html标签H5有标记-.docx
  5. Jenkins的一些代码
  6. js rem 单位适配(手机、平板、PC)?
  7. 华为交换机S3700清空配置方法
  8. mysql 多个密码登录_mysql 多实例登录密码测试
  9. Eclipse调试时Application XXX is waiting for the debugger to attach的提示
  10. Android内存优化之——static使用篇
  11. 阿里巴巴java规范_《阿里巴巴 Java开发手册》常用规范
  12. 极通EWEBS远程接入v4.2六步实施法
  13. Ubuntu镜像名称解释
  14. c语言中输入数组时用不用加地址符,C语言中,用格式符”%s”输入字符数组时,数组名前不能加。...
  15. 用友数据库最新会计期间_用友U8数据库维护常用表
  16. python 将一个正整数分解质因数。例如:输入90,打印出90=2*3*3*5。
  17. Python实现极大似然估计
  18. 2022-2028年中国体声波滤波器(BAW)行业市场专项调研及投资前景规划报告
  19. Android手机之 App2SD 和 App2SD+ 教程
  20. 淘宝找不到撤销退款申请_干货:找不到淘宝客推广?不如自己做淘客!

热门文章

  1. 太赫兹无线信道的测量、建模和分析
  2. ECCV 2018所有论文合集
  3. Python OpenCV实战应用
  4. MMSystem.h头文件
  5. 【调剂】无损检测与光电传感技术及应用国家工程实验室(南昌航空大学)2020年研究生调剂信息...
  6. 学校计算机机房应急预案,机房安全应急预案
  7. 软件开发流程(一):总结软件开发流程的经验教训
  8. win8 windows media player 服务器运行失败,Win8如何关闭Windows Media Player网络共享服务?...
  9. el-select 在iOS手机上,无法唤起软键盘
  10. 1、Linux下C语言 编写简单的网络嗅探器: 基本的数据包抓取分析