本文介绍了人脸风格化技术的整个流程,以及该技术在直播、短视频等场景下的应用。该技术可作为氛围营造、提高观感的有效手段,也可在买家秀等图文场景下起到人脸隐私保护、增添乐趣等作用。

前言

随着元宇宙、数字人、虚拟形象等概念的爆发,各种数字化协同互动的泛娱乐应用也在不断的落地。例如,在一些游戏中,玩家成为虚拟艺人参与到高还原度的现实艺人日常工作中,并会在特定情况下,与虚拟艺人在人脸表情等层面上形成强映射提升参与感。而由阿里巴巴天猫推出的超写实数字人AYAYI和井柏然联合“带逛”的杂志《MO Magazine》,则打破传统的平面阅读体验,以虚实结合的形式让读者获得沉浸式体验。

而在这些泛娱乐应用场景中,“人”必然是首要考虑的一步。而人工设计的数字、动画形象,存在过于“抽象”、代价高昂、缺乏个性化等问题。因此在人脸数字化上,我们通过研发具有良好控制感、ID感、风格化程度的人脸风格化技术,实现风格定制化的人脸形象切换。该项技术不仅可以在直播、短视频等娱乐消费场景下作为氛围营造、提高观感的有效手段,也可在买家秀等图文场景下起到人脸隐私保护、增添乐趣等作用。更进一步的想象,若不同的用户聚集在某个数字社区内,用该社区风格的数字形象聊天社交(例如“双城之战吧”的用户在元宇宙内用双城之战风格化形象友好交流),那是多具有代入感的事情。

双城之战动画

左图为原始AYAYI的形象,右图为风格化后的形象。

而为了将人脸风格化这项技术落地到我们的直播、买家秀、卖家秀等不同的泛娱乐业务场景,我们做到了:

  1. 低成本生产不同人脸风格化编辑的模型(本文所展示的所有效果均在没有任何设计资源的投入下实现的);

  2. 适当进行风格编辑以配合设计、产品、运营进行风格选型;

  3. 能够在人脸ID感和风格化程度之间做倾斜与平衡;

  4. 保证模型的泛化性,以适用于不同的人脸、角度、场景环境;

  5. 在保证清晰度等效果的前提下,降低模型对算力的要求。

接下来,我们先看一下demo,然后再介绍我们整个技术流程:感谢我们的产品mm——多菲~

整体方案

我们的整体算法方案采用三个阶段:

  1. 阶段一:基于StyleGAN的风格化数据生成;

  2. 阶段二:非监督图像翻译生成配对图像;

  3. 阶段三:使用配对图像进行移动端有监督图像翻译模型的训练。

人脸风格化编辑整体算法方案

当然,也可以用二阶段方案:StyleGAN制作pair图像对,然后直接训练有监督小模型。但增加非监督图像翻译阶段,可以将风格化数据生产和配对图像数据制作两个任务解耦开来,通过对阶段内算法、阶段间数据的优化改进,结合移动端有监督小模型训练,最终解决低成本的风格化模型生产、风格的编辑及选型、ID感及风格化的倾斜、部署模型的轻量化等问题。

基于StyleGAN的数据生成

使用StyleGAN算法进行数据生成的工作上,主要针对3个问题的解决:

  1. 提升模型的生成数据丰富度和风格化程度:例如生成CG脸更像CG,且各个角度、表情、发型等形象更丰富;

  2. 提升数据生成效率:生成的数据良率高、分布更加可控;

  3. 风格编辑及选型:例如修改CG脸的眼睛大小。

下面我们针对这三方面展开。

  丰富度和风格化

基于StyleGAN2-ADA的迁移学习遇到的第一个重要问题就是:模型的丰富度和模型的风格化程度之间的trade-off。使用训练集进行迁移学习时,受训练集数据的丰富度影响,迁移后的模型在人脸表情、人脸角度、人脸元素等方面的丰富度也会受损;同时,随着迁移训练的迭代代数增加、模型风格化程度/FID的提升,模型丰富度也会越低。这会使得后续应用模型生成的风格化数据集分布过于单调,不利于U-GAT-IT的训练。

为了提升模型的丰富度,我们进行了如下改进:

  1. 调整、优化训练数据集的数据分布;

  2. 模型融合:因为源模型在大量数据上进行训练,所以源模型的生成空间具有非常高的丰富度;如果将迁移模型低分辨率层的权重替换为源模型对应层权重得到融合模型,则可使得新模型的生成图像在大的元素/特征上的分布与源模型一致,从而在低分辨率特征上获得与源模型一致的丰富度;

    融合方式:Swap layer直接交换不同层的参数,容易造成生成图像的不协调、细节bad cases;而通过平滑的模型插值,可以获得更好的生成效果(下面的图示皆由插值融合方式的融合模型生成的)

  3. 对不同层的学习率以及特征进行约束、优化调整;

  4. 迭代优化:人工筛选新生产的数据,添加到原风格化数据集中以提升丰富度,然后在迭代训练优化直到得到一个能生成较高丰富度、满意风格化程度的模型。

原图,迁移模型,融合模型

  数据生成效率

如果我们拥有一个丰富度高的StyleGAN2模型,那如何生成一个具有丰富分布的风格数据集呢?有两个做法:

  1. 随机采样隐变量,生成随机风格数据集;

  2. 使用StyleGAN inversion,输入符合一定分布的人脸数据,制作对应的风格数据集。

做法1可以提供更丰富的风格化数据(特别是背景的丰富度),而做法2可以提高生成数据的有效性和提供一定程度的分布控制,提升风格化数据生产效率。

原始图像,StyleGAN Inversion得到的隐向量送入“高级脸风格/动画风格” StyleGAN2生成器得到的图像

  风格编辑及选型

原始风格不太好看是就没法用了

迁移训练后的模型风格就没法改了

No No No,每一个模型不止可以用来生成数据,也可沉淀为一个基础组件、基础能力。不止是想在原始风格上做微调、优化,甚至是想创造新的风格,都是可以的:

  1. 模型融合:通过融合多个模型、设置不同的融合参数/层数、使用不同的融合方式等,可以实现对劣势风格模型做优化,也可实现风格的调整;

  2. 模型套娃:将不同风格的模型串联,使得最终输出的风格携带了中间模型的一些五官、色调等风格特征。

融合过程中实现对漫画风格的微调(瞳孔颜色、嘴唇、肤色色调等)

通过风格创造及微调,可以实现不同风格的模型,从而实现不同风格人脸数据的生产。

通过基于StyleGAN的迁移学习、风格编辑优化、数据生成,我们便可以获得我们的第一桶金

移动端人脸风格化技术的应用相关推荐

  1. 基于深度学习的端到端人脸识别技术:全面调研

    44页,共计371篇参考文献.本文全面介绍了端到端深度学习人脸识别技术,包括人脸检测,人脸预处理和人脸表征等方向,详细介绍了最新的算法设计,评估指标,数据集,性能比较等. The Elements o ...

  2. 风格化图像_【技术综述】人脸风格化核心技术与数据集总结

    我的新书<深度学习之人脸图像算法>市了,欢迎大家关注! 言有三新书来袭,业界首次深入全面讲解深度学习人脸图像算法​mp.weixin.qq.com 人脸图像是计算机视觉领域中研究历史最久, ...

  3. 【技术综述】人脸风格化核心技术与数据集总结

    人脸图像是计算机视觉领域中研究历史最久,也是应用最广泛的图像.近几年随着研究方法的进步以及相关数据集的收集,人脸风格化成为了一个非常热门的研究领域和应用方向,本文我们来介绍其中的核心技术和相关资源. ...

  4. 一文看懂人脸识别技术发展脉络

    来源:InfoQ 人脸识别可以说是人工智能领域中成熟较早.落地较广的技术之一,从机场.火车站的安检闸机,到平常用户手机中的"刷脸"支付,人脸识别技术已经深入到我们的生活当中. 为了 ...

  5. 调用远程摄像头进行人脸识别_人脸识别技术植入手机APP

    随着物联网技术的日益成熟,我们看到已经有很多APP用到了人脸识别技术,特别是金融和互联网领域的应用纷纷加入了人脸识别.表示,人脸识别技术基于人的脸部特征信息进行身份识别,为互联网金融等行业解决在线多维 ...

  6. ACM旗舰期刊最新综述:一览端到端人脸识别最新进展

    ©作者 | 小舟.陈萍 来源 | 机器之心 人脸识别是计算机视觉(CV)领域中最热门和悠久的研究课题之一.本篇综述全面地回顾了端到端深度学习人脸识别系统的三个组成要素,包括人脸检测.人脸对齐和人脸表征 ...

  7. 自然场景人脸检测技术实践

    一. 背景 人脸检测技术是通过人工智能分析的方法自动返回图片中的人脸坐标位置和尺寸大小,是人脸智能分析应用的核心组成部分,具有广泛的学术研究价值和业务应用价值,比如人脸识别.人脸属性分析(年龄估计.性 ...

  8. 上交AI研究院副院长马利庄:基于大数据的人脸识别技术进展与展望

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | 中国人工智能学会 本篇大家整理的是来自上海交通大学人工智能研究院副院长.华东师范大学特聘教授 ...

  9. 研究人脸识别技术必须知道的十个基本概念

    研究人脸识别技术必须知道的十个基本概念 实验室研究人脸技术多年,不仅在技术方面有很好的积累,而且在公司内外的业务中有众多应用.在与产品.商务.工程开发同事交流过程中发现:不管是"从图中找到人 ...

最新文章

  1. STC89C52单片机 独立键盘
  2. 再用Udp--聊天工具
  3. Can‘t connect to MySQL server on ‘localhost:3306‘ (10061)
  4. QLoo推出用于现有服务的GraphQL接口
  5. 【bzoj2423】最长公共子序列[HAOI2010](dp)
  6. C语言递归算法将十进制转换为二进制(附完整源码)
  7. 《Python深度学习》第四章的实验结果图汇总
  8. 浏览器返回错误汇总分析
  9. 7-161 梅森数 (20 分)
  10. pdf转cad怎么弄_还在为cad转pdf烦恼吗?教你CAD批量转pdf
  11. CNCF的中国云原生调查报告
  12. fbx 模型转换 export
  13. SWUST OJ954: 单链表的链接
  14. python 数据可视化工具 -- pyecharts
  15. 基于Multisim的红路灯电路设计
  16. 使用新路由器有线/无线桥接旧路由器
  17. 关于一个任意文件上传漏洞场景的讨论
  18. 极路由 openwrt 使用 SyncY 实现百度云同步
  19. 《统计学习方法》 第十七章 潜在语义分析
  20. tophat 原理_Tophat2比对原理及命令

热门文章

  1. Commonjs 模块化开发解析
  2. 【Node】一个完整的 node addon 实现流程
  3. 有保证的复制消除(Guaranteed Copy Elision)
  4. Nagios被监控端简单搭建
  5. EPLAN 设备选择
  6. 大数定律与中心极限定律
  7. RTX3070Ti和RTX2080Ti哪个强 RTX3070Ti和RTX2080Ti参数对比哪个好
  8. 菜鸟入门:Java语言学习
  9. golang中使用validator进行数据校验及自定义翻译器
  10. 网上开店平台选择最关键