在今年江苏卫视的跨年晚会上,周深与和与邓丽君合作了《大鱼海棠》、《小城故事》等三首曲目,虽然仔细看邓丽君的形象还是略有破绽,但整体的自然度已经过关了。本次重现邓丽君的形象,使用的类似于vtuber虚拟合成技术,而声音其实是有真人在背后发声的,而非由AI合成。

下面笔者将从公开的Github项目,带大家向各位读者简要介绍一下虚拟邓丽君背后的vtuber技术,从本质上来说vtuber也是一种基于GAN的合成技术,由于有江苏卫视的任何授权,因此以下使用基于自编码技术的虚拟形象合成项目ALAE为例(GitHub - podgorskiy/ALAE: [CVPR2020] Adversarial Latent Autoencoders):

虚拟形象合成技术的基本原理

这种模型的工作原理都是先读目标的视频流,再利用Dlib等提取面部关键点的库提取并计算面部特征,再把一个正向基于标准光的标准脸加入,最后合成成为目标的图像。

ALAE有两个自编码器:一个是基于MLP编码器,另一个基于StyleGAN对抗神经网络的生成模型,也可以称之为StyleALAE。ALAE的作者们将这两种体系结构的结合。结果表明,StyleALAE在各方面的性能都优于上一代的StyleGAN,且在相同分辨率下还可以生成更真实的人脸重构信息。

笔者初步在github上看了一下,由那个大名鼎鼎的换脸应用deepfaks衍生的如faceswap, deepfacelab的开源项目数量不下十几个,其中以faceswap、Openfaceswap等开源项目为代码的换脸技术在github上的更新与讨论十分热烈,可以说完全看不到趋冷的迹象,极快的推动了开源换脸技术的迭代速度。而以FaceApp为代表的项目虽然没有开源,但是它们都提供了支持一键式操作的应用程序,极大的降低了换脸技术的使用门槛。这必须引起业界高度的重视,尤其是目前还没法有针对换脸之后的人脸进行识别的方案之前,矛与盾的较量估计还会一直持续。下面笔者就带大家来盘点一下虚拟形象合成技术的发展历程。

PIX2PIX:虚拟形象合成的祖师级模型

咱们刚刚提到如deepfaks的换脸应用,其实都参考了PIX2PIX的思想(PIX2PIX论文链接,PIX2PIXGithub地址)PIX2PIX是基于对抗神经网络GAN的模型,其目标是由图像的轮廓,还原回真实图像,目前读者可以到Image-to-Image Demo - Affine Layer这个网站来感受一下,如何从随便画出的简笔画转换成真实的图像。

后来N厂又提出了PIX2PIXHD技术(GITHUB地址),PIX2PIXHD把之前由PIX2PIX生成的图像分辨率提高了很多。可以说PIX2PIX是后面这些虚拟形象合成、一键“脱"衣等技术的理论基础,正是凭借AI强大的联想及脑补能力使以上应用成为了可能。

CycleGAN:开创时代的模型

2017年由加州大学伯克利分校的教授们,又提出了CycleGAN模型,CycleGAN论文地址、CycleGAN的Github传送门,CycleGAN使用循环一致性损失函数来实现训练,从而完成将图片中一个域到另一个域的无缝转换。简单来说CycleGAN能将图像的主题风格或者某一域主体完美进行切换,具体效果如下:

斑马与马的互转

CycleGAN也有升级版UGATIT(论文地址、Githu地址),其效果更好,可以用在卡通风格的转换,具体如下

CycleGAN出现之后,图像主题无缝切换将图像伪造技术提升了一个高度,在换脸之余还能把原背景主题进行切换,给鉴定带来来大麻烦

StyleGAN:ALAE先导模型

StyleGAN模型也是N厂提出的,其用来计算Picure A与Picture B结合的结果(StyleGAN论文地址、Github 地址),而且StyleGAN还支持多种结合模式,详见下表

Style 等级

Picture A

Picture B

高等级(粗略)

所有颜色(眼睛,头发,光线)和细节面部特征来自Picture A

继承Picture B高级的面部特征,如姿势、一般的发型、脸部形状和眼镜

中等级

姿势、一般的面部形状和眼镜来自Picture A

继承Picture B中级的面部特征 ,如发型,张开/闭着的眼睛

高等级(细微)

主要面部内容来自Picture A

继承Picture B高级面部特征,如颜色方案和微观结构

其两张图像按照三种style结合的效果如下图:

虚拟形象合成技术的发展趋势

虽然这次邓丽君在江苏卫视跨年晚会上的声音不是来自于AI的合成,但通过AI来合成声音也是一个重要的发展趋势。目前虚拟形象合成技术的相关模型除了在效果方面不断取得突破之外,也有其它方面的发展动向,具体如下:

图像修复:Partialconv模型可以通过AI对于图像进行修复,这又是一个N厂提出的模型(Partialconv的论文地址、Partialconv的Github传送门)即使图像丢失了大面积的像素他也能通过AI将损失进行修复,其效果图如下:

多媒体合成:Speech-Driven Facial Animation是一个由三星提出的使用照片加音频合成视频的模型(SDFA论文地址、SDFA的Github链接)SDA能够仅使用人的静止图像和包含语音的音频剪辑来产生动画面部。 其生成的视频不仅可以产生与音频同步的唇部动作,还可以呈现特有的面部表情,例如眨眼,眉毛等,同时能够捕捉说话者的情绪并将其反映在面部表情中。

原图如下:

SDA处理之后生成的图像,静止图像立刻活灵活现起来。

虚拟形象合成等技术的兴起给我们以极大的机会云“复活”已故的人物,虽然是好是坏未为可知,但是这种技术的确会给让人们在元宇宙中体验到无限的可能,具体人类的未来是星辰大海磨砺,还是元宇宙中的无限可能,还是让时间给我们答案吧。

周深与邓丽君同台,vtuber能扛起元宇宙的大旗吗?相关推荐

  1. 机器人演唱邓丽君是真的吗_程琳与全息邓丽君同台演唱《你怎么说》

    程琳 前段时间,很多社交媒体上出现了一段让人惊诧的视频,在视频里已经去世了20年的邓丽君风华正茂,与影响了几代人的"摇滚姑奶奶"程琳同台对唱了那首脍炙人口的<你怎么说> ...

  2. 混合云扛起云存储领军大旗

    本文讲的是混合云扛起云存储领军大旗混合云融合了公有云和私有云,被称为近年来云计算发展的方向.有说法:到2017年底的大型公司都将完成混合云的部署.更有说法:围绕公有云的报道已淡淡消去,人们已把目标转移 ...

  3. 腾讯财报:业务换防,谁来扛起未来发展的大旗?

    文 | 陈选滨 来源 | 螳螂财经(ID:TanglangFin) 8月14日,腾讯控股发布2019年第二季度及中期业绩财务报告. 报告显示,在2019上半年,腾讯的总营收达到1742.86亿元,同比 ...

  4. 他是阿里顶尖科学家,扛起国产分布式数据库大旗,性能超Oralce 20倍!

    点击"技术领导力"关注∆  每天早上8:30推送 作者| Mr.K   编辑| Emma 来源| 微信公号 技术领导力(ID:jishulingdaoli) 2020年5月19日, ...

  5. 邓丽君和周深合唱?江苏卫视是怎么实现的?

    邓丽君竟然和周深合唱?江苏卫视是怎么实现的? 在元旦跨年时,各大电视卫视为了收视率都会举办跨年晚会,但是传统的晚会又难以吸引到观众,这次江苏卫视采用全息投影技术将一代歌后"复活"与 ...

  6. 机器人演唱邓丽君是真的吗_20年后,高科技让她与邓丽君终相逢

    程琳 前段时间,很多社交媒体上出现了一段让人惊诧的视频,在视频里已经去世了20年的邓丽君风华正茂,与影响了几代人的"摇滚姑奶奶"程琳同台对唱了那首脍炙人口的<你怎么说> ...

  7. 华为有国产芯片的服务器吗,华为、飞腾扛旗,国产服务器芯片有望突破!ARM要替代x86?...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 中国的高端通用芯片,一直都是一大硬伤.尤其是CPU芯片更是高度依赖进口,在PC和服务器方面的存在感非常小,基本上都被美国大厂所主导,而形成这一局面的主要原 ...

  8. 国产x86服务器芯片,华为、飞腾扛旗,国产服务器芯片有望突破!ARM要替代x86?...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 中国的高端通用芯片,一直都是一大硬伤.尤其是CPU芯片更是高度依赖进口,在PC和服务器方面的存在感非常小,基本上都被美国大厂所主导,而形成这一局面的主要原 ...

  9. 国产软件不惧微软,WPS力扛大旗,新型办公软件争相助力

    金山作为程序员的"黄埔军校",输入了一批批互联网大佬,小米的雷军.哔哩哔哩的陈睿.蓝港互动的王峰等都师出金山. WPS作为金山拳头作品,有着"国民软件"美誉,功 ...

最新文章

  1. java字符数统计_【JAVA300例】51、统计输入的字符串中各种字符的字符数
  2. Pandas的DataFrame输出截断和省略问题
  3. 神经网络与卷积神经网络入门(保证让你懂)
  4. Java黑皮书课后题第7章:*7.28(数学:组合)编写一个程序,提示用户输入10个整数,然后显示从这10个数中选出两个数的所有组合
  5. Linux搭建oracle数据库
  6. win10下VS2013+OpenCV2.4.9环境配置
  7. K8S精华问答 | Kubernetes集群不能正常工作,难道是防火墙问题?
  8. Idea利用maven打包spring boot项目
  9. [BZOJ1135][P3488][POI2009]LYZ[线段树+Hall定理]
  10. 侧信道攻击,从喊666到入门之——Unicorn的环境构建
  11. 流水作业c语言代码,C语言流水灯
  12. window包管理器
  13. Mars3D基础学习:地图控件
  14. 安装winrunner和HP QTP
  15. Android截图功能
  16. kali系统sftp服务
  17. Prometheus(6)Pormetheus+ Alertmanager配置邮件警告,并使用模板进行发送
  18. 了解一下什么是领导力,以及如何培养领导力
  19. Django实训-学生管理系统
  20. java毕业设计——基于java+Servlet+jsp的网上花店销售系统设计与实现(毕业论文+程序源码)——网上花店销售系统

热门文章

  1. python文件读取写入元组_python文件和元组
  2. xp注册表备份位置_在Windows中轻松备份注册表
  3. 在Ubuntu上为Android系统内置C可执行程序测试Linux内核驱动程序 (学习老罗的)
  4. 【美容机构管理系统】
  5. 某公交公司商业智能系统建设方案分享
  6. 移植MPU6050时与CRH和CRL寄存器相关的问题
  7. 在线给头像加圣诞帽子网站源码
  8. Ae 表达式语言引用​:Footage
  9. 新手选 Arduino 还是 树莓派?
  10. NVIDIA wget下载cuda失败的解决方案,Linux/Ubuntu cuda 11离线下载安装包