ICLR 2023 | 首个3D人像视频生成模型!仅需1张2D人像,眨眼、口型都能改变
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—>【计算机视觉】微信技术交流群
zcxu 投稿
转载自:量子位(QbitAI)
只需1张普通照片,就能合成全角度动态3D视频。
眨个眼、动动嘴,都是小case~
最近AIGC爆火,3D人像模型生成这边也没闲着。
如StyleNerf、StyleSDF、EG3D等方法相继出世。
但到目前为止,这种生成模型都还停留在单帧人像上。
最近,来自新加坡国立大学(NUS)和字节跳动的研究人员,在静态3D模型的基础上,提出了首个3D人像视频生成模型:PV3D(3D model for Portrait Video generation)。
PV3D的训练继承了3D GAN模型的优点,即无需动态的三维数据监督,只需要在足够数量的单视角2D视频数据上进行训练。
该生成框架将人像和动作进行解耦,基于视频的时间戳生成各自的三维表征,让视频可以从任意角度进行渲染。
长视频也能挑战:
3D动态人像生成
PV3D分别从独立的高斯分布中采样随机噪声来表征外表和运动,外表噪声生成视频的主体内容,控制人像的ID以及人脸的各个部分,运动噪声配合视频帧的时间戳控制当前帧的动作。
为了确保生成内容的真实性以及外表和运动的解耦,PV3D训练两个独立的判别器分别判定外表和运动的合理性。
该方法可以生成随机的人像视频以及相应的高质量的动态几何表面,让视频可以从任意角度进行渲染。
同时,该方法可以支持下游的应用任务,比如静态人像驱动,人像视频的重建以及对人像动作的修改,所有的结果均可以保持高的多视角一致性。
主流的3D GAN模型都脱胎于StyleGAN结构。
因此这些模型均会将采样得到的噪声先映射到一个高维度的中间隐式编码(intermidate latent code),大量现有的研究表明这种结构的隐式空间包含了丰富的语义信息,可以用来控制生成的图像内容。
因此,最直接的拓展方式就是使用预训练的单帧3D GAN模型,通过学习一个额外的在隐式空间进行推理的时序模型对生成的内容进行合理的改变,从而生成3D人像视频。
然而,该方法的缺点是图片生成器和时序推理模型在不同的阶段分别被优化,导致最终的视频很难保持时间上的一致性。
另一种主流的视频生成模型使用稀疏训练的方式,在训练阶段直接随机生成视频中的少量帧,使用少数帧的时间戳编码运动信息,进一步的改变中间隐式编码从而一次性优化完整的生成器。
然而这种做法将全部的时序信息都包含在隐式空间中,导致最终的模型多样性较差、生成质量较低。
与上述方法不同,PV3D在原有GAN模型的基础上在特定尺度的生成模块中插入运动信息的编码层,这些编码层独立地将控制运动的噪声映射为隐式编码,使用modulated convolution操纵外表特征,再将操纵后的特征与原始特征融合,从而提高生成视频的时序一致性和运动多样性。
此外,本工作还研究了以下问题:
如何有效地在视频生成任务中利用渲染的视角先验信息
针对3D视频生成,如何设计合理的外表和运动判别器
PV3D模型基于最新的静态3D GAN模型EG3D进行开发,EG3D采用高效的3D表征Tri-plane实现图像生成。
在训练阶段,PV3D采用稀疏训练的策略,对于一个视频采样两个噪声、两个时间戳以及各自时刻对应的相机视角。
相对应的,模型生成两帧对应的3D表征进行渲染得到粗糙的结果。随后使用超分辨率模块将图片上采样。
PV3D设计了两个独立的判别器监督网络的学习,其中视频判别器会编码两帧的相机视角以及时间间隔去判断生成结果的合理性。
实验部分
评价指标
研究人员使用FVD来评估生成视频的质量。此外,为了评估多视角的一致性以及3D几何结构的质量,研究人员将3D GAN工作中常用的评价指标(生成人像的ID一致性、Chamfer距离、多视角的重投影误差)拓展到视频任务中。
与基线的对比
研究人员首先采用同期的3D视频生成工作3DVidGen作为基线。此外,研究人员还基于SOTA的单帧3D GAN (EG3D和StyleNerf) 和2D视频生成模型构建了三个基线模型。在3个公开数据集(VoxCeleb, CelebV-HQ, TalkingHead-1KH)上的实验结果表明,PV3D在生成视频的多样性,3D几何的质量,以及多视角一致性上均超越基线模型。
消融实验
研究人员对PV3D的各部分设计进行了消融实验,例如:运动信息的编码和注入的位置,运动信息的插入方式,相机视角的采样策略,以及视频判别器的设计。
团队介绍
目前,该论文已被ICLR 2023接收。
作者团队由新加坡国立大学Show Lab和字节跳动组成。
论文地址:
https://openreview.net/pdf?id=o3yygm3lnzS
项目主页:
https://showlab.github.io/pv3d/
点击进入—>CV微信技术交流群
CVPR/ECCV 2022论文和代码下载
后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集
后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
ICLR 2023 | 首个3D人像视频生成模型!仅需1张2D人像,眨眼、口型都能改变相关推荐
- 单张人像生成视频!中国团队提出最新3D人脸视频生成模型,实现SOTA
来源:IEEE 编辑:新智元 [导读]稀疏人脸特征点生成的人脸图像视频通常会遇到图像质量损失.图像失真.身份改变,以及表情不匹配等问题.为此作者使用重建出的三维人脸动态信息来指导人脸视频的生成.结果显 ...
- 单张人像生成视频!中国团队提出FaceAnime:最新3D人脸视频生成模型
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:新智元 | 来源:IEEE 编辑:好困 [导读]稀疏人脸特征点生成的人脸图像视频通常会遇到图像质量 ...
- 抖音、Tiktok危机!谷歌AI短视频生成模型,效果惊艳了
文 | 梦晨 Pine(发自凹非寺) 源 | 量子位 内容生成AI进入视频时代! Meta发布「用嘴做视频」仅一周,谷歌CEO劈柴哥接连派出两名选手上场竞争. 第一位Imagen Video与Meta ...
- 清华BAAI唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型CogVideo,含94亿超大参数量!代码即将开源!...
关注公众号,发现CV技术之美 我爱计算机视觉 专业计算机视觉技术分享平台,"有价值有深度",分享开源技术与最新论文解读,传播视觉技术的业内最佳实践.知乎/微博:我爱计算机视觉,官网 ...
- 深度学习实战22(进阶版)-AI漫画视频生成模型,做自己的漫画视频
大家好,我是微学AI,今天给大家带来深度学习实战22(进阶版)-AI漫画视频生成模型. 回顾之前给大家介绍了<深度学习实战8-生活照片转化漫画照片应用>,今天我借助这篇文章的原理做一个AI ...
- 仅需2张图,AI便可生成完整运动过程
金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 先给一张侧脸(关键帧1): 再给一张正脸(关键帧2): 然后仅仅根据这两张图片,AI处理了一下,便能生成整个运动过程: 而且不只是简单的那种 ...
- 组图:全球首款飞行摩托开售 变形仅需10分钟
神呐,摩托可以变形飞机了!堵车时幻想过千万遍的场面来得太快太猛烈,要不要这么幸福?赶紧多码些字吧,争取早日攒够螺旋桨的费用-- 据英国<每日邮报>报道,早在50年前,美国动画片<杰特 ...
- 百度推出LinearDesign,全球首个mRNA疫苗不稳定性解决方案,仅需16分钟
十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 新冠疫情全球流行,疫苗研制成为当务之急. mRNA作为一种全新的疫苗类型,能够快速大规模生产, 因此成为科学家们攻克的主阵地之一. 新冠疫 ...
- 证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023...
转载自 微软亚洲研究院 量子位 | 公众号 QbitAI 一张2D证件照,几秒钟就能设计出3D游戏化身! 这是扩散模型在3D领域的最新成果.例如,只需一张法国雕塑家罗丹的旧照,就能分分钟把他" ...
最新文章
- 拓展ARM研发进展与玩家
- animation动画不生效_关于CSS3的animation使用的一些坑,需要注意下!
- MIT新研究:过去80年,算法效率提升到底有多快?
- xen networking(2)
- 【错误记录】VMware 虚拟机报错 ( 向 VMWare 虚拟机中的 Ubuntu 系统拷贝文件时磁盘空间不足 )
- 非捕获Lambda的实例
- 用Emacs编写mybatis
- docker mysql 操作_[Docker] Docker 快速搭建本地MySQL开发环境
- LeetCode 1705. 吃苹果的最大数目(优先队列)
- 使用Laravel Eloquent ORM 时如何查询表中指定的字段 1
- 知识蒸馏在推荐精排中的应用与实践
- Matlab使用过程中内存不足问题的总结(修改)
- mac os nginx php mysql
- URL传递中文参数乱码问题
- 计算机与英语的关系论文摘要,中国计算机专业研究生英文学术论文摘要中元话语的使用与特征研究...
- 时间的质量:为什么时光飞逝
- 求助计算机程序员,程序员用代码求救:几近绝望时竟是老本行救了他
- mysql mha for rhel5_MHA–master在线修复
- 两人的姓名拼音相加是否为偶数(26进制数奇偶判断)
- 1、从1加到100的和