利用Pica模型,单个Oculus Quest 2头显能够在同一场景实时渲染5个虚拟化身

映维网丨来源

映维网&realcat丨编辑

就如同个人计算机和智能手机在过去四十五年里(并正继续)改变了世界一样,Facebook坚信增强现实和虚拟现实将成为未来五十年里我们工作、娱乐和联结的主要方式。

为了克服人与人之间,以及人与机会之间的物理距离挑战,团队正在积极开展一个名为Codec Avatars的项目。Codec Avatars旨在利用突破性的3D捕获技术和人工智能系统,从而帮助人们在未来快速轻松地创建逼真的虚拟化身,并令虚拟现实中的社交联系变得如同现实世界般自然和常见。

日前,Facebook公布了一份即将在今年6月CVPR介绍的论文。

简单来说,只对屏幕空间中的虚拟化身的面部可见像素进行解码,可以在计算受限的平台实现高保真的面部动画。

对于轻量级的编解码器PiCA,团队进行了两项主要的技术创新,从而允许其通过小模型来实现高质量解码:学习的位置编码函数;以弱监督方式训练的全卷积密集网格解码器。

团队指出,对于实现远距离三维真实面对面通信,在虚拟现实或增强现实中与图片级真实感的虚拟化身进行通信是一条富有前景的途径。在名为《Pixel Codec Avatars》的论文中,研究人员提出了一种3D人脸的深度生成模型Pixel Codec Avatars(PiCA),论文链接见文末。

Facebook写道,PiCA不仅具备最先进的重建性能,而且在执行期间能够实现高效计算和自适应渲染条件。

这个模型结合了两个核心思想:(1)用于解码空间变化特征的完全卷积结构;(2)渲染自适应的每像素解码器。这两种技术是通过一个密集表面表示集成,其中密集表面表示以弱监督方式从低拓扑网格追踪学习而成。

图1是一个在虚拟现实情景中实现的多人远程会议配置。

在正常的社交距离下,头部仅占据显示器像素的一个子集,其覆盖范围很大程度上取决于与观看者之间的距离。由于自身遮挡,从任何视角都看不到大约一半的头部。图1上半部分是生成的和光栅化的几何体,以及显示相应视图中可见像素的纹理贴图;图2下半部分展示了渲染的虚拟化身以及它们覆盖整个图像的像素百分比。

为了避免在不影响最终渲染的面区域中浪费计算,PiCA仅在几何体光栅化覆盖的图像区域中使用每像素解码。类似于隐式神经渲染的最新进展,这种解码器依赖于以人脸为中心的位置编码来产生高度详细的图像。

团队采用两种策略来有效地生成这样的编码。首先,在纹理空间中利用卷积网络的空间共享计算,以降低的分辨率(256×256)产生空间变化的表情和视图特定代码。然后,通过一个预先计算的高分辨率(1K×1K)进行补充。为了获得更高的分辨率结果,团队进一步在10K分辨率下对信号进行1D位置编码(独立于纹理域的水平和垂直维度)。这种映射能够在高分辨率面部图像中实现清晰的空间细节。

监督(a)图像,(b)深度,以及(c)7K个顶点的粗略追踪网格。从中可以学习一个对应的密集面网格(d),分辨率为个65K顶点,甚至包括粗略追踪网格不提供任何信息的位置,如舌头。最终渲染(e)可以表示难以追踪的表情。

因为UV坐标的最佳编码值直接从数据中学习,所以低8维编码足以恢复高频。作为对比,使用正弦函数实现高细节的现有位置编码方案需要将维数增加20×,并且存在相应的计算成本。另外,等其他研究相比,PiCA在屏幕空间中不使用卷积,而是在每个贡献像素处应用shallow MLP。这样做的优势是避免了运动过程中的视觉伪影和立体不一致性,同时避免了在缩放、旋转和透视方面的挑战。

在不同性别和肤色被试的表情和视点测试中,PiCA实现了优于现有技术的重建效果。重要的是,PiCA模型的体积要小于最先进的基线模型,并且使得多人通信成为可能。利用Pica模型,单个Oculus Quest 2头显能够在同一场景实时渲染5个虚拟化身。

论文链接: arxiv.org/pdf/2104.04638v1.pdf

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

Facebook提出Pica模型,为Quest 2带来实时逼真虚拟化身渲染相关推荐

  1. 性能不打折,内存占用减少90%,Facebook提出极致模型压缩方法Quant-Noise

    对于动辄上百 M 大小的神经网络来说,模型压缩能够减少它们的内存占用.通信带宽和计算复杂度等,以便更好地进行应用部署.最近,来自 Facebook AI 的研究者提出了一种新的模型量化压缩技术 Qua ...

  2. java list 占用内存不释放_性能不打折,内存占用减少90%,Facebook提出极致模型压缩方法Quant-Noise...

    对于动辄上百 M 大小的神经网络来说,模型压缩能够减少它们的内存占用.通信带宽和计算复杂度等,以便更好地进行应用部署.最近,来自 Facebook AI 的研究者提出了一种新的模型量化压缩技术 Qua ...

  3. Vx2Text-多模态任务新进展!哥大Facebook提出VX2TEXT模型,实现了“视频+X”到“文本”的任务...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者提出了VX2TEXT,一个用于从"视频+X"(X代表文本.语音或音频等)的多模态输入来生成文本 的框架.为了利用Trans ...

  4. 人大提出新模型,将Two Stage的Video Paragraph Captioning变成One Stage,性能却没下降...

    关注公众号,发现CV技术之美 0 写在前面 视频段落字幕(Video paragraph captioning)的目的是在未修剪的视频中描述多个事件.现有的方法主要通过事件检测和事件字幕两个步骤来解决 ...

  5. NAACL 2022 | 字节和加州大学提出ConST模型,探讨对比学习如何助力语音翻译?

    原文链接:https://www.techbeat.net/article-info?id=3692 作者:叶蓉 前言 全球化下应用最广泛的 AI 技术是什么?机器翻译必然是其中之一.除了纯文本信息的 ...

  6. Facebook提出生成式实体链接、文档检索,大幅刷新SOTA!

    文 | 花小花Posy 导言 最近ICLR的rebutal 前后分数对比出来了,很多评委都改了分数,有改多的,也有改少的.今天给大家介绍的这篇高分论文竟然在rebuttal前后都保持高分,证明评委们对 ...

  7. 伯克利、OpenAI等提出基于模型的元策略优化强化学习

    基于模型的强化学习方法数据效率高,前景可观.本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能. 引言 强化学习领域近期 ...

  8. NeurIPS 2022|UIUC联合哥伦比亚大学提出VidIL模型,通吃小样本视觉语言任务

    原文链接:https://www.techbeat.net/article-info?id=4205 作者:seven_ 近来,视觉语言模型(video-language models)已经成为多模态 ...

  9. 主动防御多种Deepfake模型,北大王选所在AAAI22上提出跨模型通用对抗水印CMUA-Watermark...

    关注公众号,发现CV技术之美 本文分享AAAI 2022论文『CMUA-Watermark: A Cross-Model Universal Adversarial Watermark for Com ...

  10. Lumen为《堡垒之夜:大逃杀》第四章带来实时全局光照

    Lumen为<堡垒之夜:大逃杀>第四章带来实时全局光照 - Unreal Engine 图像部门工程研究员Daniel Wright和图像部门技术总监Krzysztof Narkowicz ...

最新文章

  1. label之间展示间距_cob小间距led显示屏分类
  2. 当postgres的主键序列不同步时,如何重置?
  3. Knockout js 绑定 radio 时,当绑定整形的时候,绑定不生效
  4. CTFshow php特性 web137
  5. 【杂谈】如果你想快速系统掌握计算机视觉大部分领域,学习人脸图像是唯一选择...
  6. nebula加入时间约束条件,查询结果没有输出
  7. android做一个坦克大战小游戏_一个 ECharts 做的猜数小游戏
  8. ARM开发软件及实用软件介绍
  9. 转载 oracle12c 切换字符集
  10. 通过OracleDataReader来读取BLOB类型的数据 (转载)
  11. node中定时器, process.nextTick(), setImediate()的区别与联系
  12. 为什么要重写toString()方法和hashcode()方法
  13. 从零开始编写深度学习库(五)Eigen Tensor学习笔记2.0
  14. 干货| 364套各类风格毕业设计答辩PPT模板~
  15. OpenJDK Runtime Environment (IcedTea6 1.13.10) (rhel-1.13.10.0.el6_7-x86_64) OpenJDK 64-Bit Server V
  16. excel概率密度函数公式_用excel怎么制作概率密度图_EXCEL 正态分布公式�9�3
  17. 微信小程序 - 自定义组件中类似页面 onShow 的页面显示就触发的生命周期钩子函数(页面回退时更新数据常用, 例如回退页面更新子组件数据, 回退更新子组件中 data 内容)
  18. isbn书号权威查询,isbn图书查询,图书
  19. 掌握这些电脑知识,你会玩得很无耻
  20. 自动挡汽车开车教程,这十点要铭记在心

热门文章

  1. RSA密钥的数据类型转换:由合法的string到PublicKey或PrivateKey
  2. 字符串转换的UnicodeDecodeError—— ‘\xa0’问题
  3. WinXP IIS配置
  4. 软件开发所需要的十三个文档
  5. AjaxPro.NET实现TextBox智能获取服务端数据功能(Asp.net 2.0)(示例代码下载)
  6. Linux下编译googletest
  7. 39. 确保判别式是纯函数
  8. 简书android 输入法设置,Android输入法弹出流程
  9. Mybatis 延迟加载策略
  10. 怎样取消计算机中镜像,win7系统,如何删除之前创建的镜像文件。 (不是在系统保护里头删除还原点,我试过了)...