来源:量子位

站在门口看一眼,AI就能脑补出房间里面长什么样:

是不是有线上VR看房那味儿了?

不只是室内效果,来个远景长镜头航拍也是so easy:

而且渲染出的图像通通都是高保真效果,仿佛是用真相机拍出来的一样。

最近一段时间,用2D图片合成3D场景的研究火了一波又一波。

但是过去的许多研究,合成场景往往都局限在一个范围比较小的空间里。

比如此前大火的NeRF,效果就是围绕画面主体展开。

这一次的新进展,则是将视角进一步延伸,更侧重让AI预测出远距离的画面。

比如给出一个房间门口,它就能合成穿过门、走过走廊后的场景了。

目前,该研究的相关论文已被CVPR2022接收。

输入单张画面和相机轨迹

让AI根据一个画面,就推测出后面的内容,这个感觉是不是和让AI写文章有点类似?

实际上,研究人员这次用到的正是NLP领域常用的Transformer

他们利用自回归Transformer的方法,通过输入单个场景图像和摄像机运动轨迹,让生成的每帧画面与运动轨迹位置一一对应,从而合成出一个远距离的长镜头效果。

整个过程可以分为两个阶段。

  • 第一阶段先预训练了一个VQ-GAN,可以把输入图像映射到token上。

VQ-GAN是一个基于Transformer的图像生成模型,其最大特点就是生成的图像非常高清

在这部分,编码器会将图像编码为离散表示,解码器将表示映射为高保真输出。

  • 第二阶段,在将图像处理成token后,研究人员用了类似GPT的架构来做自回归

具体训练过程中,要将输入图像和起始相机轨迹位置编码为特定模态的token,同时添加一个解耦的位置输入P.E.。

然后,token被喂给自回归Transformer来预测图像。

模型从输入的单个图像开始推理,并通过预测前后帧来不断增加输入。

研究人员发现,并非每个轨迹时刻生成的帧都同样重要。因此,他们还利用了一个局部性约束来引导模型更专注于关键帧的输出。

这个局部性约束是通过摄像机轨迹来引入的。

基于两帧画面所对应的摄像机轨迹位置,研究人员可以定位重叠帧,并能确定下一帧在哪。

为了结合以上内容,他们利用MLP计算了一个“相机感知偏差”。

这种方法会使得在优化时更加容易,而且对保证生成画面的一致性上,起到了至关重要的作用。

实验结果

本项研究在RealEstate10K、Matterport3D数据集上进行实验。

结果显示,相较于不规定相机轨迹的模型,该方法生成图像的质量更好。

与离散相机轨迹的方法相比,该方法的效果也明显更好。

作者还对模型的注意力情况进行了可视化分析。

结果显示,运动轨迹位置附近贡献的注意力更多。

在消融实验上,结果显示该方法在Matterport3D数据集上,相机感知偏差和解耦位置的嵌入,都对提高图像质量和帧与帧之间的一致性有所帮助。

两位作者均是华人

Xuanchi Ren为香港科技大学本科生。

他曾在微软亚研院实习过,2021年暑期与Xiaolong Wang教授有过合作。

Xiaolong Wang是加州大学圣地亚哥分校助理教授。

他博士毕业于卡内基梅隆大学机器人专业。

研究兴趣有计算机视觉、机器学习和机器人等。特别自我监督学习、视频理解、常识推理、强化学习和机器人技术等领域。

论文地址:
https://xrenaa.github.io/look-outside-room/

技术交流群邀请函

△长按添加小助手

即可申请加入深度学习、计算机视觉等技术交流群

【CVPR 2022】只用一张图+相机走位,AI就能脑补周围环境相关推荐

  1. CVPR 2022 | 惊呆了!只用一张图+相机走位,AI就能脑补周围环境!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 明敏 发自 凹非寺 转载自:量子位(QbitAI) 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是 ...

  2. CVPR2022 | 只用一张图+相机走位,AI就能脑补周围环境,来自华人团队

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染 ...

  3. 只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染 ...

  4. CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域...

    关注公众号,发现CV技术之美 本文转载自腾讯优图 近日,CVPR 2022官方公布了接收论文列表(CVPR 2022 接收论文公布! 总计2067篇!),来自腾讯优图实验室共计30篇论文被CVPR收录 ...

  5. 只用一张图,就能让二次元老婆动起来,宛如3D:这全是为了科学啊

    栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI △ 笹木咲 △童田明治 只要输入一张静态的老婆,就能让她动起来,会张嘴会眨眼,还能东张西望,抬眼看天.仿佛成了3D老婆. 并且,你想让妹子怎 ...

  6. ppt讲解中的过渡_PPT黑科技,只用一张图做出3D动画

    我一直在探索PPT中平滑切换的应用. 这篇文章感觉算是探索到头了. 之前的文章中,曾经提到过平滑切换可以让3D模型动起来. 但是在实际应用中,能够供PPT使用的3D素材数量有限,难以准确契合我们的需求 ...

  7. 69张图看懂Elon Musk的脑机接口芯片项目

    来源:内容由半导体行业观察整理 因为制造特斯拉等各种先进科技产品,Elon Musk被誉为地球上最有创新力的人之一.近来,他更是在脑机接口上有了新的突破.据英国<金融时报>18日报道,他旗 ...

  8. 一天做100张图?只有 AI 能做到!

    "一天做100张图"的过分要求,激起了设计师对于甲方的愤怒.在探究这个要求为何如此过分的同时,或许也可以看看是否还有其他人可以担任如此"重任". 还记得叫员工& ...

  9. 一张图分出你是左脑发达还是右脑发达(转)

    如果你看见这个舞女是顺时针转,说明你用的是右脑: 如果是逆时针转,说明你用的左脑. 耶鲁大学耗时5年的研究成果. 据说,14%的美国人可以两个方向都能看见. 可以和别人一起看,测试下,一般不同人同时看 ...

最新文章

  1. 机器学习中的数学基础:(3)主成分分析(PCA)及其应用
  2. vista——最恰当的中文译名应该是“喂死它”
  3. 数据库导出All about Oracle IMP/EXP
  4. EJB 3.0中会话Bean,实体Bean,消息驱动Bean的作用和例子
  5. Python实现中文分词--正向最大匹配和逆向最大匹配
  6. color a dir/s_发布十个月后,依然是一个残品——小米手表COLOR深度体验
  7. Nginx基本数据结构之ngx_pool_t
  8. 客户端本地存储的比较及使用window.name数据传输
  9. 通讯框架 t-io 学习——给初学者的Demo:ShowCase设计分析
  10. 螺栓预紧力_斯姆勒知识讲解:螺栓预紧力的计算
  11. php简单选择题,念做个简易php选择题答题系统
  12. 关于类类型的隐式类型转换
  13. python基于协程的网络库gevent、eventlet
  14. 基于SSM实现的在线音乐网站【附源码】(毕设)
  15. 15、工作流Web流程设计器及表单设计器
  16. 编写一个c语言源程序输出以下信息,C语言课后习题源程序(5页)-原创力文档...
  17. php tp框架,TP框架
  18. 什么是自然语言处理技术
  19. 爬虫(29)mongodb(下)
  20. nextpolish安装_nanopore 分析流程

热门文章

  1. php前端传过来的json数据丢失 (max_input_vars)
  2. 敏捷开发:如何通过回顾保持学习状态
  3. 第二期安全狗讲坛3月11日开始
  4. linux入门之目录结构
  5. 解决apache服务器默认编码为西欧编码的问题
  6. GridView 实现服务器端和客户端全选的两种方法
  7. 梯度的直观理解_关于梯度、旋度和散度的直观理解
  8. 计算机aoa综合题word,AOA-word综合题操作步骤(修正版)
  9. 先使用皮尔逊相似性特征选择来训练随机森林
  10. 更换pip安装源头成阿里云或清华的