来源:AI科技评论

作者:琰琰

编辑:刘冰一

在不少玩家眼中,GTA 5(GTA V)称得上是一款旷世神作!

GTA 也叫“侠盗猎车手”,是R星旗下一款超高人气动作冒险类游戏,目前已经发售至第五版。

这款以犯罪为主题的经典游戏极具真实感,它的背景是以美国洛杉矶和南部加州为原型,三位角色也有着和人类相同的世界观,玩家可以任意选择或者切换角色,每个角色都有独立的人格和故事。

更有意思的是,这款游戏在剧情和动作设计堪称一部好莱坞大片,疾驰的赛车、激烈的枪战、精彩的追逐,让不少玩家欲罢不能。

如果硬要给这款游戏提点改进意见,可能就是提升提升场景的真实感,毕竟,哪个玩家不想在现实世界上演“速度与激情”呢

没想到,英特尔AI 实验室真的把这个奢望变成了现实。最近,该实验室研究团队提出了一种增强合成图像的新方法,该方法把GTA中的城市街景变成了真实世界的场景。

再来看一张与GTA V场景的对比图:

画面中的汽车、天空、路面变得更加平滑,更有光泽感。

光秃秃的草地也变成了更浓密,颜色更鲜亮的草丛。

还自动“脑补”出了右侧的建筑物

这种增强图像方法并非1:1还原了游戏中的原始街景,而是在此基础上渲染和生成了一个全新的城市样貌。研究人员介绍,其AI算法使用了来自德国真实街景的Cityscapes数据集,通过对该数据集的训练,AI“脑补”出了不存在的汽车、街道和建筑物等使其场景更具真实感。

以下是完整视频内容:

1

实现方法

这项研究成果出自Intel AI 实验室发表的一篇名为“Enhancing photorealism enhancement”的研究论文。这篇论文对图像增强的实际工作原理提供了深入、彻底的理解。

论文地址:

https://arxiv.org/pdf/2105.04619.pdf

用AI渲染游戏人物和场景的概念并不新鲜,但现有方法大多会产生严重的伪影,不稳定,或者渲染速度太慢。

在本篇论文中,研究人员提出了一种基于卷积网络的增强合成图像真实感的新方法。具体来说,卷积网络利用传统渲染管道生成中间表示,通过新的对抗目标训练,在多个感知层次上提供强大的监督。在训练过程中对图像块进行采样,以消除图像伪影。最后经过对深层网络模块的多种体系结构的改进。实验结果表明,与最近的图像到图像转换方法和各种其他基线相比,该方法在稳定性和真实性方面取得了实质性进展。

以上为具体方法的概述图:

为了提高输出图像的真实感,研究人员在该网络中添加了额外输入。具体来说,他们从图像管道中提取了中间渲染缓冲区(intermediate rendering buffers ,G-buffers)。G-buffer经过编码器网络处理后,能够提供图像场景中关于景深、形状、光照、透明度、材质等特征信息。

这些特征将作为图像增强网的输入,用来调制图像特征。

图像增强网络采用HRNetV2架构,它在各种密集预测任务上表现出了很强的性能。HRNet能够以不同分辨率运行的多个分支处理图像。同时以较高的分辨率呈现更精细的图像结构。在篇工作中,研究人员对其进行了如下调整:

第一,用regular卷积代替初始的strided 卷积,使网络在全分辨率下运行,并保留更精细的细节。

第二,在每个分支中的residual blocks 中,通过渲染感知非规范化(rendering-aware denormalization ,RAD)模块来替换批处理规范化层。

Residual blocks由卷积层(核大小为3)、光谱归一化(spectral normalization)和ReLUs组成。它在Conv 1和Conv P中执行通道宽度的改变或缩小。如果通道宽度和分辨率不变,则省略Conv P的推理环节。

RAD模块和G-buffer编码器中均有使用Residual blocks。RAD模块通过几何图形、材料、光照等来自G-buffer的语义信息来调制图像特征张量。这些图像特征通过group normalization进行标准化,然后再通过元素权重(γ, β)进行缩放和移位。每个RAD模块中有三个Residual blocks来变换G-buffer特征,可以更好地适应权重变化。

在训练方面,图像增强网络有两个目标。

第一,用LPIPS loss评估输入和输出图像之间的差异。

第二,用鉴别器评估增强图像的真实性。

鉴别器用来区分经过网络增强的图像和来自数据集的真实图像。它由健壮的语义分割网络、感知特征提取网络和多个鉴别器网络组成。研究人员采用MSeg进行语义分割,VGG16进行感知特征提取。这两个网络都是预训练的,在训练图像增强网络时没有进行优化。然后将分割网络应用于来自目标数据集的真实图像和未修改的渲染图像(这为真实图像和合成图像提供了兼容的语义信息)。将VGG特征提取网络应用于真实图像和增强图像。

在被训练的过程中,鉴别器使用一种特定的采样策略来选择真实和合成的图像块,以显著减少常见的伪影。

2

实验评估

论文中,研究人员进行了一组对照实验,具体评估了采样策略、G-buffers、使用G-buffers的架构以及对抗性损失的不同设置等指标。结果如下图:

在采样策略方面,通过对uniform采样与matching patch pairs采样在不同尺寸(196、256、400)下的对比,表明较小的patch减少了原始和目标图像数据之间的不匹配,较大的patch伪影更强,如下图第2列和第3列。

较小的patch采样可显著降低sKVD。在matching patches采样中,中高层次的sKVD有所降低了,而最低层次上的sKVD略有增加。这可以解释为uniform采样patch的优势是可以被更高水平的分布不匹配所抵消。

在引入G-buffers策略上对比了三种方法:第一,简单地将它们附加到渲染图像(Concat)中。它使用标准的HRNet架构进行图像增强(没有RAD模块或RAD块)。第二,将RAD模块替换为SPADE模块。第三,使用本篇论文的RAD模块。

结果表明,简单的concatenation比SPADE模有更好的结果。SPADE模块在整个数据集中很不稳定,对比真实图像有明显的伪影和颜色偏差。如下图中间列:

在鉴别器评估方面,比较了PatchGAN,它使用四个鉴别器网络,每个鉴别器网络以不同的比例摄取图像。实验表明,PatchGAN鉴别器的输出结果明显缺乏真实感。如下图,推理层和自适应反向传播都发挥了作用,但不在同一感知水平。如果移除自适应反向传播会降低最高层次上sKVD,移除推理层会增加高层次的sKVD。当考虑到所有层次时,推理和自适应反向传播相结合是有益的。推理层的效果如下图:

总的来说,本篇论文的方法显著增强了渲染图像的真实感。针对真实数据集中具有清晰对应关系的物体和场景,它能够产生高质量的增强,这些增强在几何和语义上与输入图像一致,同时与相应数据集的样式相匹配。在 Geforce RTX 3090 GPU上,该方法在当前未优化的实现中推理需要半秒钟。由于用作输入的G-buffer是在GPU上生成的,因此可以更深入地集成到游戏引擎中,提高效率和真实感水平。

此外,该方法生成的图像在结构上与输入场景一致,这有助于使用可用于合成数据的基本事实注释。为了支持未来的研究,研究人员将发布GTAV和VIPER数据集的增强图像。

引用链接:

https://www.theverge.com/2021/5/12/22432945/intel-gta-v-realistic-machine-learning-cityscapes-dataset

https://www.engadget.com/gta-v-ai-photorealism-135046313.html

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

《GTA 5》走进现实!AI逼真还原游戏街景,还能“脑补”细节 | 英特尔出品相关推荐

  1. 惠普第八代游戏家族产品重磅首发,搭载英特尔第十二代酷睿处理器

    2月17日消息,昨日,"玩出内力,全速出击" 2022惠普第八代游戏家族新品发布会惊喜开启,重磅发布OMEN暗影精灵8游戏本.OMEN暗影精灵8 Plus游戏本.惠普VICTUS光 ...

  2. 不到400元,将你的手机变成可编程AI机器人丨英特尔出品

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 只需要400块不到,就能拥有一个可编程的AI小机器人,而且还能用手机控制? 这就是英特尔实验室(Intel Lab)最新公布的研究成果Ope ...

  3. AI种黄瓜大赛,微软击败腾讯、英特尔夺冠

    荷兰瓦赫宁根大学(Wageningen University)发起的温室挑战赛──AI 种黄瓜比赛,微软团队击败了腾讯和英特尔等同业及人类园艺专家,成为获胜者.腾讯和中国农业科学院等机构组成的 iGr ...

  4. 不是男人也要上100层:Unity专为AI开发了游戏,还启动了10万美元挑战赛

    操作栗 发自 凹非寺 量子位 出品 | 公众号 QbitAI 会打游戏,对一只AI来说已经不算稀缺技能了. 上星期五,DeepMind星际AI横扫人类职业选手的战绩曝光,世人已开始颤抖. 也许过不了多 ...

  5. 英特尔杀入游戏显卡市场:3000元档位,支持光追和AI超分辨率,挑战AMD英伟达...

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 千呼万唤始出来,在游戏显卡一卡难求(原价)的今天,英特尔给玩家们带来了一个好消息: 正式发布高性能游戏显卡品牌Arc(中文名:锐炫). 这次 ...

  6. 英特尔杀入游戏显卡市场:支持光追和AI超分辨率,挑战AMD英伟达

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 千呼 ...

  7. 软硬一体打天下,英特尔在 AI 上做了些什么?

    作者 | 屠敏 出品 | CSDN(ID:CSDNnews) 「上个世纪 70-80 年代,康奈尔大学的教授弗雷德·贾里尼克和同事彼得·布朗等人在研究语音识别时,无意中开创了一种采用统计的方法解决智能 ...

  8. 新至强训练推理增效十倍,英特尔CPU加速AI更上一层楼

    ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 人工智能技术改变了我们的生活,而说到 AI 背后的算力,人们经常会先想到 GPU.从 2019 年英特尔为其第二代至强可扩展处理器增添了内置的深 ...

  9. 4核处理器_英特尔十代酷睿桌面处理器来袭:10核/5.3GHz,新一代游戏利器

    IT之家5月15日消息 4月30日,英特尔正式发布了第十代酷睿桌面处理器,与上一代相比全部升级了超线程,入门款的i3-10100成为了4核8线程的小钢炮,而i9-10900K则成为了10核20线程的大 ...

最新文章

  1. Boost:connect pair连接对测试程序
  2. mplayer 所支持的音视频编解码
  3. linux 备份mysql并上传_Linux 网站目录和MySQL备份并上传FTP
  4. Android Studio (8)---常用快捷键
  5. NLP --- 文本分类(基于LDA的隐语意分析训练算法详解)
  6. NS和DNS的区别有哪些?
  7. C++学习(七十一)3Dtiles glTF glb b3dm
  8. 自学考试java语言程序设计_自考java 04747《Java语言程序设计(一)》教材电子版...
  9. 交易日节假日查询API接口规范
  10. python刷火车票脚本_Python打造刷火车票工具邮件通知自己
  11. APP视频播放异常,非APP层导致异常基础排查
  12. Java游戏服务器系列:传统的BIO(OIO)、NIO与Netty中的BIO(OIO)、NIO
  13. C++一周学习总结(2021/05/03)
  14. asn1编码格式的解析过程
  15. 关于产品的一些思考——腾讯之手机安全管家
  16. 新东方雅思词汇---6.2、重音在词根上,不在前后缀(名词除外)
  17. 大数据学习路线,芜湖 起飞~
  18. android开发出现错误:Failed to find configured root that contains
  19. PyQt5+fitz实现图片与PDF互相转换
  20. arcgis中编码方式改变引起的shp文件乱码、字符截断问题处理

热门文章

  1. Windows程序设计“圣经”
  2. 斯坦福团队开发智能盲杖,搭载激光雷达,可探测障碍规划路线,完全开源可在家DIY...
  3. 数据蒋堂 | 莫非我就是被时代呼唤的数学人
  4. 业内大牛送给计算机方向学生的7个实用建议!
  5. 手把手教你生成对抗网络 GAN,50 行代码玩转 GAN 模型!(附源码)
  6. ICML 2018大奖出炉:伯克利、MIT获最佳论文(附论文、项目链接)
  7. 实例 | 利用犯罪记录聚类和分类暴力行为(附步骤解析)
  8. 文言文编程还不够好玩?这里有个16岁高中生开发的粤语编程项目,GitHub star量600+...
  9. 刚刚!饶毅再次撰文,回应耿美玉,称其未遵守学术规范
  10. MuJoCo要开源!DeepMind收购物理引擎MuJoCo,将推动全球机器人研发