奥斯卡大赢家影片：《瞬息全宇宙》背后的AI技术揭秘

本文约1800字，建议阅读5分钟

本文介绍了奥斯卡影片《瞬息全宇宙》背后的AI技术。

Runway 是一家人工智能视频编辑软件供应商。据了解，本届奥斯卡最大赢家影片《瞬息全宇宙》制作过程中采用了这家公司的技术。

关键词：瞬息全宇宙 Runway Gen-1

北京时间 3 月 13 日上午，2023 年奥斯卡颁奖礼在洛杉矶举行，影片《瞬息全宇宙》一举斩获七项大奖，成为最大赢家。主演杨紫琼也凭借该片将奥斯卡最佳女主角奖收入囊中，成为奥斯卡历史上首位华裔影后。

杨紫琼奥斯卡封后，图源网络

据了解，这部正在被热议的科幻电影背后的视觉效果团队仅有 5 人，为了尽快完成这些特效镜头，他们选择了 Runway 公司的技术来帮助创建某些场景，比如为图像去除背景的绿幕工具 (The Green Screen)。

「仅仅几次点击就让我节省几个小时，我可以用这些时间尝试三四种不同的效果，让影片效果更好。」导演兼编剧 Evan Halleck 受访时谈道。

手指进化成热狗宇宙，图源网络

Runway：参与初代Stable Diffusion开发

2018 年底，Cristóbal Valenzuela 联合其他成员创立 Runway。它是一家人工智能视频编辑软件提供商，致力于利用计算机图形学及机器学习的最新进展，为设计师、艺术家和开发人员降低内容创作的门槛、推动创意内容的发展。

据 Forbes 报道，该公司年收入将近 500 万美元，员工仅 40 人左右

2023 年 2 月 6 日，Runway 官方推特发布 Gen-1 模型，可以通过应用文本提示或者参考图像所指定的任意风格，将现有视频转换为新视频。

Runway Twitter 官宣 Gen-1

Gen-1：structure + content 双管齐下

科研人员提出了一个结构 (structure) 和内容 (content) 引导的 video diffusion model--Gen-1，可以依据预期输出的视觉或文本描述，对视频进行编辑。

Gen-1 模型原理展示

所谓 content，是指描述视频的外表 (appearance) 和语义的特征，如目标物体的颜色、风格以及场景的灯光。

而 structure 则是指描述其几何和动态的特征，如目标物体的形状、位置以及时间变化。

Gen-1 模型的目标是在保留视频 structure 的同时，编辑视频 content。

在模型训练过程中，科研人员用到了一个由未加字幕的视频及 text-image pair 构成的大规模数据集，同时，用单目场景深度预测 (monocular depth estimates) 来表示 structure，用预训练神经网络预测的 embedding 来表示 content。

该方法在生成过程中提供了几种强大的控制模式：

1. 参考图像合成模型，训练模型使得推理的视频 content（如呈现或风格）与用户提供的 image 或 prompt 相匹配。

Guided Video Synthesis 示例

在保留输入视频（中间）structure 的同时

基于文本提示或图像合成的视频（上及下）

2. 参考 diffusion 过程，对结构表征 (structure representation) 进行 information obscuring，这使得开发者可以自行设定 model adhere 对于给定 structure 的相似程度。

3. 参考 classifier-free guidance，借助自定义 guidance 方法，调整推理过程，从而控制生成 clip 的时间一致性。

在该实验中，科研人员：

通过在预训练的图像模型中引入 temporal layer，并对图像和视频进行联合训练，将 latent diffusion model 扩展到视频生成中。
提出了一个 structure 和 content-aware 模型，可以在示例图像或文本的指导下修改视频。视频编辑完全是在推理阶段进行的，无需逐个视频进行训练或预处理。
对 temporal、content 和 structure 一致性的完全控制。实验表明，在图像和视频数据上的联合训练，能够在推理期间上控制一致性 (temporal consistency)。对于结构一致性 (structure consistency)，在表征的不同细节水平上训练，使用户得以在推理过程中选择所需的设置。
一项用户调研表明，该方法比其他几种方法更受欢迎。
通过对一小部分图像进行微调，可以进一步定制训练过的模型，以生成更准确的特定 subject 的视频。

为了评估 Gen-1 的性能，科研人员用 DAVIS 数据集中的视频以及其他各种素材进行了评估。为了自动创建编辑 prompt，研究人员首先运行了一个 captioning 模型来获得原始视频内容的描述，然后使用 GPT3 生成编辑 prompt。

Gen-1 与其他模型生成效果的用户满意度对比

实验结果表明，在对所有方法生成效果的满意度调研中，75% 的用户更倾向 Gen-1 的生成效果。

AIGC：争议中前行

2022 年，生成式人工智能成为自十多年前移动和云计算兴起以来最引人注目的技术，我们正有幸见证其应用层的萌芽，许多大模型正迅速从实验室中走出来，扑向真实世界的各个场景。

然而，尽管有提高效率、节省成本等诸多好处，我们也需要看到，生成式人工智能依然面临多种挑战，包括如何提高模型的输出质量和多样性、如何提高其生成速度，以及应用过程中的安全、隐私和伦理宗教等问题。

有些人对 AI 艺术创作提出质疑，更有甚者认为这是一种 AI 对艺术的「入侵」，面对这种声音，Runway 联合创始人兼 CEO Cristóbal Valenzuela 认为，AI 只是工具箱中一个用来给图像等内容上色或修改的工具，与 Photoshop、LightRoom 并无二致。虽然生成式人工智能还存在一些争议，但它为非技术人员和创意人员打开了创作的大门，并将带领内容创作领域走向新的可能。

参考链接：

[1]https://hub.baai.ac.cn/view/23940

[2]https://cloud.tencent.com/developer/article/2227337?

编辑：王菁

校对：林亦霖

奥斯卡大赢家影片：《瞬息全宇宙》背后的AI技术揭秘相关推荐

《瞬息全宇宙》评论乌龙刷评翻车水军机器人何时能休？
试问近一周影视圈哪部电影最火,相信常"网上冲浪"的各位肯定赞同非<瞬息全宇宙>莫属,自5月19日高清片源入市以来,不少电影节选片段和讨论瞬间引爆了国内社交平台,绝对可以 ...
元宇宙真正大赢家，起底英伟达布局！揭秘五大关键技术
编辑 | 智东西内参 11月9日,英伟达在2021年GPU技术会议(GTC 2021)上,宣布了要将产品路线升级为"GPU+CPU+DPU"的"三芯"战略, ...
python 用户的画像可视化呈现技术_一人一车一面：解读汽车大数据用户画像背后的AI技术...
背景介绍大数据大数据主要有五个特征,我们称为5V特征:Volume(大量).Variety(多样).Value(价值).Velocity(速度).Veracity(质量). Volume(大量): ...
全宇宙最强AI 聊天机器人模型ChatGPT惊艳来袭，你还不上车？居然能写演讲稿和帮忙写代码
目录 1.ChatGPT介绍 2.ChatGPT如何注册,国内不可用 3.VS Code下载安装ChatGPT 3.1 打开VS Code找到ChatGPT 3.2 ChatGPT 详细安装步骤: 3 ...
那段记忆中的声音：单式评书再现江湖背后的AI技术
"听众朋友们,你们好.从今儿个,由我为大家播讲悬疑小说,<江湖消亡史:北平暗夜>.这个故事发生在民国十几年的北京城里--"情感充沛的评书腔调,苍劲沙哑的嗓音,单田芳大师 ...
大有乾坤，售前机器人背后的 AI 技术
作者 | 伍杏玲出品 | AI科技大本营(ID:rgznai100) 我们在网上购物时,无论多晚找客服咨询,对面均会回复一句"在呢,请问有什么可以帮助您?",屏幕背后大部分为智能 ...
京东商城背后的AI技术能力揭秘 - 基于关键词自动生成摘要
来源 | 京东智联云开发者过去几十年间,人类的计算能力获得了巨大提升:随着数据不断积累,算法日益先进,我们已经步入了人工智能时代.确实,人工智能概念很难理解,技术更是了不起,背后的数据和算法非常庞大 ...
美团外卖骑手背后的AI技术
背景随着数字化时代的到来,外卖市场近年来发展非常迅猛.对外卖物流系统而言,配送效率和用户体验至关重要.而实际配送过程是由配送员(骑手)最终完成的,因此,想要真正提升配送效率,不但要在智能调度系统(订 ...
美团-外卖骑手背后的AI技术
背景随着数字化时代的到来,外卖市场近年来发展非常迅猛.对外卖物流系统而言,配送效率和用户体验至关重要.而实际配送过程是由配送员(骑手)最终完成的,因此,想要真正提升配送效率,不但要在智能调度系统(订 ...

奥斯卡大赢家影片：《瞬息全宇宙》背后的AI技术揭秘

奥斯卡大赢家影片：《瞬息全宇宙》背后的AI技术揭秘相关推荐

最新文章

热门文章