scripts to compositions to videos

本文以《摩登原始人》的动画片段作为训练数据，对每个片段进行详细的文本标注，最终训练得到一个可以通过给定脚本或文字描述生成动画片段的模型。
模型称为组合，检索和融合网络(Craft)，分为布局、实体、背景，三个部分。Craft明确地预测所提到的实体（角色和对象）的时间布局，从视频数据库中检索时空实体片段并融合它们以生成场景视频。虽然现阶段模型存在着很多问题，但是这个研究在理解文本和视频图像高层语义方面有着很大的意义。
本文工作：通过连续训练Craft的组件，为布局和外观联合建模。
优点：Craft优于直接像素生成方法
评估craft:
和字幕的语义一致性、构图一致性、视觉质量

1.introduction：
考虑场景描述：弗雷德戴着一顶蓝色的帽子，在起居室里与威尔玛交谈。威尔玛然后坐在沙发上。
在我们的脑海中描绘场景，需要知道可能的位置，外观，动作以及所描述的人物和物体的相互作用，以及理解和将自然语言描述转化为合理的视觉实例的能力。在这项工作中，我们介绍了语义场景生成（SSG），这是从丰富的自然语言描述生成复杂场景视频的任务，需要联合建模描述中提到的实体的布局和外观。使用密集注释的具有场景描述和实体边界框的视频数据集训练SSG模型，。

如上所述对实体的布局和外观进行建模会带来一些挑战：
（a）实体调用 - 视频必须包含相关人物（Fred，Wilma），对象（蓝帽，沙发）和背景（类似于客厅）;
（b）布局可行性 - 角色和物体必须放置在合理的位置和尺度上（弗雷德，威尔玛和沙发应放在地平面上，帽子必须放在弗雷德头顶上）;
（c）外观可信度 - 实体外观，可能受到身份，姿势，行为，属性和布局的影响，应和场景描述一致;
（d）互动一致性 - （弗雷德和威尔玛应当像人们彼此交谈时那样彼此面对）;
（f）语言理解 - 系统必须能够理解并将自然语言描述转化为合理的视觉实例。

目前，从文本条件生成视觉数据的主要方法依赖于直接学习高维像素空间中的分布。虽然这些方法对物体（面部，鸟类，流动者等）的对齐图像显示出令人印象深刻的结果，但由于多个角色和具有重要意义的物体引起的图像空间的组合爆炸，它们通常不足以解决上述挑战。外观变化以大量可能的布局排列。相比之下，我们提出的组合，检索和融合网络（Craft）与实体外观一起明确地模拟场景中的人物和物体的时空布局。与像素生成方法不同，我们的外观模型基于从视频数据库中检索文本到实体段。从检索到的视频中提取时空片段并将其融合在一起以生成最终视频。布局组合和实体检索以顺序方式工作，该方式由语言输入确定。将模型分解为合成和检索阶段可以减少直接建模像素空间的需要，从而使结构更容易利用位置和外观上下文线索，并呈现更可解释的输出。

为了实现SSG的目标，我们引入了Flintstones，这是一个基于The Flintstones动画系列的密集注释数据集，由超过25000个视频组成，每个视频长75帧。与使用随机的互联网视频样本相比，摩登原石有几个优势。首先，在诸如电视连续剧的封闭世界环境中，最频繁的字符存在于各种各样的设置中，这比在开放世界环境中获得的稀疏集合更容易管理学习问题。其次，动画中的纹理比实际视频更容易建模。第三，与其他动画系列相比，摩登原石在人物与物体之间相互复杂的相互作用，而没有过于复杂，杂乱的场景之间取得了很好的平衡。出于这些原因，我们认为Flintstones数据集在语义上很丰富，可以保留文本到场景生成的所有挑战，并且是实现真实视频的良好踏脚石。摩登原石由80-10-10组成

train-val-test。 train和val集分别用于学习和模型选择。测试字幕用作在测试时生成视频的新颖描述。为了定量评估我们的模型，我们使用两组指标。第一种是使用实体名词，形容词和动词回召来测量所生成视频的语义精确度到所需描述。第二种衡量组合一致性，即实体相对于视频和背景中的其他实体的外观，姿势和布局的一致性。

我们使用摩登石来评估CRAFT并提供详细的消融分析。 Craft优于直接从字幕生成像素的基线以及整个视频检索方法（与建模实体相对）。它很好地泛化了目标数据库中看不见的字幕以及看不见的视频。我们的定量和定性结果表明，对于更简单的描述，Craft利用位置和外观上下文提示并输出具有所描述实体的一致布局和外观的视频。但是，还有很大的改进余地。对于复杂的描述（包含大量实体，特别是不常见的实体），Craft可能会灾难性地失败。形容词和动词召回率也相当低。我们相信摩登原始人的SSG为未来的研究提出了一个具有挑战性的问题。

2 Related Work

生成模型随着变分自动编码器[1]和生成性对抗网络[2]的开创性工作，人们对高维像素空间中视觉数据的生成建模产生了极大的兴趣。早期的方法侧重于无条件生成[3-6]，而最近的工作探索了以描述对象的简单文本输入为条件的模型[7-11]。虽然这些模型生成的图像的视觉质量一直在稳步提高[12,13]，但成功故事仅限于生成对齐对象（例如面部，鸟类，流动者）的图像，通常每个对象类训练一个模型。相比之下，我们的工作涉及生成复杂场景，这需要对场景中多个实体的布局和外观进行建模。特别相关的是Hong等人的工作。 [14]谁首先生成边界框的粗略语义布局，将其重新分割为分割掩模，然后使用图像到图像转换模型生成图像[15,16]。这种方法的局限性在于它假定固定数量的对象类（在他们的实验中为80）并且与建模高维像素空间（例如生成相干实体）的通常挑战相矛盾。根据从数据库中检索实体来制定外观生成，允许我们的模型扩展到大量实体类别，保证实体内部的一致性，并使我们能够专注于场景生成和实体间一致性的语义方面。检索方法还有助于生成视频而无需进行重大修改。已经尝试将GAN扩展为无条件[17,18]以及文本条件[19]视频生成，但是生成的视频的质量通常比GAN生成的图像的质量更差，除非在非常严格的设置中使用。相关的生成建模方法由Kwak等人提出。 [20]谁提出了一个模型，其中的部分
图像按顺序生成并使用Alpha混合进行组合。但是，这项工作并不适用于文本，也没有在复杂场景中进行演示。另一个相关的工作是Zitnick等人。 [21-23]使用条件随机场公式从剪贴画图像中描述静态图像。为了控制输出图像的结构，越来越多的文献规定了从关键点[24]和草图[25]到语义分割图[15]的各种输入的图像生成。与在提供的位置上调节的这些方法相比，我们的模型生成合理的场景布局，然后在该布局上调节实体检索。短语接地和字幕图像检索。 Craft中的实体检索器与基于标题的图像检索模型有关。通常通过最小化诸如三元组损失的排名损失来学习字幕图像嵌入空间[26,26-29]。短语接地[30]是另一个密切相关的任务，其目标是定位由短语描述的图像中的区域。我们的一个贡献是通过同时最小化基于与文本描述中的实体相关联的名词，形容词和动词的辅助分类损失来丰富通过三重损失学习的嵌入的语义。这在原理上类似于[31]，其中除了主要二进制预测损失之外还使用辅助自动编码损失来学习鲁棒的视觉语义嵌入。跨多个相关任务学习共享表示是多任务学习中的关键概念[32,33]。

3 Model

图2展示了Composition，Retrieval和Fusion Network的概述，它由三部分组成：Layout Composer，Entity Retriever和Background Retriever。每个都是一个神经网络，使用地面实况监督独立训练。在推理时，Craft以空视频开始，并根据描述中的出现顺序依次添加场景中的实体。在每个步骤中，布局编辑器会根据到目前为止构建的文本和视频来预测实体的位置和比例。然后，以预测的位置，文本和部分构造的视频为条件，实体检索器产生查询嵌入，该查询嵌入针对目标视频数据库中的实体的嵌入进行查找。从检索到的视频中裁剪实体，并将其放置在正在生成的视频中的预测位置和比例。布局编辑器和实体检索器之间的交替允许模型调整外观上实体的布局，反之亦然。与实体检索器类似，背景检索器从文本生成所需场景的查询嵌入，并从目标数据库中检索最接近的背景视频。将检索到的时空实体片段和背景融合以生成最终视频。我们现在介绍本文其余部分使用的符号，然后是三个组件的架构和训练细节。

3.layout composer

布局组合器负责生成场景的合理布局，其包括场景描述中提到的每个角色和对象的位置和比例。对场景中所有实体的位置进行联合建模，为现有语言引导的本地化任务之外的空间知识表示提出了根本性的独特挑战。预测图像中尚未存在的物体的合理位置和比例需要有关人和物体的大量空间知识，而基于文本的物体定位则严重依赖于外观线索。这包括以下知识： - 帽子放在一个人的头顶上，一张沙发放在坐在它上面的人的下面，一个被人说话的人面对讲话的人而不是面对面，桌子很短而宽，而站着的人很高。
图3给出了布局编写器的原理图。给定跨视频的实体数量的变化，布局组合器被设置为以给定描述中提到的一组不同实体的顺序方式运行。在每个步骤，将期望实体的文本嵌入连同部分构建的视频（由在先前步骤中融合到视频中的实体组成）输入到模型，该模型预测所需实体的位置和比例的分布。布局组合器模型P（li | Vi-1，T，ei;θloc，θsc），（布局组合为在当前已经构建的含有部分实体的视频，长度为|T|的字幕T，在字幕T中实体名词位置等条件下，实体在每一帧中边界框的概率进行建模）位置和比例的条件分布（由图像大小标准化的宽度和高度）

布局组合器模型P（li | Vi-1，T，ei;θloc，θsc），给定文本，实体名词位置的第i个实体的位置和比例（由图像大小标准化的宽度和高度）的条件分布标记化文本，以及具有先前实体的部分视频。设Ci表示条件信息，（Vi-1，T，ei）。我们将位置分布分解为位置和比例组件，如下所示：

我们使用高斯分布对Pf sc建模，其平均μf和协方差Σf由给定的网络（xi，yi，Ci）预测。参数θloc和θsc通过最小化以下最大似然估计损失从地面实况位置注释中学习

特征计算骨干。
位置和比例预测器具有相同的特征计算主干，包括CNN和双向LSTM。 CNN编码Vi-1（沿着信道维度连接的8个子采样帧）作为一组卷积特征图，其捕获场景中先前实体的外观和位置。 LSTM用于编码要对其进行预测的实体Ei以及标题中可用的语义上下文。标题被输入到LSTM中，并且eth i字位置处的隐藏输出被提取为实体文本编码。文本编码在空间上被复制并与卷积特征和2-D网格坐标连接，以便为卷积特征网格中的每个位置创建表示，该表示了解视觉，空间，时间和语义上下文。

位置预测器。
Pf loc使用多层感知器（MLP）建模，该感知器为每个位置产生分数。此地图按照双线性上采样到输入视频帧的大小。然后，对于第f个视频帧中的每个像素位置（x，y），在所有像素上的softmax层产生Pf loc（x，y | C;θfloc）。

比例预测器。

选择由骨干在特定（x，y）位置计算的特征并将其馈送到产生μf（xi，yi，Ci;θfsc）的标度MLP中。
功能共享和多任务培训。虽然可以为每个{Pf loc，μf} F f = 1训练一个单独的网络，但我们提出了一种实用的方法来共享不同帧的特征和计算，以及位置和规模网络之间。为了跨帧共享特征和计算，位置网络在单个前向传递中产生F概率图。这相当于在所有Pf loc网络中共享所有层，除了产生位置分数的MLP的最后一层。类似地，所有μf网也组合成单个网络。我们用Ploc和μ来指代组合网络。此外，我们还在位置和规模网络上共享功能。首先，我们共享特征计算主干，然后将其输出传递到位置和比例特定层。其次，我们使用软注意机制来选择可能的位置以进入比例层。这决定了实体的合理位置上的比例预测。我们通过最大池将F空间图组合成单个注意力图。该关注图用于对主干特征执行加权平均合并，然后将其输入到标度MLP中。请注意，这是一个可靠的贪婪近似，可以在单个前向通道中找到最可能的位置（通过获取空间概率图的argmax）和缩放（直接使用μ的输出，高斯分布的模式）。为了使训练与推理保持一致，我们使用软注意机制而不是将地面实况位置输入μ。

3.2实体检索器实体检索器的任务是在目标数据库中找到与描述中的实体匹配的时空补丁，并与目前构建的视频一致 - 检索所有先前实体并放置在位置的视频由布局网络预测。我们采用基于嵌入的查找方法进行实体检索。这提出了超越传统图像检索任务的若干挑战。检索到的实体不仅需要匹配描述的语义，而且还需要遵守由其他实体的外观和位置强加的隐式关系约束或上下文。例如。因为弗雷德正在与威尔玛交谈，所以找回威尔玛是不够的，但也面向正确的方向，即对弗雷德。实体检索器如图4所示，由两部分组成：（i）查询嵌入网络Q，以及（ii）目标嵌入网络R.使用查询 - 目标对学习Q和R
（T [m]，e [m] i，l [m] i，V [m] i-1），（V [m]，l [m] i，s [m] i）ii，m in培训数据。为清楚起见，我们将Q（T [m]，e [m] i，l [m] i，V [m] i-1）缩写为q [m] i和R（V [m]，l [m] 我，s [m] i）为r [m] i。在每次训练迭代中，我们采样一小批B对而无需替换并计算嵌入{（q [mb] ib，r [mb] ib）} B b = 1其中q和r是对应于F嵌入的每个序列 F视频帧。使用在小批量中的所有可能的三联体上计算的三联体损失来训练模型。令δb表示除了b之外的从1到B的所有指数的集合。然后可以将损失定义为

其中q r = 1 FPF f = 1 q [f]·r [f]是相应查询和目标帧嵌入之间的平均点积。我们使用γ= 0.1的余量。

实体检索器从目标数据库中检索与查询嵌入网络编码的实体描述匹配的时空补丁。

辅助多标签分类丢失我们发现，单独使用三元组丢失训练的模型可以简单地学习地面实况文本和实体视频片段之间的一对一映射，而对于看不见的字幕和数据库视频的概括性较差。为了指导学习利用文本的组成性质并改进泛化，我们在嵌入之上添加了辅助分类损失。关键思想是通过预测与描述中的实体直接相关的名词，形容词和动作词来丰富嵌入向量的语义。例如，Wilma通过Fred中的查询和目标嵌入网络生成的嵌入与正坐在椅子上的幸福的Wilma交谈。被迫预测威尔玛，快乐和坐着确保他们在嵌入中的代表性。词汇W由出现在训练数据中的所有名词，形容词和动词构成。然后，对于小批量中的每个样本，使用MLP作为多标签分类器来预测来自查询和目标嵌入的关联词。请注意，单个MLP用于对查询和目标嵌入进行这些名词，形容词和动词预测。
查询嵌入网络（Q）。与布局编辑器的特征计算主干类似，Q由一个CNN独立编码Vi-1的每一帧和一个LSTM编码（T，ei），它们与一个二维坐标网格连接在一起得到每帧特征地图。然而，与布局组合器不同，查询嵌入网络还需要以实体Ei将被插入Vi-1中的位置li为条件。为了获得位置和比例特定查询嵌入，我们使用简化的RoIAlign（具有RoI量化和双线性插值的RoIPool）机制来使用相应的边界框lf i裁剪出每帧特征图并将其缩放到7×7接收场。。然后沿着空间维度对RoIAlign特征进行平均，以独立地获得每个时间步的矢量表示。应用于这些嵌入序列的LSTM用于捕获时间上下文。每个时间步的LSTM的隐藏输出被归一化并用作嵌入q [f]的帧查询。

目标嵌入网络（R）。因为在推理期间，R需要在没有文本注释的目标数据库中嵌入实体，所以它不使用T作为输入。因此，R类似于Q但没有LSTM来编码文本。在我们的实验中，我们发现在查询和目标网络中使用二维坐标特征使得网络容易忽略所有其他特征，因为它提供了在训练期间匹配地面真实查询 - 目标对的简单信号。这反过来导致不良的泛化。因此，R没有2-D坐标特征。

背景检索器的任务是找到与描述中描述的设置匹配的背景场景。为了构建一个没有字符的背景数据库，我们从视频中删除字符（给定边界框）并使用PatchMatch [34]执行空洞填充。背景检索器模型类似于具有两个主要差异的实体检索器。首先，由于检索整个背景场景而不是实体段，因此从查询和数据库嵌入网络中移除了对位置的调节，以替换具有全局平均池的RoI池。其次，理想情况下，我们希望场景和实体检索能够相互制约，为简单起见，我们将其留待未来的工作，并且目前独立对待它们。这些修改实质上将查询嵌入网络减少到文本Bi-LSTM，其在描述中的背景词位置处的输出用作查询嵌入，并且目标嵌入网络到没有RoI池的视频Bi-LSTM。仅使用三重态损失训练模型。

组成。摩登原始人数据集由25184个密集注释的视频剪辑组成，这些剪辑来自动画情景喜剧“摩登原始人”。剪辑被选择为3秒（75帧）长以捕获相对较小的动作序列，限制描述它们所需的句子数量并避免场景和镜头变化。如图5所示，注释包含剪辑的字符，

组成。摩登原始人数据集由25184个密集注释的视频剪辑组成，这些剪辑来自动画情景喜剧“摩登原始人”。剪辑被选择为3秒（75帧）长以捕获相对较小的动作序列，限制描述它们所需的句子数量并避免场景和镜头变化。如图5所示，注释包含剪辑的字符，设置，与文本中标记的对象以及所有帧中的边界框。摩登原石有80-10-10次列车 - 试验分裂。
剪辑注释。密集注释通过多步骤过程获得：关键帧中字符的识别和定位，场景设置的识别，场景字幕，对象注释和实体跟踪，以便为所有帧提供注释。数据集还包含字符和对象的分段掩码。首先，通过使用SLIC [35]然后进行分层合并来生成粗略分割掩模。然后使用该掩码初始化GrabCut [36]，这进一步确定了分割。数据集还包含每个剪辑的干净背景。切除前景字符和对象，并使用PatchMatch [34]填充生成的孔。有关数据集的更多详细信息，请参阅补充材料。

指标。我们使用2个度量来评估布局组合器：（a）预测分布下的地面实况（GT）实体位置的负对数似然（NLL），以及（b）平均归一化像素距离（通过图像高度和宽度归一化的坐标）。来自最可能预测的实体位置的基本事实。虽然NLL捕获位置和比例，但像素距离仅测量位置精度。我们使用部分视频中先前实体的地面实况位置和外观报告未见测试描述的指标。
特征消融。表1中的消融研究表明，布局组合器受益于3个输入要素中的每一个 - 文本，场景上下文（部分视频）和2D坐标网格。 NLL在没有文本特征的情况下显着下降表明了实体身份的重要性，特别是在预测规模方面。
表1.布局编辑器分析。评估我们的模型（最后一行）和测试集上的消融。第一行提供理论计算值，假设均匀的位置分布，而不对比例分布做出假设。

在没有2D坐标网格的卷积特征图中缺乏空间感知导致像素距离大约加倍。移除场景上下文时的性能下降表示在预测下一实体的位置时知道哪些实体在场景中的位置的相关性。最后，通过扩张卷积替换香草卷积增加了空间接收场而不增加参数数量提高了性能，这证实了场景上下文在布局预测中的有用性

Adam optimizer（adaptive moment estimation）自适应矩估计，一种基于一阶梯度来优化随机目标函数的算法。Adam算法根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针对每个参数的学习速率。Adam也是基于梯度下降的方法，但是每次迭代参数的学习步长都有一个确定的范围，不会因为很大的梯度导致很大的学习步长，参数的值比较稳定。，这个算法在MRC（机器阅读理解）中有被用到。

指标。为了评估检索到的实体对查询标题的语义特性，我们测量了测试集中实体之间平均的名词，形容词和动词回忆（@ 1和@ 10）。自动解析字幕以识别与查询字幕和目标数据库中的每个实体相关联的名词，形容词和动词（仅使用GT数据库字幕进行评估）。请注意，字幕通常包含有限的形容词和动词信息。例如，视频中的红帽子可能只被称为标题中的帽子，弗雷德站立和说话可能被描述为弗雷德正在说话。我们也不考虑同义词（说话）和上位词（人 - 女）。因此，提议的度量低估了实体检索器的性能。
特征消融。表2显示文本和位置特征对名词，形容词和动词回忆至关重要。场景语境仅略微影响名词回忆，但会引起形容词和动词回忆的显着下降。
辅助损失的影响。表3显示单独的三重态损失确实比与辅助分类损失相结合显着更差。在查询或目标嵌入上添加辅助分类丢失仅改善了三元组，但比使用全部三个更差。有趣的是，在形容词和动词回忆中，使用两个辅助损失优于单个辅助损失（仅限三重组）的三重损失。这有力地表明了实体检索中多任务培训的好处。
12名作者因长度过长而受到抑制
表2.实体检索器功能消融。我们的模型（最后一行）和消融的前1和前10名召回，同时为看不见的测试字幕生成视频。

对看不见的视频进行推广。基于嵌入的文本到实体视频检索方法相对于纯文本方法的一个关键优势是嵌入方法可以使用任何看不见的视频数据库而无需任何文本注释，可能在全新的域中（例如，从合成视频字幕数据集中学习并应用知识生成真实的视频）。但是，这需要一个能够很好地概括到看不见的字幕以及看不见的视频的模型。在表4中，我们比较了使用火车组（看过）视频作为目标数据库与使用测试集（看不见）视频作为目标数据库时的实体回忆。
OHEM与所有Mini-Batch Triplets。我们尝试了在线硬件示例挖掘（OHEM），其中大多数违反三元组约束的负样本用于损失。当查询所看到的视频（1.8,75.3,8.5％相对增益）和看不见的视频（1.7,42.8，-5.0％相对增益）时，所有三胞胎都获得了与OHEM相似或更高的前1名词，形容词和动词回忆。
整个视频与实体建模。从实体构成场景的关键动机是复杂场景的组合性质。为了说明这一点我们将Craft与基于文本到文本的整个视频检索基线进行比较。对于给定的测试标题，我们在数据库中返回一个视频，其标题具有最高的BLEU-1分数。除了动词回忆之外，这种方法比我们的模型表现得更差（BLEU：49.57,5.18,26.64;我们的：62.3,21.7,16.0）。这表明新颖的字幕通常不会在目标数据库中找到匹配，同一视频中存在所有实体及其属性。但是，每个实体和属性组合更有可能出现在数据库中的某些视频中。请注意，文本到文本的匹配还可以防止在没有文本注释的情况下扩展到看不见的视频数据库。

指标。除了将生成的视频的语义特性捕获到字幕的自动调用度量之外，我们还运行人工评估研究来估计场景中实体的组成一致性（给定描述）和整体视觉质量（独立于描述））。一致性度量要求人们在三个方面对视频中的每个实体进行0-4级评分：（a）场景中的位置，（b）相对于其他实体或背景的大小，以及（c）外观和一致性描述了与场景中其他实体的交互。视觉质量度量沿三个轴以0-4比例测量所生成场景的美学和真实性：（a）前景质量，（b）背景质量，以及（c）清晰度。参见这些实验设计的补充材料。
像素建模与检索。我们使用具有和不具有对抗性损失的模型对文本条件化整个视频生成进行了广泛的实验，并且获得了差的结果。由于生成模型倾向于在具有单个实体的图像上更好地工作，我们通过生成器在实体检索器中交换目标嵌入网络。给定在每个F时间步骤处的查询嵌入，生成器产生外观图像和分割掩模。使用掩蔽的外观图像和掩蔽的地面实况图像之间的L1损失以及生成的和地面真实掩模之间的L1损失来训练模型。有关详细信息，请参阅补充材料这个基线产生了模糊的结果，最常见的是Fred，Wilma，Barney和Betty等大多数常见角色的可识别颜色和形状。我们还尝试了基于GAN和VAE的方法，但模糊效果稍差。表5显示，与Craft相比，此模型在Visual Quality度量标准上表现不佳。此外，由于所生成的先前实体的视觉质量影响布局组合器的性能，这也转化为对组合一致性度量的较差评级。由于无法为此像素生成方法计算语义保证度量，因此我们进行了人工评估以将此模型与我们的模型进行比较。人们被要求在生成的视频中遗漏的句子中标记名词，形容词和动词。对于名词，形容词和动词回忆，Craft显着优于像素生成方法（Craft 61.0,54.5,67.8，L1：37.8,45.9,48.1）。

联合与布局的独立建模。我们将Craft与使用相同实体检索器但具有基本事实（GT）位置的模型进行比较。使用GT位置表现比Craft差（GT：62.2,18.1,12.4; Full：62.3,21.7,16.0召回@ 1）。这也反映在组成一致性度量标准中（GT：1.69,1.69,1.34; Full：1.78,1.89,1.46）。这强调了联合建模布局组合和实体检索的需要。使用GT布局时，检索以布局为条件，反之则不然。

scripts to compositions to videos相关推荐

快醒醒，一大波最新 AI 论文加开源代码来袭！
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
ECCV 2018 完整论文集 -- List 下载链接
下文列表为ECCV2018官网得到了今年接收论文列表,共779篇: 下文为ECCV2018的全部接收论文汇总 Oral: Convolutional Networks with Adaptive Co ...
Make-A-Video（造啊视频）——无需文字-视频数据的文字转视频（文生视频）生成方法
© 2022 Uriel Singer et al (Meta AI) © 2023 Conmajia 本文基于论文 Make-A-Video: Text-to-Video Generation wi ...
初始化Mysql系统报错，begin failesd--conpilation aborted at scripts........
在编译安装Mysql之后进行初始化,但是出现了报错初始化mysql scripts/mysql_install_db --basedir=/usr/local/mysql --datadir=/us ...
Composer scripts脚本：事件列表与脚本触发
脚本什么是脚本? 一个脚本,在 Composer 中,可以是一个 PHP 回调(定义为静态方法)或任何命令行可执行的命令.脚本对于在 Composer 运行过程中,执行一个资源包的自定义代码或包专用 ...
npm scripts的生命周期管理
2019独角兽企业重金招聘Python工程师标准>>> 我们平时阅读一些开源项目,可能会发现有些项目的package.json里的scripts区域定义的脚本很复杂,令人眼花缭乱. ...
视频分割--Learning to Segment Instances in Videos with Spatial Propagation Network
Learning to Segment Instances in Videos with Spatial Propagation Network CVPRW2017 https://github.co ...
人群密度估计--Spatiotemporal Modeling for Crowd Counting in Videos
Spatiotemporal Modeling for Crowd Counting in Videos ICCV2017 针对视频人群密度估计问题,这里主要侧重视频中的 temporal infor ...
视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos
Two-Stream Convolutional Networks for Action Recognition in Videos NIPS2014 http://www.robots.ox.ac. ...
视频中的运动特征--Learning Motion Patterns in Videos
Learning Motion Patterns in Videos CVPR2017 Torch code: http://thoth.inrialpes.fr/research/mpnet 本文要 ...

scripts to compositions to videos

scripts to compositions to videos相关推荐

最新文章

热门文章