Abstract

提出的方法：
视频中的视觉信号可以分成内容和动作两部分
内容->视频中有什么
动作->描述运动

分解内容和运动的视频生成：将随机向量序列映射成视频序列
每个随机向量包括内容部分和动作部分，当内容部分确定后，动作部分被认为是一个随机过程
贡献：
为了以无监督的方式学习运动和内容分解，我们提出了一种新的同时使用图像和视频鉴别器的对抗性学习方案。
此外，我们还展示了MoCoGAN允许生成具有相同内容但不同运动的视频，以及具有不同内容和相同运动的视频

Introduction

问题提出：
深度生成模型最近受到越来越多的关注【1】，
这不仅是因为它们提供了一种无监督方式学习深度特征表示的方法，可以利用互联网上所有未标记的图像进行培训，同时也是因为它们可以用来生成各种视觉应用所需的新图像。

先提出图片生成的问题–深度生成网络的作用
转到视频生成问题——【为什么要研究这个问题】
深度模型取得了成果（中心词是深度生成模型很重要）

对于无标签图像的问题1.样本生成
2.算法分类

->随着图像生成技术的不断进步，视频生成问题的研究也显得尤为重要【2】。

问题分析：
然而，从生成图像到生成视频的扩展是一项极具挑战性的任务，尽管生成的数据只有一个维度-时间维度。
我们认为，由于以下原因，视频生成要困难得多。
1.生成模型除了学习对象的外观模型之外，还需要学习对象的合理的物理运动模型。
2，每种速度模式都会产生不同的视频。
3，由于人类已经进化到对运动敏感，运动伪影特别容易察觉。

近期工作的问题：
思想一：点表示 VGAN、TGAN
假设视频剪辑是潜在空间中的一个点，不必要地增加了问题的复杂性，
因为同一动作的视频以不同的执行速度在潜在空间中用不同的点来表示。
此外，这一假设迫使每个生成的视频剪辑具有相同的长度，而
真实世界视频剪辑的长度各不相同。
2 思想二：遍历表示

推翻前人的假设

另一种选择 (和可能更直观、更有效) 的方法一个潜在的图像空间，并考虑视频剪辑是通过遍历潜在空间中的点生成。不同长度的视频片段对应不同长度的潜空间轨迹。

将潜在空间分为内容和运动两个子空间
通过这个模型，不同执行速度的动作视频只会导致运动空间中轨迹的不同遍历速度。

分解运动和内容允许更有控制的视频生成过程。
在一个图像潜在空间(每个潜在代码表示一个图像)并。它通过采样内容子空间中的一个点并在运动子空间中采样不同的轨迹，生成同一对象执行不同运动的视频。通过对内容子空间中的不同点和运动子空间中相同的运动轨迹进行采样，生成不同对象执行相同运动的视频。

本文提出了一种用于视频生成的运动和内容分解生成对抗性网络(MoCoGAN)框架。
它通过依次生成视频帧来生成视频剪辑。在每个时间步骤，图像生成网络将随机向量映射到图像。该向量由两部分组成，其中第一部分从内容子空间取样，第二部分从运动子空间采样。

内容采样：由于短视频剪辑中的内容通常保持不变，我们使用高斯分布对内容空间进行建模，并使用相同的实现来生成视频剪辑中的每一帧。
运动采样：运动空间的采样是通过递归神经网络实现的，网络参数是在训练过程中学习到的。

尽管缺乏对自然视频中运动和内容分解的监督，但我们发现MoCoGAN可以通过一种新颖的对抗性训练方案来区分这两个因素。

通过广泛的定性和定量实验验证，并与现有的VGAN[41]和TGAN[31]等先进的方法进行比较，以及未来的帧预测方法，包括条件VGAN(C-VGAN)[41]和运动和内容网络(MCNET)[40]，验证了MoCoGAN的有效性。

Related Work

早期：生成动态纹理模式
时下：GANs VAEs PixelCnns

GAN在图像生成中的研究：

许多基于gan框架被提出：拉普拉斯金字塔、deep CNN、堆叠生成网络。
InfoGan:
Salimans等人提出了几个GAN训练技巧。
WGAN[3]和LSGAN[23]框架采用了另一种分布距离度量方法，用于更稳定的对抗性训练。
Roth等人提出了一种特殊的梯度惩罚来进一步稳定训练。
Karras等人使用逐步增长的鉴别器和生成器来生成高分辨率的图像。

【我们提出的框架】
MoCoGAN框架通过使用图像生成器按顺序生成图像来生成视频剪辑
该框架可以很容易地利用GAN框架中图像生成方面的进步来提高生成视频的质量.如第1节所述，[41,31]将GAN框架扩展到视频生成问题，假设视频剪辑的潜在空间中所有剪辑的长度相同。

RNN在图像生成中的研究：

使用循环机制迭代地细化生成的图像

【我们提出的框架】：我们使用循环机制来生成视频剪辑中视频帧的运动嵌入。

图像生成通过CNN实现

未来帧预测问题：

是不同于视频生成问题的。在未来帧预测中，目标是根据视频中观察到的帧来预测视频中的未来帧。
1.生成下一帧的原始像素值
2.重组生成转换前一帧的像素构造下一帧
前一帧的可用性使得未来帧预测成为一个条件图像生成问题，这与生成网络的输入仅是来自潜在空间的向量的视频生成问题不同。

重点来了
我们注意到，[40]使用卷积LSTM[15]编码器编码用于提取运动信息的连续前帧之间的时间差异，而卷积编码器用于从当前图像中提取内容信息。然后将运动和内容信息的串联输入解码器，以预测未来的帧数。

贡献

理论贡献+实践贡献

我们的贡献如下:
1.提出了一种用于视频无条件生成的GAN框架，将噪声向量映射到视频。
2.该框架为视频生成提供了一种控制视频内容和运动的方法，是现有视频生成框架所不具备的。
3.我们对基准数据集进行了大量的实验验证，并与目前最先进的视频生成算法(包括VGAN[41]和TGAN[31])进行了定量和主观比较，验证了算法的有效性。

2 GAN网络

GANs[12]由一个发生器和一个鉴频器组成。
该生成器的目标是生成与真实图像相似的图像，而鉴别器的目标是将真实图像与生成的图像区分开来

2.1 固定到特定长度的视频生成

VGAN框架
令vL = [x(1)，…， x(L)]]是一个有L帧的视频剪辑。
VGAN中的视频生成是通过基于时空cnn的视频发生器和鉴别器，来替换传统的基于cnn的图像生成器和鉴频器来实现的，
视频信号发生器将随机向量z映射为固定长度的视频剪辑,v˜L。视频鉴别器区分真正的视频剪辑和生成的视频
生成的是视频序列，采用视频生成器

TGAN框架
将随机向量映射到固定长度的剪辑。不同之处在于，
TGAN将
表示固定长度视频的随机向量
映射到
表示视频剪辑中各个帧的固定数量的随机向量
并使用图像生成器生成。
TGAN没有使用传统GAN框架，最小化简森-香农散度。TGAN训练以WGAN框架[3]为基础使距离最小。
每次映射一帧，使用图像生成器

Jensen-Shannon散度
earth move distance

3. Motion and Content Decomposed GAN

总述
在MoCoGan中，我们假设一个图像的潜在空间Z，Z中每一个点代表一张图像，一个K帧的视频就可以用潜在空间中的长度为K的路径表示。不同长度的路径可以生成不同长度的视频。此外，通过在潜空间中以不同的速度遍历相同的路径，可以生成以不同速度执行相同动作的视频。

我们进一步假设ZI被分解为内容ZC和运动ZM子空间
内容子空间对视频中运动无关的外观进行建模，而运动子空间对视频中运动相关的外观进行建模。

建模
我们用高斯分布对内容子空间建模，其中IdC为大小为dC×dC的单位矩阵。基于在短视频剪辑中内容基本保持不变的观察，我们使用相同的实现zC在视频剪辑中生成不同的帧

高斯分布

视频剪辑中的动作通过子空间Zm中的路径建模。
用下面的式子表示生成视频的向量序列

对k帧中每一帧都由zc和zm构成

由于并不是ZM中的所有路径都对应于物理上合理的运动，所以我们需要学习生成有效的路径。利用递归神经网络对路径生成过程进行建模

令RM为递归神经网络。在每个时间步,需要使用高斯分布作为输入向量样本，在ZM中输出向量,它用作运动表示。设RM(k)为k时刻递归神经网络的输出，则z(Mk) = RM(k)。
直观地说，递归神经网络的作用是映射一系列独立的、同分布的随机变量
ǫ(1),…ǫ(K)]到相关的随机变量序列(RM (1)……， RM(K)]来表示视频中的动态
在每个迭代中注入噪声，可以在每个时间步长模拟未来运动的不确定性。我们使用一个单层的GRU网络来实现RM

网络架构

MoCoGAN由4个子网络组成，RNN、图像生成器G、图像判别器、视频判别器
图像生成器通过将Zi中的向量顺序映射成图像
生成器与RNN

其中

和

是由RNN生成的。我们注意到每一轮视频生成的长度都是不同的
图片与视频判别器
DI和DV都扮演着裁判的角色，评价GI和RM。
图像鉴别器DI是专门针对个体图像对GI进行识别的。训练来确定一个框架是抽样从一个真正的视频剪辑,v, 或从˜v。
另一方面，DV根据生成的视频剪辑对评价GI。DV使用固定长度的视频,称为T帧,来确定视频采样来自一个真实的视频或˜v。
与基于普通CNN架构的DI不同，DV是基于时空CNN架构的。我们注意到剪辑长度T是一个超参数，在我们的整个实验中它被设置为16。我们还注意到，T可以小于生成的视频长度K。长度K的视频可以用滑动窗口的方式分成K - T + 1个片段，每个片段都可以输入DV。

视频鉴别器DV也会对生成的运动进行评估。由于GI没有运动的概念，对运动部分的批评直接指向了递归神经网络RM。为了生成一个具有真实动态的视频来愚弄DV, RM必须学会生成一系列运动代码[z(1) M，…,z(可)]从一系列i.i.d.噪声输入[ǫ(1)……ǫ(K)]的方式这样生成器G可以映射z (K)成连续帧的视频
理想情况下，DV本身就足以训练GI和RM，因为DV提供静态图像外观和视频动态方面的反馈。然而，我们发现使用DI显著提高了对抗性训练的收敛性这是因为DI培训更简单，因为它只需要关注静态外观

对于视频，内容向量Zc采样一次并固定。然后，一系列随机变量[ǫ(1),…ǫ(K)]通过递归神经网络RM采样和映射到一系列运动编码Zm[z (1) M,…， z(MK)]。
生成器G使用内容和运动向量产生一个框架,x˜(k)。DI和DV鉴别器在真的和假的图片和视频上训练,分别从训练集样本v 和生成样本v˜采样。函数S1从一个视频中采样一个帧，ST采样T个结果帧

学习

设pV为可变长度视频片段的分布。让κ离散随机变量表示从pV视频采样长度（在实践中,我们可以估计κ的分布,称为pK,通过从训练数据计算视频长度的直方图得到）生成一个视频,我们首先采样内容向量Zc和长度κ。然后我们运行Rm κ次,在每个时间步,RM随机变量ǫ作为输入。然后生成一个视频。

回想一下，我们的DI和DV分别以视频中的一帧和连续的T帧作为输入。为了代表这些采样机制,我们介绍两个随机函数。S1和St。S1输入一个视频帧(来自v∼pV或v˜∼pV˜)并输出视频剪辑中的随机帧,而St需要视频剪辑并随机返回视频剪辑中的T连续帧。

第一和第二项使DI在真实视频帧输出1，生成视频帧输出0，同样,第三和第四条鼓励DV真实视频剪辑输出1，生成视频剪辑输出0
第二项和第四项鼓励图像生成器和递归神经网络生成逼真的图像和视频序列
连续的t帧，这样就没有识别器能把它们与真实的图像和视频区分开来.

我们使用交替梯度更新算法训练MoCoGAN，就像在[11]中一样。具体来说，在一个步骤中，我们更新DI和DV，同时固定GI和RM。在交替的步骤中，我们更新GI和RM，同时固定DI和DV。

Categorical Dynamics

视频中的动态通常是分类的(例如，离散的动作类别:步行、跑步、跳跃等)。为了对这个分类信号建模，我们用一个分类随机变量zA增加RM的输入，其中每个实现都是一个热向量。我们保持固定的实现，因为在一个简短的视频动作类别保持不变。
为了将zA与真正的动作范畴相联系，我们采用了InfoGAN学习[5]并扩充了目标函数

其中Li是视频剪辑和ZA之间的互信息下界，λ是超参数，辅助分布Q(近似动作类别变量条件作用于视频剪辑上的分布)是通过在DV的最后一个特性层中添加一个softmax层来实现的
我们注意到，当标记的训练数据可用时，我们可以训练Q输出实际输入视频剪辑的类别标签，以进一步提高性能。

4. Experiment

ACD Inception 用户偏好 与VGAN[41]和TGAN[31]进行比较外
评估了MoCoGAN的能力，1)使用固定的内容向量和变化的运动轨迹生成同一物体做不同运动的视频，2)使用不同的内容向量和相同的运动轨迹生成不同物体做相同运动的视频。
将MoCoGAN框架的一个变体与VGAN和MCNET[40]进行了比较:用户偏好、视频质量

shape motion形状运动。数据集包含两种不同大小和颜色的形状(圆形和正方形)，执行两种类型的运动:一种从左到右移动，另一种从上到下移动。运动轨迹由贝塞尔曲线采样。数据集中有4000个视频;图像分辨率为64×64，视频长度为16。
Facial expression面部表情。我们使用了面部表情
本实验数据库为[1]。数据集由86名受试者组成。每个视频由50到160帧组成。
我们裁剪面部区域，并缩放到96×96。我们丢弃了少于64帧的视频，只使用了代表6种面部表情之一的序列:愤怒、恐惧、厌恶、快乐、悲伤和惊讶。我们总共训练了1254个视频。
TaiChi太极。我们下载了4500个太极视频剪辑
YouTube。对于每个剪辑，我们应用一个人体姿态估计器[4]并裁剪剪辑，使表演者位于中心。视频被缩放到64×64像素
human action我们使用了Weizmann Action数据库[13]，其中包含81段9个人表演的视频动作，包括跳起和挥手。我们把视频缩放到96×96。由于体积小，我们没有使用数据集进行定量评估。相反，我们在图1中提供了可视化结果
UCF101UCF101 [33]。该数据库通常用于视频动作识别。它包含了13220个视频，包含101个不同的动作类别。类似于TGAN的工作
在[31]中，我们将每帧缩放到85×64，裁剪出中心64×64区域进行学习

实现。有关网络设计的详情载于补充资料。我们使用ADAM[19]进行训练，学习率为0.0002，动量分别为0.5和0.999

4.1. Video Generation Performance 视频生成性能

定量比较
实验一
比较方法：MoCoGAN VGAN TGAN
比较内容：视频生成的性能
数据集：形状运动shape motion 面部表情facial expression
评价指标：平均内容距离(ACD)：较小的ACD意味着在视频中生成的帧在感知上更相似。我们还计算了训练集的ACD，作为参考
数据处理：对于每个数据集，我们训练一个视频生成模型，生成256个视频进行评估。
VGAN和TGAN实现只能生成固定长度的视频(对应32帧和16帧)。为了公平的比较，我们使用MoCoGAN生成了16帧，并从VGAN生成的视频中每秒钟选择一帧，这样每个视频总共有16帧

对于形状运动，我们首先计算生成的形状在每个帧中的平均颜色。每一帧都由一个三维向量表示。然后，ACD由每帧平均颜色向量的平均成对L2距离给出。
对于人脸表情视频，我们使用OpenFace[2]来测量视频内容的一致性。OpenFace[2]在人脸识别任务中表现优于人类。OpenFace为人脸视频中的每一帧生成一个特征向量。然后利用每帧特征向量的平均L2对距离计算ACD。
实验结果：

实验二
比较方法：MoCoGAN VGAN TGAN
比较内容：视频生成的性能
数据集：UCF101数据集
指标：Inception分数（Saito等人使用的）
结果

通过对UCF101数据库的训练，计算Saito等人的inception分数，并与TGAN和VGAN进行比较。在这个实验中，我们使用了与所有其他实验相同的MoCoGAN模型。我们注意到,通过WGAN训练和奇异值裁剪(SVC)， TGAN达到了11.85的inception分数，而没有这些技巧的MoCoGAN达到了更高的inception分数12.42
实验三用户研究
比较方法：MoCoGAN VGAN TGAN
比较内容：视频生成的性能
数据集：太极Taichi 面部表情facial expression
评价指标：用户平均偏好得分
数据处理：对于每个算法，我们使用训练后的模型为每个任务随机生成80个视频。然后，我们将MoCoGAN生成的视频与竞争算法中的视频随机配对，形成80个问题。这些问题被发送给亚马逊土耳其机械工人(AMT)进行评估。不同算法的视频以随机顺序显示，以便公平比较。每个问题都由三个不同的工人回答。
结果：

我们报告平均偏好得分(工人偏好算法的平均次数)从表格中我们发现，大多数时候工作人员认为MoCoGAN制作的视频更加真实。与VGAN相比，MoCoGAN对面部表情和太极数据集的偏好得分分别为84.2%和75.4%。与TGAN相比，MoCoGAN对面部表情和太极数据集的偏好得分分别为54.7%和68.0%

定性评估
实验四
比较方法：MoCoGAN
比较内容：运动和内容分解
数据集：内容x2 动作x7
结果

我们做了一个定性的实验来演示我们的运动和内容分解表示。我们采样了两个内容代码和七个动作代码，得到了14个视频。每两行共享相同的运动代码，而具有不同的内容代码。我们观察到MoCoGAN为两个不同的内容样本生成了相同的运动序列。

4.2. Categorical Video Generation 分类视频生成

实验五
比较方法：MoCoGAN
比较内容：MoCoGAN不同变体下分类视频生成性能
数据集：MUG 数据集：包含6种不同的面部表情
评价指标：ACD 运动控制分数(MCS)
数据处理：zA被实现为一个6维的一维热向量。然后我们生成96帧面部表情视频。在生成过程中，我们每16帧更改一个动作类别zA，以覆盖所有6个表达式。因此，一个生成的视频对应一个人执行6种不同的面部表情，一个接一个。

我们计算了生成视频的ACD。较小的ACD意味着96帧图像中生成的人脸更有可能来自同一个人。注意，本小节中报告的ACD一般大于表1中报告的ACD，因为本实验生成的视频比表1长6倍，包含6个面部表情。

我们也使用运动控制分数(MCS)来评估MoCoGAN在运动生成控制方面的能力。来计算MCS,首先，我们训练了一个时空CNN分类器，利用标记的训练数据集进行动作识别。在测试期间，我们使用分类器来验证生成的视频是否包含动作。通过对分类器精度的测试，给出了MCS。拥有较大MCS的模型可以更好地控制动作类别。

在本实验中，我们还评估了不同条件设置方案对分类视频生成性能的影响。第一个方案是我们的默认方案，其中zA→RM。第二种方案称为zA→GI，将类别变量直接提供给图像生成器。此外，为了显示图像识别网络DI的影响，我们考虑在没有DI的情况下训练MoCoGAN框架。
结果：
表4为实验结果。我们发现，使用DI训练的模型在各种指标上始终能够产生更好的性能。我们还发现zA→RM具有更好的性能。图6为表4中最佳模型的两个视频。我们观察到，通过固定内容向量但改变表达式标签，它生成了同一个人执行不同表达式的视频。同样地，通过改变内容向量并提供相同的运动轨迹，我们可以生成视频不同的人表现出相同的表达顺序。
实验六
比较方法：MoCoGAN
比较内容：Zc Zm取不同维度下的分类视频生成性能
数据集：未指明
评价指标：ACD 运动控制分数(MCS)
数据处理：
在实验中，我们把尺寸的和固定为60。将dC值由10改到50，步长为10

这意味着MoCoGAN生成的视频就像同一个人在表演不同的表情，我们原以为更大的zM会导致更大的MCS，但结果恰恰相反。检查生成的视频，我们发现当dM较大(即dC较小)时，MoCoGAN无法生成可识别的人脸，导致MCS较差。在这种情况下，由于图像质量较差，人脸表情识别网络只能对表情进行随机猜测，得分较低。在此基础上，我们在所有的实验中设置dC = 50, dM = 10

Image-to-video Translation 图片-视频翻译

实验七
比较方法：MoCoGAN (C-VGAN) (MCNET)
比较内容：Zc Zm取不同维度下的分类视频生成性能
数据集：taichi数据集
评价指标：ACD 运动控制分数(MCS)
数据处理：
我们训练了MoCoGAN框架的一个变体，在这个变体中，生成器被实现为一个编解码器架构[21]，其中编码器生成内容代码zC和初始运动代码z(0) m。后续的运动代码由RM生成，并与内容代码连接生成每一帧。输入是图像，输出是视频。在测试时间，我们从一个保留的测试集中随机抽取图像来生成视频序列。除了(6)中的损失外，我们还增加了L1重构损失，用于训练类似于Liu等人[21]的encoderdecoder架构。在此设置下，MoCoGAN从第一帧开始生成一个视频序列。我们进行了一项用户研究，将我们的方法与两种最先进的方法进行了比较
Conditional-VGAN (C-VGAN)和运动内容网络(MCNET)[40]。我们注意到MCNET使用4帧来预测一个视频，而C-VGAN和MoCoGAN只需要一个帧。

结果如表5所示，表明我们的方法生成的视频是用户喜欢的视频的两倍。从图8可以看出，我们的方法生成的视频在时间上比MCNET生成的视频更加一致。

5. Conclusion

提出了运动和内容分解视频生成的MoCoGAN框架。在有足够的视频训练数据的情况下，MoCoGAN自动学习以无监督的方式从内容中分离运动。例如，给定人们表演不同面部表情的视频，MoCoGAN学会将一个人的身份从他们的表情中分离出来，从而使我们能够合成一个人表演不同表情的新视频，或者固定表情并生成不同的身份。
这是由一个新的生成对抗性网络所实现的，它通过连续生成视频帧来生成视频剪辑。每个视频帧由一个随机向量生成，随机向量由表示内容和表示运动两部分组成。内容子空间采用高斯分布建模，运动子空间采用递归神经网络建模。为了合成每个视频帧，我们对这个空间进行采样。我们的实验评估表明，该框架优于目前最先进的视频生成和下一帧预测方法。

论文阅读（二）：Decomposing Motion and Content for Video Generation相关推荐

【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding
[论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...
ICLR2022 GNN论文阅读 (二) 泛读 (1-2)
欢迎关注WX公众号,每周发布论文解析:PaperShare, 点我关注论文列表目前找了录用的一些有关于Graph或者GNN的文章,先过一遍各个文章的摘要,然后再花时间对觉得比较重要或者有趣的文章进 ...
论文阅读 (二十一)：Exploratory Machine Learning with Unknown Unknowns (2021AAAI EXML)
文章目录引入 1 小故事一个 2 ExML:另辟蹊径 2.1 探索性机器学习 2.2 一些基础理论 3 开干开干 3.1 拒绝模型 3.2 特征发掘引入传统机器学习就不逼逼了.想象这样一个问 ...
论文阅读 | Asymmetric Bilateral Motion Estimation for Video Frame Interpolation
前言:ABME发表在ICCV2021,也是一篇基于光流做插帧的文章论文地址:[here] 代码:[here] Asymmetric Bilateral Motion Estimation for V ...
论文阅读 | BMBC:Bilateral Motion Estimation with Bilateral Cost Volume for Video Interpolation
前言:ECCV2020一篇做插帧的文章,看到很多后来的文章(timelens,flavr)在新的数据集上测效果还可以,来拜读一下 ps:论文里真的用了好多"yield",好不习惯- ...
BERT论文阅读(二): CG-BERT:Conditional Text Generation with BERT for Generalized Few-shot Intent Detection
目录 The proposed method Input Representation The Encoder The Decoder fine-tuning discriminate a joint ...
论文阅读 (二十三)：Attention-based Deep Multiple Instance Learning (2018)
文章目录 1 Methodology 1.1 MIL 1.1.1 符号系统 1.1.2 实例与包的联系 1.1.3 MIL方法 1.2 MINN 1.3 MIL池化 1.4 注意力机制池化 1.4.1 ...
【VideoQA最新论文阅读】第一篇视频问答综述Video Question Answering: a Survey of Models and Datasets
Video Question Answering: a Survey of Models and Datasets 长文预警!!! p.s.此篇文章于2021年1月25日新鲜出炉,在Springer需 ...
论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection（深度鉴伪）
一.论文信息论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection 论文代码:https:/ ...

论文阅读（二）：Decomposing Motion and Content for Video Generation