* Exploring Temporal Coherence for More General Video Face Forgery Detection

题目：探索更一般的视频人脸伪造检测的时间相干性

1.概述

时间相干性网络组成：

第一阶段是一个全时间卷积网络（FTCN）。FTCN的关键见解是将空间卷积核大小减少到1，同时保持时间卷积核的大小不变。有助于模型提取时间特征，并提高泛化能力。

第二阶段是时间变换网络，旨在探索长期时间相干性。
时间相干性：
- 伪影类型：空间相关+时间相关

2.贡献

全时间卷积网络（FTCN）+时间变换器(Temporal Transformer)：利用时间相干性检测。
探测器：定位和可视化伪造人脸的时间非相干部分。
模型泛化能力优越，可用于不可见的伪造。

3.网络总述

问题：如何利用空间+时间的卷积网络来学习时间的不相干性。
网络限制：保持所有时间相关卷积核大小为原始值，将所有空间相关卷积内核大小设置为1*1。

限制的作用：可以鼓励网络学习时间不相干。

证明：ResNet-50（R50）作为主干，并比较了三种类型的分类器：
证明了1*1的卷积更能使时间网络通过更一般的时间不相干学习分类。
网络总述：

全时间卷积网络+时间变压器。

这两个部分经过端到端的训练，用于视频人脸伪造检测。

总的来说，给定一个可疑视频V，

第一阶段：全时间卷积网络（FTCN）。处理局部时间闪烁和不一致性，并提取时间特征F=FTCN（V）。

第二阶段：时间变换器。旨在进一步建模时间特征（F）的每个时间片段之间的长期不相干。

即一个局部特征提取，一个全局对比。

最后，使用MLP头进行最终预测。

3.Fully Temporal Convolution Network

现有问题：时空耦合核会削弱模型捕捉纯时间信息的能力，所以同时处理时空伪影不太可能。
FTCN主要思想：限制网络处理空间信息的能力，提高处理时间信息的能力。
网络架构：

网络分析：
根据上述实验得出结论，卷积核为1更加适合学习时间的不相干。
但 因为一些卷积层可能涉及大于1的步长，所以用3DConv（Kt，1,1,1,1）替换1*1的卷积核。
如果Sh或Sw>1，则在卷积运算符后添加max-pooling(最大值池化操作 作用：增大感受野)
*注：3DConv（Kt，Kh，Kw，St，Sh，Sw）其中Kt，Kh，Kw是时间、高度、宽度维度中的核大小，St、Sh、Sw是时间、高度、宽度维度中的步幅。

最终获得：时间特征

F\in R^{C*N*H*W}

 (C=2048,N=16, H=1, W =1)
F:时间特征。
R：局部视频
C：输入的特征维度。
N：输入的序列长度。
H：高度。
W：宽度。

4.Temporal Transformer

作用：学习时间维度上的长期差异。
网络架构：

1.按时间分割FTCN提取的特征： F\in R^{C*N*H*W}； 2.用时间特征的线性投影（W），将映射尺寸从原特征维数（C）映射到新的特征维度（D）；

3.将数据输入Temporal Transformer

输入序列：

F_{class}:可学习的嵌入（可嵌入的有效位置）。作用是使临时变压器启动分类。

E_{pos}:嵌入的位置。

F_t:第t个时间片段的特征。

4.Temporal Transformer组成：

LN+MSA+LN+MLP+GELU

* MSA: a multi-head self-attention(MSA) block .attention:注意力机制，根据需求观察注意特定的一部分。self-attention:优点计算复杂度小+可大量并行计算+可更好学习远距离依赖。multi-head self-attention:可让模型从不同角度理解输入的序列。因此同时几个Attention的组合效果可能会优于单个Attenion.

* MLP:多层感知机(Multi-Layer Perception)感知机：把训练集分为正反两个部分，并且能够对未来输入的数据进行分类。

* GELU:激活函数。GELU为非单调激活函数,有助于保持小的负值,从而稳定网络梯度流;GELU的最小值为-0.21，值域为[ − 0.21 , + ∞ ] 上界是任何激活函数都需要的特征,因为这样可以避免导致训练速度急剧下降的梯度饱和,因此加快训练过程。无下界有助于实现强正则化效果;梯度不容易造成梯度爆炸和梯度消失。光滑性:光滑的激活函数有较好的泛化能力和稳定的优化能力,可以提高模型的性能。
* LN:LayerNorm.channel方向做归一化，算CHW的均值，主要对RNN作用明显。

第 l 层特征定义为：

先用MSA着重观察某一部分获取特征，再用MLP进行特征打分（真假概率）。

最终的假概率：

5.实验

训练数据集：FaceForensics++(FF++)

假视频制作方法：Face2Face(F2F), FaceSwap(FS), NeuralTex-ture(NT), and Deepfake(DF).
测试数据集：FF++ ; FaceShifter；DeeperForensics；DeepFake De-tection Challenge Preview dataset(DFDC);Celeb-DF-v2(CDF).
评估指标：AUC。
实验设置：self-attention heads, hidden size, and MLP size are set to 12,1024, 2048。

batch size of 32 ，

SGD optimizer with momentum。

the weight decay is set as 1e-4.
实验过程： the learning rate first increases from 0.01 to 0.1 in the first 10 epochs ，

and then cosinely decayed to 0 for the last 90 epochs.

（在前10个时间段内，学习率首先从0.01增加到0.1，然后在最后90个时间段以余弦方式衰减到0。）

6.结果

table2：在不同方法生成的假脸上对比。

table3：和最先进的检测方法对比。

#params:参数数量，越小性能越好，处理越快。

结论：泛化好+最少的参数实现了最高的性能+没有任何预训练或外部训练数据。

验证robustness

考虑四种常见的扰动：1）块态畸变；2）颜色饱和度的变化；3）高斯模糊；4）调整大小：按系数对图像进行降采样，然后将其升采样到原始分辨率。

并将每个扰动分为五个强度级别。扰动在不同数据集上的平均结果如下：

结论：robustness好。

7.综合分析和改善

无法同时兼顾时空

【论文笔记】Exploring Temporal Coherence for More General Video Face Forgery Detection相关推荐

行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Temporal ...
论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner
论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner 1. 文章简介 2. 文章背景 3. 文 ...
论文笔记 |【CVPR2021】Uformer: A General U-Shaped Transformer for Image Restoration
论文笔记 |[CVPR2021]Uformer: A General U-Shaped Transformer for Image Restoration 文章目录论文笔记 |[CVPR2021]U ...
论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
论文笔记-F3Net：Fusion, Feedback and Focus for Salient Object Detection
论文笔记之2020-AAAI-F3Net-F3Net:Fusion, Feedback and Focus for Salient Object Detection 论文地址:https://arxi ...
论文阅读 TSM: Temporal Shift Module for Efficient Video Understanding
TSM: Temporal Shift Module for Efficient Video Understanding Computer Vision and Pattern Recognition ...
【论文笔记】ObjectBox: From Centers to Boxes for Anchor-Free Object Detection
论文论文题目:ObjectBox: From Centers to Boxes for Anchor-Free Object Detection 收录于:ECCV2022 论文地址:https:// ...
【论文笔记】Multi-modal Knowledge-aware Event Memory Network forSocial Media Rumor Detection
论文标题:Multi-modal Knowledge-aware Event Memory Network forSocial Media Rumor Detection 论文链接:https://s ...
论文笔记Multi-Scale Temporal Cues Learning for Video Person Re-Identification
Multi-Scale Temporal Cues Learning for Video Person Re-Identification 用于视频行人重识别的多尺度时间线索学习 1.摘要摘要中提到 ...

【论文笔记】Exploring Temporal Coherence for More General Video Face Forgery Detection