Deepfakes论文总结

Deepfakes论文总结（更新中）

目前的deepfake检测，从检测层级上讲有两类：

一类工作认为，深度伪造检测，应该检测伪造过程中底层的artifact，比如本文中的[5,6,7,8]。这类文章通常非常善于设计网络架构、设计数据增强方式，设计loss等等，泛化性较差。

另一类工作认为，深度伪造检测，应该关注伪造过程中难以复制的高层语义信息。比如本文中的[1,2,3,4,10]。这类文章通常不太在意底层网络架构（即使他们会使用各种各样的特征抽取器），而更关注网络抽取出的时序语义（目前还无工作基于图片语义），泛化性较好。

从实现方法上讲，基于个体的检测（identity-based）和有监督学习（supervised）两类：

基于个体的方法通常是将视频映射到能够识别个体的特征空间，然后根据新样本和已有实例之间的距离做出决策。这类检测需要真实个体视频的参考集合(reference set)。

监督学习方法把检测作为一个真假分类问题。

从模态角度看，除了传统的视频和音频外，随着带有伪造音频的数据集的出现，多模态的检测也成为最新热点。

Identity-based

[1] ProtectingWorld Leaders Against Deep Fakes【CVPR 2019】

190维特征可以被较好地聚类

标签：视频级别检测；SVM

先抽取人脸的运动单元，然后用运动单元之间的190维相关系数表示一段视频的特征，作者用TSNE做了可视化，发现不同人的特征可以被很好地分开。随后，作者用SVM在多种方法伪造的数据集上训练模型，取得了较好的效果。

[2] Detecting Deep-Fake Videos from Appearance and Behavior【IEEE-WIFS 2020】

网络架构，由一个人脸识别网络和一个行为网络并联而成

标签：视频级别检测；度量学习

先由Facial Attributes-Net抽取行为特征（基于帧的面部运动和表情，身份不可知），然后用行为特征预测Identity，从而得到一个行为网络的隐空间；另外单独由人脸识别模型（VGG）得到另一个隐空间；最后通过新样本在隐空间中与真实样本集的距离判断真伪。

1）面部和行为身份相同并且面部相似度高于指定阈值时为真；2）如果面部和行为的身份不同或面部相似度小于阈值则为假。

[3] ID-Reveal: Identity-aware DeepFake Video Detection【ICCV 2021】

ID-Reveal

标签：视频级别检测；度量学习

该网络主要由三个结构组成：（1）特征提取；（2）时序ID网络；（3）3DMM生成网络。

1）特征提取：输入的是视频，对视频中的每一帧提取出面部特征。然后通过一个3D形态模型来将每个脸映射成一个低维表示（也就是图中显示的人脸形态图）。该表示中包含了关于脸部形状，表情，外貌等信息。下一步是从该低维表示中取回人脸的这些信息参数，将这些信息再次映射成一个62个参数的向量。

时序ID网络：该网络的作用是比较输入的特征之间的相似度，同时也作为一个判别器来与接下来介绍的3DMM生成网络进行对抗学习。流程是：将传入该部分的两个特征向量进行特征映射然后来比较两者之间的相似度，将该相似度与标签对比，如果判定错误则更新3DMM生成网络的参数来使得其生成更能分辨真假之间关键信息的特征。

3DMM生成网络：该网络的作用是生成类似于经过deepfake篡改过的视频，如图上所示：将身份A的面部五官等放到身份B的面部背景上面，也就是与个人视觉身份一致但生物特征不一致的信息。一般被使用两次，将个体i变为身份c并将变为3DMM特征，之后将生成的3DMM特征再重新变换为i，生成器旨在增加相似性，而时序ID网络训练阻碍发生器，对抗训练的最终目标是提高时序ID网络区分真实身份与虚假身份的能力。

[4] Audio-Visual Person-of-Interest DeepFake Detection【arxiv】

Supervised Learning

[5] Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection【CVPR 2021】

网络架构

FDFL

标签：图像级别分类；loss设计

输入图像首先经过AFFGM和RGB分支分别提取频域和RGB域特征；
在融合模块中将两种特征进行融合；
融合后的特征经过进一步特征提取之后，得到一维的特征矢量；
框架的最后是一个分类器，输出输入样本的预测结果。整个网络在softmax loss和本文提出的SCL的联合监督下进行端到端训练，网络学习一个嵌入空间，其中自然人脸聚集在中心点周围，而被操纵的人脸远离中心点。
利用局部的离散余弦变换（DCT)，提取频域特征；融合了度量学习使用单中心损失，保证真实人脸类内的紧密，避免伪造图片分布的多样性影响训练。

[6] Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features【CVPR 2021】

LR-Net

标签：视频级别分类；光流

作者提出的LRNet由四个部分组成：人脸预处理模块、校准模块、特征嵌入过程和RNN分类过程。它通过检测异常的面部运动模式和时间不连续性来暴露被操纵的面部。并且整个框架只需要训练RNNs部分。
先抽取人脸关键点，针对现有方法抽取人脸关键点精确率不高的问题，提出校准模块，利用光流预测下一帧的关键点位置后，和下一帧抽取的关键点用Kalman filter做融合，最后把校准后的关键点位置和速度输入到RNN中进行预测。

[7] Towards Solving the DeepFake Problem: An Analysis on Improving DeepFake Detection using Dynamic Face Augmentation【ICCV 2021】

流行数据集的统计量

标签：数据增强

文章认为，目前的Deepfake数据集是过采样的，在DFDC数据集中，一张脸在182个视频中出现，这会导致模型过拟合；提出了一种Face-Cutout的数据增强方法，先找到68个人脸关键点，然后尽可能地移除和真实图片差别较小的部分，这个差别是由真实和虚假图片局部的SSIM预先衡量好的。

[8] Multi-attentional Deepfake Detection【CVPR 2021】

网络架构

Multi-attentional Deepfake Detection

标签：图像级别分类

多个空间注意力头，使网络关注不同的局部区域，并从多个人脸注意区域中获取局部区别特征；

纹理增强块，放大浅层特征中的细微伪影；

在注意力图的指导下，聚合低层纹理特征和高层语义特征。

为了解决网络的学习困难，进一步引入了一个新的区域独立性损失和一个注意力引导的数据增强策略，以对抗学习的方式辅助网络训练。

用纹理增强浅层特征，用较深层特征去生成注意力图，把注意力图双线性插值后和纹理特征做逐点相乘；
为了避免不同的特征图聚焦到相同的区域，使用Regional Independence Loss（区域独立性损失），让特征图之间的距离尽可能远，同一个通道对不同图片生成的注意力图尽可能接近；
另外加入了Attention Guided Data Augmentations，即先随机选取一个注意力图，然后对原图的对应区域做高斯模糊，进一步解耦不同的attention maps。

[9] Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection【CVPR 2021】

finetune阶段的网络架构

标签：视频级别分类；预训练

唇部的高层时序语义特征是现有方法难以伪造的；作者先在唇读任务上预训练一个逐帧的ResNet-18特征抽取网络和一个时序网络，然后固定逐帧网络（防止过拟合到artifact上），只训练时序网络（此时输入图片被裁剪到唇部周围），从而抽取能够决定真假的唇部特征。实验证明该方法跨数据集和跨伪造方法泛化性较好。

[10] Protecting Celebrities with Identity Consistency Transformer【CVPR 2022】

网络结构