• 核心方法
    • Efficient Vit
    • Convolutional Cross ViT
  • 实验结果
    • 实验设置
    • 训练
    • 推理
    • 实验结果
      • DFDC数据测试集上的实验结果
      • 在FF++子集上的泛化性能
  • 总结

核心方法

提出有两个Convolutional-Transformer混合结构的模型。

  • Efficient ViT
  • Convolutional Cross ViT

在时间上和跨多个人脸上 聚合推断出 视频片段的真伪


Efficient Vit

由两个模块组成

  • 卷积模块 — 特征提取器:EfficientNet B0

    • 为输入的 7×77\times 77×7 图像块提取视觉特征,以嵌入重要的低级和局部信息
    • 微调,提取更合适的特征
  • Transformer编码器

Convolutional Cross ViT

DeepFake生成的伪影可能在全局或局部出现,仅使用EfficentNet针对小图像块不够理想。

两个分支处理不同的图像块:

  • S分支 处理小图像块 7×77\times 77×7
  • L分支 处理大图像块 64×6464\times 6464×64,大感受野

使用交叉注意力组合两个分支的输出,直接交互。

最终将两个分支的输出相加,得到模型预测输出


实验结果

实验设置

多种假脸生成方法:

  • DeepFakes
  • Face2Face
  • FaceShifter
  • FaceSwap
  • NeuralTextures

两个流行的数据集:

  • FaceForensics++
  • DFDC

比较多个SOTA方法: