DEEPFAKE VIDEO DETECTION USING 3D-ATTENTIONAL INCEPTION

论文简读《DEEPFAKE VIDEO DETECTION USING 3D-ATTENTIONAL INCEPTION
CONVOLUTIONAL NEURAL NETWORK》

发表在CCF C 类会议 2021 IEEE International Conference on Image Processing (ICIP)

使用3D注意力的Inception卷积神经网络的deepfake视频检测

主要贡献：

1.提出了一种基于三维卷积网络的deepfake检测框架，该框架可以充分利用从虚假视频中提取的时间信息，提高检测能力。

2.我们创造性地将注意力模块应用到3D卷积网络中。此外,为了进一步提高模型的检测性能，引入了增强方法。

3.大量的实验表明，我们的方法优于大多数现有的检测方法，在数据集内和跨数据集上都达到了最先进的检测性能。

一、数据预处理

现有的方法大多是提取二维人脸，并利用人脸对齐将所有提取的人脸对齐到特定的一个或特定的位置。这个操作改变了每一帧中人脸的相对位置，这是对时间信息的破坏。为了保留原始视频的时间信息，我们使用一个固定的边界框对视频的每一帧进行不对齐的剪辑。

使用MTCNN不同大小的边界框来捕获脸区域，选择使用最小的且能覆盖整个脸的边界框。然后，我们用选定的边界框裁剪每一帧的面部区域，并通过填充零将它们调整为正方形形状后，将它们重塑为256*256的大小。裁剪好的帧将被重新组合成新的视频剪辑，每个视频剪辑包含大约100帧。这样可以保证我们的模型更多地关注人脸区域而不是无意义的背景，并且不会破坏虚假视频的时间信息。

这步我认为是很合理的，我在做的时候也是有这种疑问。

二、3D-注意力网络

采用I3D为骨架网络，是因为在时间-空间学习上有最好的表现。为了帮助网络更好地关注输入视频中有意义的部分，在每个Iception模块之后添加了一个注意模块。

三、注意力模块

借鉴的是CBAM，但这是个4维的操作，比CBAM多了一个维度。如下图，左边是时空注意力模块，右边是通道注意力模块，下面分别从这两个模块进行分析。

1.时空注意力模块

输入为：
C、T、H和W分别表示通道、时间、宽度和高度。

首先沿着通道轴应用平均和最大池化操作，并将它们连接到特征描述符Fst：

接着是一次3D卷积（5x5x5卷积核）和sigmoid函数.两次操作数学表达如下：

最后再与原输入进行对应元素相乘：

2.通道注意力模块

首先使用平均和最大池操作来压缩特征特征图的时间和空间维度：

下一步是两个1x1x1卷积层，M1和M2,M1卷积之后relu激活，M2卷积之后，把结果相加，在经过sigmoid函数：

为了减少参数数量，M1卷积后通道数量变为原来的1/8，M2卷积后通道数保持不变。sigmoid之后Ach的每个值在0~1之间，代表着每个通道的重要性。

最后将原输入特征Finput与通道注意特征图Ach相乘：

四、实验部分

在被裁剪的视频中，随机选择连续的64帧，每个帧裁剪成224*224大小作为输入。

I3D在Charades数据集上被预训练好，注意力模块随机初始化，用adma优化器，初始学习率0.001.

首先在FF++上进行了一组实验来证明时间信息的重要性，对输入的视频剪辑进行各种修改以破坏时间信息，包括帧顺序变换和数据增强。对视频的每一帧进行增强，实现视频级的数据增强。随机增加每一帧，包括添加高斯噪声、裁剪和翻转等。我们采用两种视频级数据增强策略，一种是对所有帧的增强方法统一，另一种是对每帧的增强方法随机选取。结果如下表：

从结果中，我们可以观察到与直接在原始视频上训练的模型相比，I3D shuffle和I3D randAug有明显的下降。而I3D unifAug性能更好。这验证了视频时间信息对深度假检测模型的关键作用。统一的数据增强可以增加训练数据的多样性，进一步提高基线模型的性能。

最后是对比实验结果，下表出了该模型与几种最先进的方法的性能比较。前六列是数据集内评估的结果，模型在同一数据集的训练集上训练，在同一数据集的测试集上测试。最后一列的结果表明了不同模型的泛化能力，其中模型在FF++(c23)上训练，在Celeb-DF上测试。

DEEPFAKE VIDEO DETECTION USING 3D-ATTENTIONAL INCEPTION相关推荐

Moving Face Spoofing Detection via 3D Projective Invariants
Moving Face Spoofing Detection via 3D Projective Invariants 标签: 论文 spoofing 论文出处:978-1-4673-0397-2/1 ...
2019-ICCV-台湾大学-Free-form Video Inpainting with 3D Gated Convolution and Temporal PatchGAN
高清还原破损视频 BMVC 2019 每个被破损的视频,经过AI还原之后,仿佛从来没有被破坏过一样,完整清晰. 可学习的门控时移模块,Learnable Gated Temporal Shift M ...
3D-VID:基于LiDar Video信息的3D目标检测框架|CVPR20
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 Brief paper地址:https://arxiv.org/pdf/2004.01389.pdf ...
Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
下图Vote3Deep在KITTI上不可见点云的检测效果. 本文方法:在原生的3D特征(native 3D representation)上执行一个稀疏卷积,接着是一个ReLU非线性,它返回一个新的稀 ...
深度伪造检测论文 · Combining EfficientNet and Vision Transformers for Video Deepfake Detection
核心方法 Efficient Vit Convolutional Cross ViT 实验结果实验设置训练推理实验结果 DFDC数据测试集上的实验结果在FF++子集上的泛化性能总结核心方 ...
【学习】Deep Learning for Deepfakes Creation and Detection
论文题目:Deep Learning for Deepfakes Creation and Detection 翻译:基于深度学习的Deepfake创建与检测作者: Thanh Thi Nguyen ...
AI中Deepfake的部分研究前沿与文献综述
AI中Deepfake的部分研究前沿与文献综述一.研究现状二.典型算法: 三.存在问题四.未来的研究热点参考文献: 一.研究现状由于Deepfake其潜在的安全威胁,它已经引起了学术界和工业 ...
论文阅读：Exposing DeepFake Videos By Detecting FaceWarping Artifacts
论文阅读:Exposing DeepFake Videos By Detecting FaceWarping Artifacts 现在对于论文阅读还是比较头疼,很多翻译都很奇怪,还是要提高英语能力啊, ...
ECCV2022论文列表（中英对照）
Paper ID Paper Title 论文标题 8 Learning Uncoupled-Modulation CVAE for 3D Action-Conditioned Human Motio ...

DEEPFAKE VIDEO DETECTION USING 3D-ATTENTIONAL INCEPTION

DEEPFAKE VIDEO DETECTION USING 3D-ATTENTIONAL INCEPTION相关推荐

最新文章

热门文章