【论文笔记】Exploring Temporal Coherence for More General Video Face Forgery Detection
* Exploring Temporal Coherence for More General Video Face Forgery Detection
题目:探索更一般的视频人脸伪造检测的时间相干性
1.概述
时间相干性网络组成:
第一阶段是一个全时间卷积网络(FTCN)。FTCN的关键见解是 将空间卷积核大小减少到1,同时保持时间卷积核的大小不变。有助于模型提取时间特征,并提高泛化能力。
第二阶段是时间变换网络,旨在探索长期时间相干性。
时间相干性:
-
伪影类型:空间相关+时间相关
2.贡献
全时间卷积网络(FTCN)+时间变换器(Temporal Transformer):利用时间相干性检测。
探测器:定位和可视化伪造人脸的时间非相干部分。
模型泛化能力优越,可用于不可见的伪造。
3.网络总述
问题:如何利用空间+时间的卷积网络来学习时间的不相干性。
网络限制:保持所有时间相关卷积核大小为原始值,将所有空间相关卷积内核大小设置为1*1。
限制的作用:可以鼓励网络学习时间不相干。
证明:
ResNet-50(R50)
作为主干,并比较了三种类型的分类器:-
证明了1*1的卷积更能使时间网络通过更一般的时间不相干学习分类。
网络总述:
全时间卷积网络+时间变压器。
这两个部分经过端到端的训练,用于视频人脸伪造检测。
总的来说,给定一个可疑视频V,
第一阶段:全时间卷积网络(FTCN)。处理局部时间闪烁和不一致性,并提取时间特征
F=FTCN(V)
。第二阶段:时间变换器。旨在进一步建模时间特征(F)的每个时间片段之间的长期不相干。
即一个局部特征提取,一个全局对比。
最后,使用MLP头进行最终预测。
3.Fully Temporal Convolution Network
现有问题:时空耦合核会削弱模型捕捉纯时间信息的能力,所以同时处理时空伪影不太可能。
FTCN主要思想:限制网络处理空间信息的能力,提高处理时间信息的能力。
网络架构:
网络分析: 根据上述实验得出结论,卷积核为1更加适合学习时间的不相干。 但 因为一些卷积层可能涉及大于1的步长,所以用3DConv(Kt,1,1,1,1)替换1*1的卷积核。 如果Sh或Sw>1,则在卷积运算符后添加max-pooling(最大值池化操作 作用:增大感受野) *注:3DConv(Kt,Kh,Kw,St,Sh,Sw)其中Kt,Kh,Kw是时间、高度、宽度维度中的核大小,St、Sh、Sw是时间、高度、宽度维度中的步幅。
最终获得:时间特征
F\in R^{C*N*H*W}
(C=2048,N=16, H=1, W =1) F:时间特征。 R:局部视频 C:输入的特征维度。 N:输入的序列长度。 H:高度。 W:宽度。
4.Temporal Transformer
作用:学习时间维度上的长期差异。
网络架构:
-
1.按时间分割FTCN提取的特征: F\in R^{C*N*H*W}; 2.用时间特征的线性投影(W),将映射尺寸从原特征维数(C)映射到新的特征维度(D);
3.将数据输入Temporal Transformer
输入序列:
F_{class}
:可学习的嵌入(可嵌入的有效位置)。作用是使临时变压器启动分类。
E_{pos}
:嵌入的位置。
F_t
:第t个时间片段的特征。
4.Temporal Transformer组成:
LN+MSA+LN+MLP+GELU
* MSA: a multi-head self-attention(MSA) block .attention:注意力机制,根据需求观察注意特定的一部分。self-attention:优点计算复杂度小+可大量并行计算+可更好学习远距离依赖。multi-head self-attention:可让模型从不同角度理解输入的序列。因此同时几个Attention的组合效果可能会优于单个Attenion. * MLP:多层感知机(Multi-Layer Perception)感知机:把训练集分为正反两个部分,并且能够对未来输入的数据进行分类。 * GELU:激活函数。GELU为非单调激活函数,有助于保持小的负值,从而稳定网络梯度流;GELU的最小值为-0.21,值域为[ − 0.21 , + ∞ ] 上界是任何激活函数都需要的特征,因为这样可以避免导致训练速度急剧下降的梯度饱和,因此加快训练过程。无下界有助于实现强正则化效果;梯度不容易造成梯度爆炸和梯度消失。光滑性:光滑的激活函数有较好的泛化能力和稳定的优化能力,可以提高模型的性能。 * LN:LayerNorm.channel方向做归一化,算CHW的均值,主要对RNN作用明显。
第 l 层特征定义为:
先用MSA着重观察某一部分获取特征,再用MLP进行特征打分(真假概率)。
最终的假概率:
5.实验
训练数据集:
FaceForensics++(FF++)
假视频制作方法:
Face2Face(F2F), FaceSwap(FS), NeuralTex-ture(NT), and Deepfake(DF).
测试数据集:
FF++ ; FaceShifter;DeeperForensics;DeepFake De-tection Challenge Preview dataset(DFDC);Celeb-DF-v2(CDF).
评估指标:AUC。
实验设置:self-attention heads, hidden size, and MLP size are set to 12,1024, 2048。
batch size of 32 ,
SGD optimizer with momentum。
the weight decay is set as 1e-4.
实验过程: the learning rate first increases from 0.01 to 0.1 in the first 10 epochs ,
and then cosinely decayed to 0 for the last 90 epochs.
(在前10个时间段内,学习率首先从0.01增加到0.1,然后在最后90个时间段以余弦方式衰减到0。)
6.结果
table2:在不同方法生成的假脸上对比。
table3:和最先进的检测方法对比。
#params:参数数量,越小性能越好,处理越快。
结论:泛化好+最少的参数实现了最高的性能+没有任何预训练或外部训练数据。
验证robustness
考虑四种常见的扰动:1)块态畸变;2) 颜色饱和度的变化;3) 高斯模糊;4) 调整大小:按系数对图像进行降采样,然后将其升采样到原始分辨率。
并将每个扰动分为五个强度级别。扰动在不同数据集上的平均结果如下:
结论:robustness好。
7.综合分析和改善
无法同时兼顾时空
【论文笔记】Exploring Temporal Coherence for More General Video Face Forgery Detection相关推荐
- 行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Temporal ...
- 论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner
论文笔记--Exploring Translation Similarities for Building a Better Sentence Aligner 1. 文章简介 2. 文章背景 3. 文 ...
- 论文笔记 |【CVPR2021】Uformer: A General U-Shaped Transformer for Image Restoration
论文笔记 |[CVPR2021]Uformer: A General U-Shaped Transformer for Image Restoration 文章目录 论文笔记 |[CVPR2021]U ...
- 论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
- 论文笔记-F3Net:Fusion, Feedback and Focus for Salient Object Detection
论文笔记之2020-AAAI-F3Net-F3Net:Fusion, Feedback and Focus for Salient Object Detection 论文地址:https://arxi ...
- 论文阅读 TSM: Temporal Shift Module for Efficient Video Understanding
TSM: Temporal Shift Module for Efficient Video Understanding Computer Vision and Pattern Recognition ...
- 【论文笔记】ObjectBox: From Centers to Boxes for Anchor-Free Object Detection
论文 论文题目:ObjectBox: From Centers to Boxes for Anchor-Free Object Detection 收录于:ECCV2022 论文地址:https:// ...
- 【论文笔记】Multi-modal Knowledge-aware Event Memory Network forSocial Media Rumor Detection
论文标题:Multi-modal Knowledge-aware Event Memory Network forSocial Media Rumor Detection 论文链接:https://s ...
- 论文笔记Multi-Scale Temporal Cues Learning for Video Person Re-Identification
Multi-Scale Temporal Cues Learning for Video Person Re-Identification 用于视频行人重识别的多尺度时间线索学习 1.摘要 摘要中提到 ...
最新文章
- 算法竞赛知识合集 目录(博客中转站)
- 二十八、顺序存储二叉树
- Py:利用pyautogui实现自动将pdf文件(需手动设定pdf总页数)自动翻页并截取另存为图片形式,或自动隔0.1秒自动截笔记本全屏保存到指定文件夹
- 使用路标的Scala和Java的Twitter REST API
- pycharm remote 远程项目 同步 本地_利器:PyCharm本地连接服务器搭建深度学习实验环境的三重境界...
- java8新特性(2)--- 方法引用
- Windows Azure Cloud Service (39) 如何将现有Web应用迁移到Azure PaaS平台
- React Redux: 从文档看源码 - Components篇
- linux kernel map
- Android控件:在《第一行代码(第二版)》学习RecyclerView的踩坑经过
- 当 JS 大猪蹄子遇到 HTML 小姐姐
- 壁纸|苹果Live壁纸以及静态壁纸,给大家分享点
- DSM-830源网荷系统控制终端(源网荷智能互动终端)-新型电力负荷控制终端(电力负荷管理终端装置)-互动式需求侧管理终端-专变采集终端的功能。DSM-830交互式需求侧管理终端(需求侧管理互动式终端
- SQL server 升序与降序
- 五险一金 | 养老保险的认识
- 仿泡团影视网源码 苹果cmsV8版本 电脑端+影视模块
- python简单的预测模型_python简单预测模型
- The machine learning algorithm cheat sheet
- windowxp网络无法发现其他计算机,几个步骤轻松解决win7无法访问XP系统共享问题...
- 干货分享|被PubMed收录的论文,在MEDLINE和SCIE能检索到吗?