【论文笔记】Combining EfficientNet and Vision Transformers for Video Deepfake Detection
* Combining EfficientNet
and Vision Transformers for Video Deepfake
Detection
题目:结合高效网络和视觉变压器进行视频深度虚假检测(结合)
作者:Davide Coccomini, Nicola Messina, Claudio Gennaro, and Fabrizio Falchi
ISTI-CNR, via G. Moruzzi 1, 56124, Pisa, Italy
(意大利国家研究委员会)
发表期刊:ICIAP(图像分析和处理国际会议)
1.概要
将各种类型的视觉变换器与卷积EfficientNet B0
相结合,提取人脸特征。
不使用蒸馏法,也不使用集成法。而是一种基于简单投票的方案,用于处理同一视频镜头中的多个不同人脸。
主要创新:在视频的时空上判断各个人脸
2.总方法
网络输入:提取的人脸。
网络输出:人脸被操纵的概率。
用人脸检测器MTCNN对人脸进行预提取;
再用 the Efficient ViT and the Convolutional Cross ViT
两个网络训练。
3.Efficient ViT
两个模块组成:卷积模块(
EfficientNet B0
特征提取)+a Transformer Encoder。具体步骤:
1.用
EfficientNet B0
为人脸每个块生成一个视觉特征。(一个块为7*7像素);2.每个特征都由视觉变换器(
Linear Proj
)进一步处理;3.用CLS生成二分类的分数;
4.Transformer encoder编码器,把特征编码为机器容易学习的向量;
5.MLP Head将图片分为real/fake。
缺陷:只能用小补丁。而伪影可能在全局出现。
4.Convolutional Cross ViT
两分支组成:
the Efficient ViT and the multi-scale Transformer architecture
即 S分支处理较小的斑块,L分支处理较大的斑块,以获得更宽的感受野。
使用两个不同的CNN主干作为特征提取器。
(只使用其一)
1.EfficientNet B0,它为S分支处理7×7图像补丁,为L分支处理54×54图像补丁。
2.Wodajo等人的CNN,它为S分支处理7×7图像补丁,为L分支处理64×64图像补丁。
Linear Proj
:视觉变换器处理特征。Transformer Encoder:解码器解码。
Cross-Attention:两条分支交互,生成独立的S-CLS,L-CLS。
MLP Head:分类图片。
5.推论
优化器:使用 SGD optimizer with a learning rate of 0.01进行端到端训练。
真假阀值设置:0.55.
投票机制:针对同一个视频里有多个不同人脸的视频。
根据人脸特征分类人脸,并平均得分,判断是否是假脸。
一个视频里有一张假脸就判定该视频是假的。
6.结论
性能指标:AUC(准确率)+F1-score(伪造人脸的平均分数)
数据集:
FaceForensics++,DFDC
【论文笔记】Combining EfficientNet and Vision Transformers for Video Deepfake Detection相关推荐
- 论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)
一.论文信息 论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection 论文代码:https:/ ...
- 深度伪造检测论文 · Combining EfficientNet and Vision Transformers for Video Deepfake Detection
核心方法 Efficient Vit Convolutional Cross ViT 实验结果 实验设置 训练 推理 实验结果 DFDC数据测试集上的实验结果 在FF++子集上的泛化性能 总结 核心方 ...
- 论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
- 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection
目录 前言 一.背景和改进思路 二.细节原理和源码讲解 2.1.多尺度特征 2.1.1.backbone生成多尺度特征 2.1.2.多尺度位置编码 2.2.多尺度可变形注意力 2.2.1.普通多头注意 ...
- 【论文笔记】Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos
这篇论文提出了一种称为管道卷积神经网络( tube convolutional neural network,T-CNN) 的结构,它是 Faster R-CNN 从 2D 到 3D 的扩展.该方法先 ...
- [论文阅读] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
论文地址:https://arxiv.org/abs/2101.11986 代码:https://github.com/yitu-opensource/T2T-ViT 发表于:ICCV 2021(Ar ...
- [论文笔记]Combining V2I with V2V Communications for Service Continuity in Vehicular Networks
车辆网络中,因为RSU部署成本高,所以应期待RSU可以尽可能稀疏部署,另一方面因为RSU覆盖范围有限,因此两个相邻的RSU之间存在一定的未覆盖区域,当车辆在这些区域内过度时服务将会被中断.为此,本文提 ...
- 论文笔记 EMNLP 2020|Edge-Enhanced Graph Convolution Networks for Event Detection with Syntactic Relation
文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 4 实验 1 简介 论文题目:Edge-Enhanced Graph Convolution Networks for Even ...
- 论文笔记:ReDet: A Rotation-equivariant Detector for Aerial Object Detection
论文 paper:https://arxiv.org/pdf/2103.07733.pdf code:https://github.com/csuhan/ReDet 概述 之前说过,cv的论文图画的好 ...
最新文章
- 【廖雪峰python入门笔记】break和continue
- python读取txt文件内容-python读取压缩包里面所有*.txt文件的内容
- 系统集成项目管理工程师-变更管理笔记
- 13. sizeof 和 strlen 的区别
- 【转】CSS样式覆盖规则
- MySQL集群:高可用性DBMS
- 机器学习的MLE和MAP:最大似然估计和最大后验估计
- 买房子还是不买房子,这是一个问题
- python安装api_Python API文档
- ACCESS的十种数据类型分别对应的添加语句
- C语言基础专题 - 通过案例历学 - 结构体
- 【电子技术基础(精华版)】整流与滤波电路
- mysql无参的存储过程_创建无参的存储过程(四十七)
- linux: 未知的名称或服务 Caused by: java.net.UnknownHostException: smn01: Name or service not known
- 苹果4s手机装 java微信_苹果4s微信版本过低怎么办 大师来详解
- 申宝优配-强者恒强还将继续
- Discuz3.4-SSRF-从触发点到构造payload
- Java(正,反)序列化
- Android 蓝牙开发(八)hfp接听、挂断电话
- 搜狐微博改版 走差异化发展之路