论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)
一、论文信息
论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection
论文代码:https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection
会议:ICIAP2022
作者团队:
二、创新
传统基于CNN的方法在EfficientNet
B7上效果很好,本文使用EfficientNet B0和ViT结合在DFDC数据集上取得了auc 0.951和f1 0.88的成绩,与DFDC数据集上最好的检测水平非常接近。将各种类型的视觉变换器与卷积EfficientNet B0
相结合,提取人脸特征。不使用蒸馏法,也不使用集成法。而是一种基于简单投票的方案,用于处理同一视频镜头中的多个不同人脸。在时间上和跨多个人脸上 聚合推断出视频片段的真伪。
三、方法
网络输入:提取的人脸。
网络输出:人脸被操纵的概率。
用人脸检测器MTCNN对人脸进行预提取;
再用Efficient ViT and Convolutional Cross ViT两个网络训练。
Efficient ViT
两个模块组成:卷积模块(EfficientNet B0特征提取)+ Transformer Encoder。
具体步骤:
用EfficientNet B0为人脸每个块生成一个视觉特征,(一个块为7*7像素);
每个特征都由视觉变换器(Linear Proj)进一步处理;
用CLS生成二分类的分数;
Transformer encoder编码器,把特征编码为向量;
MLP Head将图片分为real/fake。
缺陷:只能用于小的patch,而伪影可能在全局出现。
Convolutional Cross ViT
两分支组成: Efficient ViT and the multi-scale Transformer architecture
即 S分支处理较小的patch,L分支处理较大的patch,以获得更宽的感受野。
使用两个不同的CNN主干作为特征提取器。(只使用其一)
EfficientNet B0,它为S分支处理7×7图像补丁,为L分支处理54×54图像补丁。
Wodajo等人的CNN,它为S分支处理7×7图像补丁,为L分支处理64×64图像补丁。
Linear Proj:视觉变换器处理特征。
Transformer Encoder:解码器解码。
Cross-Attention:两条分支交互,生成独立的S-CLS,L-CLS。
MLP Head:分类图片。
推理
真假阀值设置:0.55。
投票机制:针对同一个视频里有多个不同人脸的视频。根据人脸特征分类人脸,并平均得分,判断是否是假脸。一个视频里有一张假脸就判定该视频是假的。
四、实验
优化器:使用 SGD,学习率0.01进行端到端训练。
性能指标:AUC(准确率)+F1-score(伪造人脸的平均分数)
数据集:FaceForensics++, DFDC
论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)相关推荐
- 【论文笔记】Combining EfficientNet and Vision Transformers for Video Deepfake Detection
* Combining EfficientNet and Vision Transformers for Video Deepfake Detection 题目:结合高效网络和视觉变压器进行视频深度虚 ...
- 深度伪造检测论文 · Combining EfficientNet and Vision Transformers for Video Deepfake Detection
核心方法 Efficient Vit Convolutional Cross ViT 实验结果 实验设置 训练 推理 实验结果 DFDC数据测试集上的实验结果 在FF++子集上的泛化性能 总结 核心方 ...
- Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection
Kaiming在2022年发表了一篇Exploring Plain Vision Transformer Backbones for Object Detection. 文章的主要目的是追求一种包含较 ...
- [论文阅读] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
论文地址:https://arxiv.org/abs/2101.11986 代码:https://github.com/yitu-opensource/T2T-ViT 发表于:ICCV 2021(Ar ...
- 论文阅读 CVPR2022:End-to-End Semi-Supervised Learning for Video Action Detection
用于视频动作检测的端到端半监督学习 所提出的方法利用标记和未标记的样本进行端到端训练,而不需要任何迭代.我们在两个不同的数据集UCF101-24和JHMDB-21上进行了大量实验,证明了其有效性.此外 ...
- 论文阅读笔记——VulDeePecker: A Deep Learning-Based System for Vulnerability Detection
本论文相关内容 论文下载地址--Engineering Village 论文中文翻译--VulDeePecker: A Deep Learning-Based System for Vulnerabi ...
- 【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding
[论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...
- 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey
本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...
- 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection
目录 前言 一.背景和改进思路 二.细节原理和源码讲解 2.1.多尺度特征 2.1.1.backbone生成多尺度特征 2.1.2.多尺度位置编码 2.2.多尺度可变形注意力 2.2.1.普通多头注意 ...
最新文章
- html div中怎么引入另一个html文件
- 阿里云计算平台招AI解决方案产品经理
- HTTP协议通信原理
- 如何发送html email,如何发送HTML电子邮件?
- python中代理模式分为几种_通俗 Python 设计模式——代理模式
- webstorm 左侧文件目录树(不显示,怎么办?) - 设置篇
- java反编译源码_java反编译获取源码
- Bootstrap 的过渡效果
- list怎么取数据_MongoDB 自动过滤重复数据
- (转)WinForm中的各种表格控件
- js TextArea获取光标详解说明与实例
- 怎么python安装mysql库_python在windows上怎么安装mysql数据库
- (转)高效的MySQL分页
- 行业分类代码 2017 最新版 创建sql语句
- 从算法原理到应用部署!微信「扫一扫识物」 的背后技术揭秘
- android textview左边图片,Android TextView 多种方式显示图片-Fun言
- Echart图实现tooltips循环轮播(方法)
- 阅读材料:信息技术年谱
- Python程序批量校验统一社会信用代码的校验
- 马上大四了,秋招还是春招好?先找工作还是找实习