一、论文信息

论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection

论文代码:https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection

会议:ICIAP2022

作者团队:

二、创新

传统基于CNN的方法在EfficientNetB7上效果很好,本文使用EfficientNet B0和ViT结合在DFDC数据集上取得了auc 0.951和f1 0.88的成绩,与DFDC数据集上最好的检测水平非常接近。将各种类型的视觉变换器与卷积EfficientNet B0相结合,提取人脸特征。不使用蒸馏法,也不使用集成法。而是一种基于简单投票的方案,用于处理同一视频镜头中的多个不同人脸。在时间上和跨多个人脸上 聚合推断出视频片段的真伪。

三、方法

  • 网络输入:提取的人脸。

  • 网络输出:人脸被操纵的概率。

用人脸检测器MTCNN对人脸进行预提取;

再用Efficient ViT and Convolutional Cross ViT两个网络训练。

Efficient ViT

两个模块组成:卷积模块(EfficientNet B0特征提取)+ Transformer Encoder。

具体步骤:

  1. 用EfficientNet B0为人脸每个块生成一个视觉特征,(一个块为7*7像素);

  2. 每个特征都由视觉变换器(Linear Proj)进一步处理;

  3. 用CLS生成二分类的分数;

  4. Transformer encoder编码器,把特征编码为向量;

  5. MLP Head将图片分为real/fake。

缺陷:只能用于小的patch,而伪影可能在全局出现。

Convolutional Cross ViT

  • 两分支组成: Efficient ViT and the multi-scale Transformer architecture

即 S分支处理较小的patch,L分支处理较大的patch,以获得更宽的感受野。

  • 使用两个不同的CNN主干作为特征提取器。(只使用其一)

  1. EfficientNet B0,它为S分支处理7×7图像补丁,为L分支处理54×54图像补丁。

  2. Wodajo等人的CNN,它为S分支处理7×7图像补丁,为L分支处理64×64图像补丁。

  • Linear Proj:视觉变换器处理特征。

  • Transformer Encoder:解码器解码。

  • Cross-Attention:两条分支交互,生成独立的S-CLS,L-CLS。

  • MLP Head:分类图片。

推理

  • 真假阀值设置:0.55。

  • 投票机制:针对同一个视频里有多个不同人脸的视频。根据人脸特征分类人脸,并平均得分,判断是否是假脸。一个视频里有一张假脸就判定该视频是假的。

四、实验

  • 优化器:使用 SGD,学习率0.01进行端到端训练。

  • 性能指标:AUC(准确率)+F1-score(伪造人脸的平均分数)

  • 数据集:FaceForensics++, DFDC

论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)相关推荐

  1. 【论文笔记】Combining EfficientNet and Vision Transformers for Video Deepfake Detection

    * Combining EfficientNet and Vision Transformers for Video Deepfake Detection 题目:结合高效网络和视觉变压器进行视频深度虚 ...

  2. 深度伪造检测论文 · Combining EfficientNet and Vision Transformers for Video Deepfake Detection

    核心方法 Efficient Vit Convolutional Cross ViT 实验结果 实验设置 训练 推理 实验结果 DFDC数据测试集上的实验结果 在FF++子集上的泛化性能 总结 核心方 ...

  3. Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection

    Kaiming在2022年发表了一篇Exploring Plain Vision Transformer Backbones for Object Detection. 文章的主要目的是追求一种包含较 ...

  4. [论文阅读] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

    论文地址:https://arxiv.org/abs/2101.11986 代码:https://github.com/yitu-opensource/T2T-ViT 发表于:ICCV 2021(Ar ...

  5. 论文阅读 CVPR2022:End-to-End Semi-Supervised Learning for Video Action Detection

    用于视频动作检测的端到端半监督学习 所提出的方法利用标记和未标记的样本进行端到端训练,而不需要任何迭代.我们在两个不同的数据集UCF101-24和JHMDB-21上进行了大量实验,证明了其有效性.此外 ...

  6. 论文阅读笔记——VulDeePecker: A Deep Learning-Based System for Vulnerability Detection

    本论文相关内容 论文下载地址--Engineering Village 论文中文翻译--VulDeePecker: A Deep Learning-Based System for Vulnerabi ...

  7. 【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding

    [论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...

  8. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

  9. 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection

    目录 前言 一.背景和改进思路 二.细节原理和源码讲解 2.1.多尺度特征 2.1.1.backbone生成多尺度特征 2.1.2.多尺度位置编码 2.2.多尺度可变形注意力 2.2.1.普通多头注意 ...

最新文章

  1. html div中怎么引入另一个html文件
  2. 阿里云计算平台招AI解决方案产品经理
  3. HTTP协议通信原理
  4. 如何发送html email,如何发送HTML电子邮件?
  5. python中代理模式分为几种_通俗 Python 设计模式——代理模式
  6. webstorm 左侧文件目录树(不显示,怎么办?) - 设置篇
  7. java反编译源码_java反编译获取源码
  8. Bootstrap 的过渡效果
  9. list怎么取数据_MongoDB 自动过滤重复数据
  10. (转)WinForm中的各种表格控件
  11. js TextArea获取光标详解说明与实例
  12. 怎么python安装mysql库_python在windows上怎么安装mysql数据库
  13. (转)高效的MySQL分页
  14. 行业分类代码 2017 最新版 创建sql语句
  15. 从算法原理到应用部署!微信「扫一扫识物」 的背后技术揭秘
  16. android textview左边图片,Android TextView 多种方式显示图片-Fun言
  17. Echart图实现tooltips循环轮播(方法)
  18. 阅读材料:信息技术年谱
  19. Python程序批量校验统一社会信用代码的校验
  20. 马上大四了,秋招还是春招好?先找工作还是找实习

热门文章

  1. halcon相机标定助手_使用Halcon助手来制作标定数据
  2. CentOS安装sun java
  3. word插入和删除水印
  4. MSDC 4.3 接口规范(13)
  5. 华为服务器2488H V6的ibmc接口配置
  6. 如何利用文字推动业绩 ——营销人员的软文营销
  7. 统一认证授权平台keycloak太牛了,我要搞一搞
  8. android多国语言---简写对应国家code
  9. HGDB 兼容 Oracle 中 merge into using(APP)
  10. 为什么5G能比4G快十倍?