* Combining EfficientNet and Vision Transformers for Video Deepfake Detection

题目:结合高效网络和视觉变压器进行视频深度虚假检测(结合)

作者:Davide Coccomini, Nicola Messina, Claudio Gennaro, and Fabrizio Falchi

ISTI-CNR, via G. Moruzzi 1, 56124, Pisa, Italy(意大利国家研究委员会)

发表期刊:ICIAP(图像分析和处理国际会议)

1.概要

将各种类型的视觉变换器与卷积EfficientNet B0相结合,提取人脸特征。

不使用蒸馏法,也不使用集成法。而是一种基于简单投票的方案,用于处理同一视频镜头中的多个不同人脸。

主要创新:在视频的时空上判断各个人脸

2.总方法

  • 网络输入:提取的人脸。

  • 网络输出:人脸被操纵的概率。

用人脸检测器MTCNN对人脸进行预提取;

再用 the Efficient ViT and the Convolutional Cross ViT两个网络训练。

3.Efficient ViT

  • 两个模块组成:卷积模块(EfficientNet B0特征提取)+a Transformer Encoder。

  • 具体步骤:

    1.用EfficientNet B0为人脸每个块生成一个视觉特征。(一个块为7*7像素);

    2.每个特征都由视觉变换器(Linear Proj)进一步处理;

    3.用CLS生成二分类的分数;

    4.Transformer encoder编码器,把特征编码为机器容易学习的向量;

    5.MLP Head将图片分为real/fake。

  • 缺陷:只能用小补丁。而伪影可能在全局出现。

4.Convolutional Cross ViT

  • 两分支组成:the Efficient ViT and the multi-scale Transformer architecture

    即 S分支处理较小的斑块,L分支处理较大的斑块,以获得更宽的感受野。

  • 使用两个不同的CNN主干作为特征提取器。

    (只使用其一)

    1.EfficientNet B0,它为S分支处理7×7图像补丁,为L分支处理54×54图像补丁。

    2.Wodajo等人的CNN,它为S分支处理7×7图像补丁,为L分支处理64×64图像补丁。

  • Linear Proj:视觉变换器处理特征。

  • Transformer Encoder:解码器解码。

  • Cross-Attention:两条分支交互,生成独立的S-CLS,L-CLS。

  • MLP Head:分类图片。

5.推论

  • 优化器:使用 SGD optimizer with a learning rate of 0.01进行端到端训练。

  • 真假阀值设置:0.55.

  • 投票机制:针对同一个视频里有多个不同人脸的视频。

    根据人脸特征分类人脸,并平均得分,判断是否是假脸。

    一个视频里有一张假脸就判定该视频是假的。

6.结论

  • 性能指标:AUC(准确率)+F1-score(伪造人脸的平均分数)

  • 数据集:FaceForensics++,DFDC

【论文笔记】Combining EfficientNet and Vision Transformers for Video Deepfake Detection相关推荐

  1. 论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)

    一.论文信息 论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection 论文代码:https:/ ...

  2. 深度伪造检测论文 · Combining EfficientNet and Vision Transformers for Video Deepfake Detection

    核心方法 Efficient Vit Convolutional Cross ViT 实验结果 实验设置 训练 推理 实验结果 DFDC数据测试集上的实验结果 在FF++子集上的泛化性能 总结 核心方 ...

  3. 论文笔记【A Comprehensive Study of Deep Video Action Recognition】

    论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...

  4. 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection

    目录 前言 一.背景和改进思路 二.细节原理和源码讲解 2.1.多尺度特征 2.1.1.backbone生成多尺度特征 2.1.2.多尺度位置编码 2.2.多尺度可变形注意力 2.2.1.普通多头注意 ...

  5. 【论文笔记】Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

    这篇论文提出了一种称为管道卷积神经网络( tube convolutional neural network,T-CNN) 的结构,它是 Faster R-CNN 从 2D 到 3D 的扩展.该方法先 ...

  6. [论文阅读] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

    论文地址:https://arxiv.org/abs/2101.11986 代码:https://github.com/yitu-opensource/T2T-ViT 发表于:ICCV 2021(Ar ...

  7. [论文笔记]Combining V2I with V2V Communications for Service Continuity in Vehicular Networks

    车辆网络中,因为RSU部署成本高,所以应期待RSU可以尽可能稀疏部署,另一方面因为RSU覆盖范围有限,因此两个相邻的RSU之间存在一定的未覆盖区域,当车辆在这些区域内过度时服务将会被中断.为此,本文提 ...

  8. 论文笔记 EMNLP 2020|Edge-Enhanced Graph Convolution Networks for Event Detection with Syntactic Relation

    文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 4 实验 1 简介 论文题目:Edge-Enhanced Graph Convolution Networks for Even ...

  9. 论文笔记:ReDet: A Rotation-equivariant Detector for Aerial Object Detection

    论文 paper:https://arxiv.org/pdf/2103.07733.pdf code:https://github.com/csuhan/ReDet 概述 之前说过,cv的论文图画的好 ...

最新文章

  1. 【廖雪峰python入门笔记】break和continue
  2. python读取txt文件内容-python读取压缩包里面所有*.txt文件的内容
  3. 系统集成项目管理工程师-变更管理笔记
  4. 13. sizeof 和 strlen 的区别
  5. 【转】CSS样式覆盖规则
  6. MySQL集群:高可用性DBMS
  7. 机器学习的MLE和MAP:最大似然估计和最大后验估计
  8. 买房子还是不买房子,这是一个问题
  9. python安装api_Python API文档
  10. ACCESS的十种数据类型分别对应的添加语句
  11. C语言基础专题 - 通过案例历学 - 结构体
  12. 【电子技术基础(精华版)】整流与滤波电路
  13. mysql无参的存储过程_创建无参的存储过程(四十七)
  14. linux: 未知的名称或服务 Caused by: java.net.UnknownHostException: smn01: Name or service not known
  15. 苹果4s手机装 java微信_苹果4s微信版本过低怎么办 大师来详解
  16. 申宝优配-强者恒强还将继续
  17. Discuz3.4-SSRF-从触发点到构造payload
  18. Java(正,反)序列化
  19. Android 蓝牙开发(八)hfp接听、挂断电话
  20. 搜狐微博改版 走差异化发展之路

热门文章

  1. 什么是无监督学习?概念、使用场景及常用算法详解
  2. CrateDB三机三节点部署(Docker Overlay网络)
  3. 如何给单元格加斜线?
  4. 【BLENDER】-渲染 背景设置
  5. cocos2dx 自定义事件
  6. 创业者不能盲目的跟风,不然结局很凄凉
  7. 服务器美国视频网站吗,美国服务器可以做视频网站吗
  8. 打造自己的图像识别模型
  9. 声声慢 - 程序人生
  10. 多用途互联网邮件扩展--MIME类型简介