深度伪造检测论文 · Combining EfficientNet and Vision Transformers for Video Deepfake Detection
- 核心方法
- Efficient Vit
- Convolutional Cross ViT
- 实验结果
- 实验设置
- 训练
- 推理
- 实验结果
- DFDC数据测试集上的实验结果
- 在FF++子集上的泛化性能
- 总结
核心方法
提出有两个Convolutional-Transformer混合结构的模型。
- Efficient ViT
- Convolutional Cross ViT
在时间上和跨多个人脸上 聚合推断出 视频片段的真伪
Efficient Vit
由两个模块组成
- 卷积模块 — 特征提取器:EfficientNet B0
- 为输入的 7×77\times 77×7 图像块提取视觉特征,以嵌入重要的低级和局部信息
- 微调,提取更合适的特征
- Transformer编码器
Convolutional Cross ViT
DeepFake生成的伪影可能在全局或局部出现,仅使用EfficentNet针对小图像块不够理想。
两个分支处理不同的图像块:
- S分支 处理小图像块 7×77\times 77×7
- L分支 处理大图像块 64×6464\times 6464×64,大感受野
使用交叉注意力组合两个分支的输出,直接交互。
最终将两个分支的输出相加,得到模型预测输出
实验结果
实验设置
多种假脸生成方法:
- DeepFakes
- Face2Face
- FaceShifter
- FaceSwap
- NeuralTextures
两个流行的数据集:
- FaceForensics++
- DFDC
比较多个SOTA方法:
- Convolutional ViT(Deepfake video detection using convolutional vision transformer.)
- ViT with distillation(Deepfake detection scheme based on vision transformer and distillation)
- Selim EfficientNet B7 (DFDC
深度伪造检测论文 · Combining EfficientNet and Vision Transformers for Video Deepfake Detection相关推荐
- 论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)
一.论文信息 论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection 论文代码:https:/ ...
- 【论文笔记】Combining EfficientNet and Vision Transformers for Video Deepfake Detection
* Combining EfficientNet and Vision Transformers for Video Deepfake Detection 题目:结合高效网络和视觉变压器进行视频深度虚 ...
- 深度学习论文: PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization
深度学习论文: PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization PaDiM: ...
- [Transformer]MViTv2:Improved Multiscale Vision Transformers for Classification and Detection
MViT:优化的多尺度Transformer用于分类和检测 Abstract Section I Introduction Section II Related Work Section III Re ...
- 【读点论文】EfficientFormer: Vision Transformers at MobileNet Speed,运用纯transformer架构对比卷积模型在终端上部署的推理速度
EfficientFormer: Vision Transformers at MobileNet Speed Abstract 视觉transformer(ViT)在计算机视觉任务中取得了快速的进展 ...
- 论文阅读-ViTDet:Exploring Plain Vision Transformer Backbones for Object Detection
目录 A.写在前面 B.有个工作我得说说 C.摘要拆分 D.先看看结果 E.代码细节 1.MaskRCNN部分的修改 2.数据增强部分 3.SFP的实现 F.参考文献 A.写在前面 ViTDet[1] ...
- 深度学习论文: EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers及其PyTorch实现
深度学习论文: EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers及其PyTorch实现 ...
- 【读点论文】CMT: Convolutional Neural Networks Meet Vision Transformers
CMT: Convolutional Neural Networks Meet Vision Transformers Abstract 视觉transformer已经成功地应用于图像识别任务,因为它 ...
- Intriguing Properties of Vision Transformers论文解析
Intriguing Properties of Vision Transformers 论文地址 本论文系统研究了基于Transformer和CNN构造的图像分类器一些很多有趣的特性,包括纹理与形状 ...
最新文章
- +智能”时代,华为如何将AI赋能到各行各业?
- 如何添加二级标题_全国计算机二级MS Office高级应用考试指南
- 市面上常见的TCP/IP以太网一卡通设备硬件产品电路拆解分析
- Django学习手册 - ORM数据类型
- Flex4中的皮肤(2): Skin State
- 1001. A+B Format
- 【思维题 单调栈】loj#2430. 「POI2014」沙拉餐厅 Salad Bar
- dylib java_使用单声道可执行文件捆绑.dylib文件
- 201671010128 2017-10-08《Java程序设计》之接口与内部类
- jcr一区是什么意思_SCI分区中JCR分区和中科院分区的三点区别
- mac新手入门:从启动台Launchpad中完全删除应用程序
- Linux下文件实时自动同步备份
- HTML小游戏7 —— 《罗斯魔影》魔法消除游戏(附完整源码)
- [200814] 自己动手,搞定软件著作权申请(已成功)
- 基于PL/SQL的数据库备份方法
- 微服务--Gateway--服务网关
- 光伏mppt扰动观察法仿真,matlab2018a
- 动态图片怎么做?教你一键合成gif动图
- 2021年12月网络教育大学英语B统考题库考试真题
- 视频合并器(Video Combiner)绿色免费版 v1.1
热门文章
- tig git的好搭档
- uni-app:基于Vue的跨端框架(闪电演讲内容整理) | 掘金开发者大会
- Oracle EBS使用CSV导入Oracle Form及BOM清单导入 API
- CentOS7下利用qBittorrent+Flex搭建自己的在线视频播放站
- MSDC 4.3 接口规范(27)
- 利用激活图谱探索神经网络-Exploring Neural Networks with Activation Atlases (上)
- springcloud config非对称加密
- 服务器有哪些品牌,各品牌服务器之间性价比对比!
- 什么是次世代游戏建模?角色和场景建模,哪个比较容易
- outlook服务器拒绝访问文件夹,无法打开共享日历文件夹 - Outlook | Microsoft Docs
- 论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)