Deepfakes论文总结(更新中)

目前的deepfake检测,从检测层级上讲有两类:

  • 一类工作认为,深度伪造检测,应该检测伪造过程中底层的artifact,比如本文中的[5,6,7,8]。这类文章通常非常善于设计网络架构、设计数据增强方式,设计loss等等,泛化性较差。

  • 另一类工作认为,深度伪造检测,应该关注伪造过程中难以复制的高层语义信息。比如本文中的[1,2,3,4,10]。这类文章通常不太在意底层网络架构(即使他们会使用各种各样的特征抽取器),而更关注网络抽取出的时序语义(目前还无工作基于图片语义),泛化性较好。

从实现方法上讲,基于个体的检测(identity-based)和有监督学习(supervised)两类:

  • 基于个体的方法通常是将视频映射到能够识别个体的特征空间,然后根据新样本和已有实例之间的距离做出决策。这类检测需要真实个体视频的参考集合(reference set)。

  • 监督学习方法把检测作为一个真假分类问题

从模态角度看,除了传统的视频和音频外,随着带有伪造音频的数据集的出现,多模态的检测也成为最新热点。

Identity-based

[1] ProtectingWorld Leaders Against Deep Fakes【CVPR 2019】

190维特征可以被较好地聚类

标签:视频级别检测;SVM

先抽取人脸的运动单元,然后用运动单元之间的190维相关系数表示一段视频的特征,作者用TSNE做了可视化,发现不同人的特征可以被很好地分开。随后,作者用SVM在多种方法伪造的数据集上训练模型,取得了较好的效果。

[2] Detecting Deep-Fake Videos from Appearance and Behavior【IEEE-WIFS 2020】

网络架构,由一个人脸识别网络和一个行为网络并联而成

标签:视频级别检测;度量学习

先由Facial Attributes-Net抽取行为特征(基于帧的面部运动和表情,身份不可知),然后用行为特征预测Identity,从而得到一个行为网络的隐空间;另外单独由人脸识别模型(VGG)得到另一个隐空间;最后通过新样本在隐空间中与真实样本集的距离判断真伪。

1)面部和行为身份相同并且面部相似度高于指定阈值时为真;2)如果面部和行为的身份不同或面部相似度小于阈值则为假。

[3] ID-Reveal: Identity-aware DeepFake Video Detection【ICCV 2021】

ID-Reveal

标签:视频级别检测;度量学习

该网络主要由三个结构组成:(1)特征提取;(2)时序ID网络;(3)3DMM生成网络。

1)特征提取:输入的是视频,对视频中的每一帧提取出面部特征。然后通过一个3D形态模型来将每个脸映射成一个低维表示(也就是图中显示的人脸形态图)。该表示中包含了关于脸部形状,表情,外貌等信息。下一步是从该低维表示中取回人脸的这些信息参数,将这些信息再次映射成一个62个参数的向量。

时序ID网络:该网络的作用是比较输入的特征之间的相似度,同时也作为一个判别器来与接下来介绍的3DMM生成网络进行对抗学习。流程是:将传入该部分的两个特征向量进行特征映射然后来比较两者之间的相似度,将该相似度与标签对比,如果判定错误则更新3DMM生成网络的参数来使得其生成更能分辨真假之间关键信息的特征。

3DMM生成网络:该网络的作用是生成类似于经过deepfake篡改过的视频,如图上所示:将身份A的面部五官等放到身份B的面部背景上面,也就是与个人视觉身份一致但生物特征不一致的信息。一般被使用两次,将个体i变为身份c并将变为3DMM特征,之后将生成的3DMM特征再重新变换为i,生成器旨在增加相似性,而时序ID网络训练阻碍发生器,对抗训练的最终目标是提高时序ID网络区分真实身份与虚假身份的能力。

[4] Audio-Visual Person-of-Interest DeepFake Detection【arxiv】

Supervised Learning

[5] Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection【CVPR 2021】

网络架构

FDFL

标签:图像级别分类;loss设计

  1. 输入图像首先经过AFFGM和RGB分支分别提取频域和RGB域特征;

  2. 在融合模块中将两种特征进行融合;

  3. 融合后的特征经过进一步特征提取之后,得到一维的特征矢量;

  4. 框架的最后是一个分类器,输出输入样本的预测结果。整个网络在softmax loss和本文提出的SCL的联合监督下进行端到端训练,网络学习一个嵌入空间,其中自然人脸聚集在中心点周围,而被操纵的人脸远离中心点。

  5. 利用局部的离散余弦变换(DCT),提取频域特征;融合了度量学习使用单中心损失,保证真实人脸类内的紧密,避免伪造图片分布的多样性影响训练。

[6] Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features【CVPR 2021】

LR-Net

标签:视频级别分类;光流

  1. 作者提出的LRNet由四个部分组成:人脸预处理模块、校准模块、特征嵌入过程和RNN分类过程。它通过检测异常的面部运动模式和时间不连续性来暴露被操纵的面部。并且整个框架只需要训练RNNs部分。

  2. 先抽取人脸关键点,针对现有方法抽取人脸关键点精确率不高的问题,提出校准模块,利用光流预测下一帧的关键点位置后,和下一帧抽取的关键点用Kalman filter做融合,最后把校准后的关键点位置和速度输入到RNN中进行预测。

[7] Towards Solving the DeepFake Problem: An Analysis on Improving DeepFake Detection using Dynamic Face Augmentation【ICCV 2021】

流行数据集的统计量

标签:数据增强

文章认为,目前的Deepfake数据集是过采样的,在DFDC数据集中,一张脸在182个视频中出现,这会导致模型过拟合;提出了一种Face-Cutout的数据增强方法,先找到68个人脸关键点,然后尽可能地移除和真实图片差别较小的部分,这个差别是由真实和虚假图片局部的SSIM预先衡量好的。

[8] Multi-attentional Deepfake Detection【CVPR 2021】

网络架构

Multi-attentional Deepfake Detection

标签: 图像级别分类

  • 多个空间注意力头,使网络关注不同的局部区域,并从多个人脸注意区域中获取局部区别特征;

  • 纹理增强块,放大浅层特征中的细微伪影;

  • 在注意力图的指导下,聚合低层纹理特征和高层语义特征。

  • 为了解决网络的学习困难,进一步引入了一个新的区域独立性损失和一个注意力引导的数据增强策略,以对抗学习的方式辅助网络训练。

  1. 用纹理增强浅层特征,用较深层特征去生成注意力图,把注意力图双线性插值后和纹理特征做逐点相乘;

  2. 为了避免不同的特征图聚焦到相同的区域,使用Regional Independence Loss(区域独立性损失),让特征图之间的距离尽可能远,同一个通道对不同图片生成的注意力图尽可能接近;

  3. 另外加入了Attention Guided Data Augmentations,即先随机选取一个注意力图,然后对原图的对应区域做高斯模糊,进一步解耦不同的attention maps。

[9] Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection【CVPR 2021】

finetune阶段的网络架构

标签:视频级别分类;预训练

唇部的高层时序语义特征是现有方法难以伪造的;作者先在唇读任务上预训练一个逐帧的ResNet-18特征抽取网络和一个时序网络,然后固定逐帧网络(防止过拟合到artifact上),只训练时序网络(此时输入图片被裁剪到唇部周围),从而抽取能够决定真假的唇部特征。实验证明该方法跨数据集和跨伪造方法泛化性较好。

[10] Protecting Celebrities with Identity Consistency Transformer【CVPR 2022】

网络结构

Deepfakes论文总结相关推荐

  1. 论文阅读-通过精确的几何特征提高Deepfakes检测的效率和稳健性(LR-Net)

    一.论文信息: 题目:Improving the Effificiency and Robustness of Deepfakes Detection through Precise Geometri ...

  2. 计算机视觉系列最新论文(附简介)

    计算机视觉系列最新论文(附简介) 目标检测 1. 综述:深度域适应目标检测标题:Deep Domain Adaptive Object Detection: a Survey作者:Wanyi Li, ...

  3. 人脸真伪验证与识别:ICCV2019论文解析

    人脸真伪验证与识别:ICCV2019论文解析 Face Forensics++: Learning to Detect Manipulated Facial Images 论文链接: http://o ...

  4. CVPR2020论文解读:CNN合成的图片鉴别

    CVPR2020论文解读:CNN合成的图片鉴别 <CNN-generated images are surprisingly easy to spot- for now> 论文链接:htt ...

  5. 必看,10篇定义计算机视觉未来的论文

    译者 | Major 编辑 | 赵雪 出品 | AI科技大本营(ID:rgznai100) 导语:如果你没能参加 CVPR 2019 , 别担心.本文列出了会上人们最为关注的 10 篇论文,覆盖了 D ...

  6. 特朗普“模仿”奥巴马?进阶版换脸技术DeepFakes来了

    整理 | 费棋 出品 | AI科技大本营 DeepFakes,这种能够移花接木的技术,它能将图像或视频中把一张脸替换成另一张脸. 去年 12 月,一个名 Reddit 用户用 DeepFakes 技术 ...

  7. 51篇最新CV领域综述论文速递!涵盖14个方向:目标检测/图像分割/医学影像/人脸识别等方向...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文共汇总了从2020年4月至今的计算机视觉领域综述性论文,共54篇,涵盖图像分割. 图像识别.人脸识 ...

  8. 年终收藏!一文看尽2020年度最出圈AI论文合集

    来源:  新智元 本文约4600字,建议阅读5分钟 本文为你总结2020年AI领域有很多精彩的重要成果. 2020年,想必各国的人民都被新冠病毒支配得瑟瑟发抖... 不过,这并不影响科研工作者的工作态 ...

  9. Jeff Dean亲笔盘点谷歌AI 2019:日均2篇论文,纵横16大方向,一文汇集重要开源算法...

    点击上方"深度学习技术前沿",选择星标或置顶,每天给你送干货! 阅读大概需要16分钟 跟随小博主,每天进步一丢丢 又一年,Jeff Dean代表Google AI,总结过去一年AI ...

最新文章

  1. 在CentOS 6.8 x86_64上安装nghttp2最新版及让curl具有http2特性
  2. flink入门_阿里巴巴为何选择Flink?20年大佬分11章讲解Flink从入门到实践!
  3. charset参数 sqluldr2_SQLULDR2的安全保密功能
  4. db2 日期英式写法_英文日期的写法
  5. win7操作系统上,批处理文件,直接双击的时候,能运行起来。但是以管理员身份运行的时候,都闪退。请问,这是怎么回事?...
  6. 2017/5 JavaScript基础9 --- 闭包、作用域
  7. C语言删掉无关变量无输出,C语言变量类型与输出控制用法实例教程
  8. 一加手机虚拟键失灵解决方案
  9. Python中import导入模块
  10. torchtext建立词表build_vocab()时使用自己的word2vec模型
  11. JavaScript学习——判断数据类型总结(转)
  12. PathProber:基于暴力破解方法探测和发现HTTP路径名
  13. pdf屏幕取词 android,金山词霸Android版更是独家实现了手机屏幕取词和摄像头取词功能...
  14. 【企业网络】我在51cto技术门诊的提问以及专家的解答汇总
  15. 如何开发一款棋牌游戏?棋牌游戏平台搭建
  16. Win10经常断开网络连接的原因
  17. windows如何安装SVN
  18. 维吉尼亚算法python编程实现
  19. 最简单的http文件服务器
  20. css实现文字大小自适应

热门文章

  1. MYSQL数据库(十)- 数据表的插入(insert)、删(delete)、改(update)、查(select)、group by 分组、having语句设置分组条件,order by查询结果排序,
  2. PLSQL9真正注册机
  3. plupload 不兼容ie8_Cocos Creator 最佳实践:JavaScript兼容性问题规避
  4. matlab 自定义距离函数,用MATLAB做聚类分析时非常有用的自定义距离函数和标准化函数...
  5. JavaScript的onkeypress键盘事件
  6. SQL按时间段分组查询
  7. 测试手机信号格数软件,手机信号格数显示测试是怎么测试的啊?帮忙指导一下吧...
  8. Unity打包exe文件
  9. 变频电源纹波电压如何进行测量呢?
  10. 管易云与金蝶云星空对接集成采购入库查询打通采购入库新增