数据集地址:ForgeryNet Dataset (yinanhe.github.io)

全面伪造分析的通用基准(Versatile benchmark)

摘要

图像真实感合成技术(photorealistic synthesis techniques)的快速发展已经达到了一个临界点(critical point),真实图像和操纵图像之间的边界开始模糊。因此,基准测试(benchmarking)和推进数字伪造分析已成为一个紧迫的问题。然而,现有的人脸伪造数据集要么多样性有限,要么仅支持粗粒度(coarse-grained)分析。

ForgeryNet数据集,这是一个非常大的人脸伪造数据集,在图像和视频级别的数据中有统一的注释,可用于四项任务:

1) 图像伪造分类,包括双向(真/假)、三向(真/替换了身份(identify replaced)的伪造方法/不替换身份的伪造方法)和N向(真和15种伪造方法)分类。

2) 在伪造图片中对人脸伪造区域进行定位(Spatial Forgery Localization),将伪造图像的操纵区域与其对应的真实图像进行分割。

3) 视频伪造分类,它重新定义了在随机位置操纵帧的视频级伪造分类。这项任务很重要,因为现实世界中的攻击者可以自由操纵任何目标帧。

4) 时间伪造定位,定位哪些视频的哪些时间段是被伪造过的。

就数据规模(290万张图像,221247个视频)、操作(7个图像级方法,8个视频级方法)、扰动(36个独立的和更多的混合扰动)和注释而言,ForgeryNet是迄今为止最大的公开深度人脸伪造数据集(630万个分类标签、290万个操纵区域注释和221247个临时伪造段标签)。我们对现有的面部取证方法进行了广泛的基准测试和研究,并获得了一些有价值的观察结果。我们希望FageryNet数据集的规模、质量和多样性将促进人脸伪造分类以及时空伪造定位等领域的进一步研究和创新。

1. 介绍

照片真实感面部伪造技术,尤其是最近的深度学习驱动方法[23,38,49],引起了广泛的社会关注,可能会恶意滥用这些技术来伪造人脸媒体(即图像和视频等)。因此,开发可以区分图像或视频是否被操纵以及在何处被操纵的可靠的人脸伪造分析方法至关重要。

人脸伪造分析的最新进展是通过收集人脸伪造检测数据集[18,52]和早期尝试在伪造图像中分析内在特征而产生的。然而,大多数数据集的性能已经饱和(即超过99%的准确率[26,32,46,61]),这是由于其规模有限(例如图像/视频和主题身份的数量)和多样性有限(例如伪造方法、场景、真实干扰等)。此外,在实际应用中,通常需要通过定位图像中的篡改区域和/或未经剪辑的视频中的操纵片段来检测伪造人脸,而不仅仅是提供二元的标签。

在本文中,我们构建了一个新的大规模数据集ForgeryNet,该数据集具有综合注释,由两个组(即图像和视频级)和四个用于真实世界数字伪造分析的任务组成。我们仔细地在ForgeryNet上测试现有的取证方法。大量的实验和深入的分析表明,这个更大、更丰富的注释数据集可以促进下一代伪造分析算法的发展。具体而言,与现有数据集相比,ForgeryNet带来了几个独特的优势。、

  1. 原生数据 大多数当前数据集是在受控条件下采集的(例如环境、角度和照明)。我们从四个数据集中收集角度、表情、身份、照明、场景等不同维度的原始数据[7、13、20、45]。
  2. 各种伪造方法 目前所有数据集中最多有8种伪造方法,而ForgeryNet由15种方法操作,包括人脸转移、人脸交换、人脸重现和人脸编辑。我们选择的方法跨越各种基于学习的模型,包括编码器-解码器结构、生成性对抗网络、图形形成和RNN/LSTM(图4)
  3. 多种再渲染过程 在传输和重渲染过程中,媒体数据(图像/视频)经常会进行压缩、模糊等操作,这可能会平滑伪造痕迹,给伪造检测带来更大的挑战。ForgeryNet数据集发布了36个扰动,例如光学失真、乘性噪声、随机压缩、模糊等。如图所示,圆圈大小指具有重新渲染处理操作的伪造方法的数量。

  4. 丰富的注释和全面的任务

2.相关工作

三代数据集:

比较各种人脸伪造数据集。ForgeryNet在规模和多样性方面都超过了任何其他数据集。它同时提供视频和图像级数据。伪造数据由4类15种操作方法构成。我们还采用了来自4种畸变的36种扰动进行后处理。

第一代伪造数据集包括 DFTIMIT[36]、UADFV[60]、SwapMe和FaceSwap[64]等数据集组成。DF-TIMIT从公开的VidTIMIT数据库中手动选择16对相貌相似的人,并生成640个面部互换的视频。UADFV包含98个视频,即49个来自YouTube的真实视频和49个由FakeAPP生成的假视频[3]。SwapMe和FaceSwap选择了两款人脸交换应用程序[1,2],在1005张原始真实图像上创建2010年伪造图像。

第二代包括Google DeepFake检测数据集[4],其中有3068个伪造视频,采用了五种公开的操纵方法;Celeb DF[39]中有590个YouTube真实视频,大部分来自名人,5639个操纵视频剪辑。FaceForensics++[52]由四种方法(即DeepFakes、Face2Face、FaceSwap和NeuralTexture)操纵的4000个假视频和来自YouTube的1000个真实视频组成。第二代的数据规模和质量得到了改进。然而,这些数据集在伪造方法和任务注释方面仍然缺乏多样性,并且不适合于现实世界中遇到的挑战。

第三代数据集是最新的人脸伪造数据集,即DeeperForensics-1.0[33]、DFDC[18]和DFFD[14],其中包含数万个视频和数千万帧。DeeperForensics-1.0包含60000个视频,用于真实世界的人脸伪造检测。DFDC包含来自960名付费演员的100000多个剪辑,使用多种面部替换伪造方法制作,包括可学习和不可学习的方法。在实际应用中,除了分类之外,还需要定位图像或未剪辑视频中的操纵区域或片段。一些数据集已将这些任务考虑在内。DFFD第一次提供了空间伪造的注释,但它只提供了没有操作密度的二进制掩码。

3.ForgeryNet 构建

3.1原始数据的来源

选择CREMAD[7]、Ravdss[45]、VoxCeleb2[13]和AVSpeech[20]四个人脸数据集作为原始数据,以增强人脸身份、角度、表情、场景等维度的多样性。这些原始数据的分辨率范围为240p至1080p,面偏航角范围为−90到90度都被覆盖了。

代表性示例:预处理原始数据,将原始视频裁剪成具有合理长度的可控源视频集。然后,我们检测并选择要操纵的人脸,并获取其人脸属性标签。

3.2伪造方法

3.2.1 伪造类别

a.基于身份的伪造方法:1)人脸再现,2)人脸编辑。
b.身份替代伪造方法:1)面部转移,2)面部交换,3)面部堆叠操纵。

3.2.2 伪造管道(Forgery Pipeline)

尽管为上述方法设计了各种各样的架构,但大多数架构都是使用生成网络、编码器网络或图形形成的变体或组合创建的。

a.你想要伪造的目标 b.条件目标源:包括图片视频简笔解析掩码噪声标签 c.他们的中间表示形式 d.伪造模型 e-f.将其重新渲染为完整图像,并获取伪造图像 g.将It重新渲染为完整图像,并获取伪造图像

扰动(Perturbation)是为了更好地反映真实世界的数据分布,我们对伪造数据应用了36种类型的扰动。我们遵循视觉质量评估中的常见做法[54],对压缩、传输、捕获、颜色等进行失真。

3.3 ForgeryNet 注释

在四项任务上都进行了注释

在图像伪造分类任务中,注释了包括双向(真/假)、三向(真/替换了身份(identify replaced)的伪造方法/不替换身份的伪造方法)和N向(真和15种伪造方法)分类。

这些注释可以用来发掘出不同伪造方法之间的联系。

在空间伪造定位工作中

(a)真实图像,(b)伪造图像,(c)相应空间注释的示例。

标记了伪造图像和真实图像的区别位置

视频伪造分类以及时间伪造定位

时间伪造定位为该数据集新提出的任务。每个视频伪造数据集将真实帧和操纵帧拼接在一起。与图像伪造一样,视频伪造分类也包含三种类型的类注释。并提供了未剪辑伪造视频中操纵片段位置的注释。

4.ForgeryNet 设置

图像和视频水平集被分成训练、验证和测试子集,比例接近7:1:2。两组伪造数据的分布和分类如图6所示。每个子集中的伪造数据具有与对应的真实子集匹配的身份。每个子集中的真实与虚假比率接近1:1。

4章节以下内容介绍了ForgeryNet使用各个伪造辨别模型在自己数据集上的准确率(Acc)以及可靠性指标(AUC),便于查阅

因为懒就不继续读了

ForgeryNet 数据集论文个人阅读相关推荐

  1. 2016~2022 文字生成图像 Text to image(T2I)论文整理 阅读路线和阅读指南

    2016~2021 文字生成图像 Text to image(T2I)论文汇总 阅读路线和阅读指南 综述类 部分最新重要研究成果 发展与往年经典模型 综述类 1.Adversarial Text-to ...

  2. 【STARK论文翻译阅读】

    STARK:Learning Spatio-Temporal Transformer for Visual Tracking论文翻译阅读 简介 1.引言 2.相关工作 2.1 transformer在 ...

  3. A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记

    A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记 //2022.1.7 日下午16:00开始阅读 双阶段检测器示意图 单阶段检测器 ...

  4. 手把手带你掌握计算机视觉原始论文细节阅读

    人工智能研究在本质上是学术性的,在你能够获得人工智能的某些细节之前,需要掌握大量的跨各类学科的知识. 那么,阅读原始论文在学习的过程中有多重要? 原始论文细节阅读是互联网大厂人工智能岗位面试必考题,也 ...

  5. 【每周CV论文推荐】初学基于GAN的三维图像生成有哪些经典论文需要阅读

    欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 当前二维图像生成领域的发展已经非常成熟,但是 ...

  6. 糖尿病预测模型-Pima印第安人数据集-论文_企业科研

    糖尿病概述 糖尿病有一型和二型,是由于胰腺分泌胰岛素紊乱或人体无法有效利用其产生的胰岛素而发生的一种慢性疾病,是21世纪人类面临的健康问题之一.糖尿病伴有弥漫性并发症,其包括心血管病变.肾脏疾病.高血 ...

  7. AVA数据集论文1705.08421部分翻译

    AVA数据集论文1705.08421部分翻译 0 Abstract 1 Introduction 3 Data Collection 3.1 Action vocabulary generation ...

  8. exdark数据集论文阅读笔记

    文章采集了一个低光条件下拍摄的包含各种光照条件标注以及目标检测标注的图像数据集,并对低光条件对目标检测的影响进行了一定的探究实验. coco中包含不足2%的低光照图片 SID的图片使用了raw dat ...

  9. 博士学位论文 | 机器阅读理解与文本问答技术研究

    作者丨胡明昊 学校丨国防科技大学博士生 研究方向丨机器阅读理解 引言 文本问答是自然语言处理中的一个重要领域,随着一系列大规模高质量数据集的发布和深度学习技术的快速发展,文本问答技术在近年来引起了学术 ...

最新文章

  1. 如何在Linux下使用Gitblit工具创建Git仓库服务
  2. 开机后将sim/uim卡上的联系人写入数据库
  3. 分布式锁三种实现方式(DB,redis,zookeeper)比较
  4. java 获取操作系统临时目录_获取当前操作系统的临时目录对象或者地址
  5. 微型计算机技术第三版第三章答案,第3章微机组装技术作业(答案)
  6. java实时记录在线人数
  7. 启动tomcat时 一闪而过解决方法
  8. Python Matplotlib.plot Update image Questions
  9. 2021年考计算机考研三战,2021考研的小伙伴有3条忠告一定要记得,这些都是历年实战经验...
  10. IT企业是如何选择容器管理平台的
  11. MySQL-----改
  12. java 防止sql注入_Java中SQL注入以及如何轻松防止它
  13. POJ1185炮兵阵地(状态压缩 + dp)
  14. 基于AMPL的tsp旅行商问题
  15. Linux安装网易云音乐
  16. 今日头条 mysql_今日头条这么牛逼,用了什么技术?
  17. 5python 体脂率计算(优化版)
  18. word文字上下间距怎么调_word上下文字间距 word字体上下间距怎么调整
  19. 偏差-方差分解bias-variance decomposition
  20. Java学习实战教程之mysql优化

热门文章

  1. 逻辑窃贼题_如何阻止窃贼闯入您的房屋
  2. ElasticSearch~ES文档操作~对文档的增删改查
  3. Q10:Java中输出如下直角图形
  4. HOUDINI L-SYSTEM
  5. Arduino使用MLX90614 非接触式红外测温传感器
  6. JVM调优之JConsole和JVisualVM工具使用
  7. ElasticSearch教程——Java进行高亮显示
  8. 《CCNP ROUTE 300-101学习指南》——1.4节路由和TCP/IP操作
  9. 《数据不说谎》pdf、mobi、epub、kindle下载
  10. 百度地图画圈搜索功能探索