Detecting Deep-Fake Videos from Appearance and Behavior
Detecting Deep-Fake Videos from Appearance and Behavior
Paper PDF
文章目录
- Introduction
- Generate Deep Fakes
- Detecting Deep Fakes
- Innovation
- Method
- Biometrics Extraction
- Behavior
- Appearance
- Authentication
- Experiment
- Result
- Compare
- Analysis
Introduction
问题背景->普遍方法->现有方法的缺陷->发现线索->针对线索提出合理的方法
这种通过合成技术制造的被叫做deepfakes的视频和音频自出现以来就一直收到了计算机视觉和计算机图形学社区的关注。由于技术的不断进步,制造特定人物的伪造视频和音频已经变得普遍和大众化。这使得社会身份认证面临着巨大的挑战。
Generate Deep Fakes
deepfakes通常指的是利用 DeepFake FaceSwap、FS-GAN、Neural Textures、Face2Face、FaceSwaps等技术合成的视频或者音频。其中Deep Fake Face Swap使用GAN将视频中的人脸替换为其他人脸。与FS-GAN、Neural Textures利用学习的方式合成伪造不同,Face2Face和FaceSwaps则利用传统的计算机图形学的技术来实现表情迁移。
Detecting Deep Fakes
现有的deepfakes检测技术可以大致分为两类:
Low-level approaches:
这类技术关注于检测在伪造合成过程种产生的像素级别的artifacts,通常在图像认证方面使用。如通过神经网络学习图像中不同区域metadata(e.g. Focal length, ISO, exposure time …)的不一致性;再如利用GAN网络生成的图像往往具有棋盘状的频率分布图。
这种方式的优点在于可以自动学习真实和伪造物之间的低级别的差异,但检测精度容易受到一些渲染攻击,如压缩、trans-coding、resize等攻击的影响,同时在面对不同的伪造方式使也表现出较差的泛化能力。High-level approaches:
这类技术则更关心高级别的语义信息,通常用于认证图像、音频或视频等。如利用人脸替换区域和整个人脸来预测头部姿势,并通过对比来判断是否伪造;再比如研究者发现伪造视频中人眨眼频率与真实视频相比大幅减小(现部分伪造技术已经纠正);再比如利用语音和口型的一致性来判断视频是否真实。
这类方法由于依赖高维的语义信息,因此对压缩、不同伪造方式具有较强的鲁棒性。但随着伪造技术的不断升级,一些高层语义的一致性也会被逐渐考虑并优化。
本篇论文从Face-swap类型的伪造技术出发,利用deepfakes中的一个根本的缺陷: deepfake中的人并不是真正的那个人来检测视频的真伪。作者观察到,在交换面部的deepfakes中的面部行为仍然是原始个人的面部行为,而面部身份却是不同的个人。因而通过基于面部识别的静态生物特征与基于面部表情和头部运动的时序,行为生物特征相结合。前者利用人脸识别中的标准技术,而后者利用由度量学习目标函数提供支持的卷积神经网络(CNN)来学习行为嵌入。通过将行为和面部身份与一组真实的参考视频进行匹配,匹配身份中的不一致会显示出这种伪造方式。
Innovation
- 基于面部识别的静态生物特征与基于面部表情和头部运动的时序,行为生物特征相结合
- 建立reference database,以特征匹配的方式自动进行特定人物的伪造认证。
Method
总的认证流程如下图所示:
Biometrics Extraction
Behavior
作者使用FAb-Net提取256-D静态人脸表情特性,并以此作为输入来构建视频中人物的时空生物特征。具体地说,首先将一个人说话的t帧视频经过网络化简为特征矩阵X∈R256×tX∈R^{256×t}X∈R256×t,其中每个矩阵列对应于每个帧的FAb-Net特征。以该特征矩阵为输入,通过训练CNN网络来学习一种与身份相关的时空行为的低维映射。即相同身份的行为特征应该尽量近似,而不同身份的行为特征应该差异。由于输出特征采用了正则化,所以采用余弦相似度来计算特征相似度。
这里作者用到了度量学习的办法,通过给hard样本增加权重以此来学习与身份相关性特征。具体可以参考原文。
Appearance
作者利用人脸来表达人物的Appearance属性。借鉴于以往的人脸识别网络,作者使用了16层的VGG网络模型来提取人脸特征。通过帧中人脸特征取平均来获得视频clip的人脸特征。
通过数据集,将视频划分为4s的clips,并通过以上特征提取,建立特定人物的behavior Bi∈R512×miB_i \in R^{512 \times m_i}Bi∈R512×mi 和Appearance Fi∈R4096×miF_i \in R^{4096 \times m_i}Fi∈R4096×mi特征集。其中mim_imi代表数据库中i-th人的视频数量。
Authentication
给定视频片段,通过以上网络提取该视频中人物的behavior特征bbb和Appearance特征fff。并找到与参考数据集中找到人物ifi_fif和人物ibi_bib,使得
if=argmaxi{max(ft⋅Fi)}andib=argmaxi{max(bt⋅Bi)}i_f = argmax_i \{max(f^{t} \cdot F_i) \} \\ and \\ i_b = argmax_i \{max(b^{t} \cdot B_i) \} if=argmaxi{max(ft⋅Fi)}andib=argmaxi{max(bt⋅Bi)}
得到了与之匹配的人物ifi_fif和ibi_bib,则视频的真伪可以通过以下方式进行判定:
- 视频是真实的:if=ibi_f =i_bif=ib 并且 cf>=τfc_f >= \tau_fcf>=τf,其中cf=max(ft⋅Fif)c_f = max(f^{t} \cdot F_{i_f})cf=max(ft⋅Fif),τf\tau_fτf是一个具体的人脸相似度阈值。
- 视频是伪造的:if≠ibi_f \neq i_bif=ib,或者 cf<τfc_f < \tau_fcf<τf。
Experiment
Result
值得注意的是,DFDC-P的准确性非常低。这是因为这个数据集中的许多假视频无法正确的地将所需源人脸映射到目标视频中,具体如下如所示:
作者通过计算视频伪造后的人脸,与源视频中和视频未伪造的人脸进行相似度计算,结果显示,如下图:DFDC-P数据集中伪造后的人脸与视频未伪造的人脸存在较高的相似度,也意味着伪造视频未能成功的进行人脸替换。这使得作者提出的模型在判断这种视频时认为人脸特征与行为特征所映射的人物身份一致,即判定为为真实视频。
Compare
Analysis
- 行为网络确实能够捕捉行为特征,而不仅仅是一个人的面部特征。如下图(a)所示
- 行为网捕捉特定于身份的行为,而不仅仅是与身份无关的行为表达。如下图(b,c)所示
- 为个人构建参考集所需的数据量是较小的。(是否可以提取更加discriminating的行为特征,以只需要一个特征向量作为参考?,类似于人脸识别)
With 2, 30, 50, 100, 1000, and 2000 video clips, the average detection accuracy for identities in the WLDR dataset are 65.4%, 92.2%, 93.2%, 94.0%, 97.3%, and 97.7%, respectively.
- 分类准确率对简单的压缩操作的鲁棒性。
Each testing video clip was recompressed at a lower quality of qp=40 and classified against the original reference set. For the same threshold (τf\tau_fτf= 0.86), the average detection accuracy remains high at 94.5% (WLDR), 98.1% (FF), 93.2% (DFD), 80.9% (DFDC-P), and 93.3% (CDF). These results are almost identical to the high-quality videos
Detecting Deep-Fake Videos from Appearance and Behavior相关推荐
- (八)构建一个Docker容器来训练Deep Fake Autoencoders
目录 我们的Docker容器的结构 编码Dockerfile 定义config.yaml文件 编写task.py文件 编码model.py文件 编码我们的data_utils.py文件 构建Docke ...
- Deepfakes论文总结
Deepfakes论文总结(更新中) 目前的deepfake检测,从检测层级上讲有两类: 一类工作认为,深度伪造检测,应该检测伪造过程中底层的artifact,比如本文中的[5,6,7,8].这类文章 ...
- 视频造假_如何发现“深造假”面部切换视频
视频造假 Recently, Reddit has been making news again with a subreddit in w hich people use a machine lea ...
- 论文中英对照翻译--(Fusing Multiple Deep Features for Face Anti-spoofing)
[开始时间]2018.10.22 [完成时间]2018.10.22 [论文翻译]论文中英对照翻译--(Fusing Multiple Deep Features for Face Anti-spoof ...
- 【学习】Deep Learning for Deepfakes Creation and Detection
论文题目:Deep Learning for Deepfakes Creation and Detection 翻译:基于深度学习的Deepfake创建与检测 作者: Thanh Thi Nguyen ...
- 计算机视觉论文-2021-06-25
本专栏是计算机视觉方向论文收集积累,时间:2021年6月25日,来源:paper digest 欢迎关注原创公众号 [计算机视觉联盟],回复 [西瓜书手推笔记] 可获取我的机器学习纯手推笔记! 直达笔 ...
- AI中Deepfake的部分研究前沿与文献综述
AI中Deepfake的部分研究前沿与文献综述 一.研究现状 二.典型算法: 三.存在问题 四.未来的研究热点 参考文献: 一.研究现状 由于Deepfake其潜在的安全威胁,它已经引起了学术界和工业 ...
- ZAO 背后的深度学习算法原理浅析
ZAO最近火爆,成为现象级产品之一,引起大家的广泛关注,ATA上面已经有同学做了一些说明分析,链接如下: https://www.atatech.org/articles/148375?spm=ata ...
- ICML 2019 Accepted Papers (Title, Author, Abstract, Code) (001-150)
本博客致力于整理出ICML 2019接收的所有论文,包括题目.作者.摘要等重要信息,能够方便广大读者迅速找到自己领域相关的论文. 相关论文代码.附录可参考ICML 2019 #####1-10#### ...
- 2020年 ICLR 国际会议最终接受论文(poster-paper)列表(四)
来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-02-21 2020年的ICLR会议将于今年的4月26日-4月30日在Mil ...
最新文章
- LibSVM学习(三)——LibSVM使用规范
- GDCM:从ELSCINT1读取Wave Information标签的测试程序
- BZOJ 4808: 马(二分图最大点独立集)
- python3学习笔记(2)_list-tuple
- 移动web app开发必备 - zepto事件问题
- attack lab 做不出来_让人念念不忘的香油,到底是怎么做的,我们自己就是做不出来?...
- iOS端Mock GPS定位 —— 测试、开发、玩游戏、发朋友圈等等,你都用得上
- 【层级多标签文本分类】MSML-BERT 模型的层级多标签文本分类方法研究
- android手机定位基站pci的获取,微基站的物理小区号pci确定方法、装置、微基站及宏基站的制作方法...
- 适合WhatsApp网页版的4个最好的免费WhatsApp 群发工具
- 你理解大话西游片尾那句“他好像一条狗”吗?
- GNSS定位中的不同高度概念及计算
- tomcat 官网下载
- 面试运维宝典专栏的小伙伴,互联网老辛来给你送福利了
- WOT 2017会议嘉宾名单提前看!
- 请善待,那些舍得借钱给你们的人!
- 试题 算法训练 翻转旋转变换
- 修改 nginx 的默认端口
- 网络七层结构(讲人话)
- Maven 中文文档
热门文章
- linux装在机械硬盘怎么样,电脑装了固态硬盘还能再装机械硬盘吗
- 计算机读研的收获和遗憾
- 30岁前不必在乎的30件事
- 用aspose转换文档成PDF导致中文变成方框
- 生产计划排产软件三大操作流程
- Strom完整攻略(一)
- Android| failed to connect to /10.0.2.2 (port 80) after 10000ms
- 计算机提示资源管理器停止,windows资源管理器已停止工作,教您提示win资源管理器已停止工作...
- 独立显卡的电脑找不到独立显卡该怎么办
- TO B的百度云新品问世/价格腰斩 智能化DNA能撑起百度野心?