摘要

如今,越来越多的图片在Facebook、Flickr、Foursquare和Instagram等社交网站上在线共享。图像共享不仅发生在一群朋友之间,而且越来越多地发生在用户社交圈之外,用于社交发现。尽管目前的社交网站允许用户改变他们的隐私偏好,但这对于绝大多数网络用户来说往往是一项繁琐的任务,他们在分配和管理隐私设置方面面临困难。当这些隐私设置使用不当时,在线图像共享可能会导致恶意披露和侵犯隐私。因此,在将图像上传到社交网站之前,自动预测图像的隐私以警告用户隐私或敏感内容已成为当前互联世界的必要条件。

在本文中,我们探索了学习模型,以使用仔细识别的图像特定特征自动预测适当图像的隐私为私人或公共。我们研究从卷积神经网络 (CNN) 的各个层派生的深度视觉语义特征,以及从深度 CNN 生成的用户标签和深度标签等文本特征。特别是,我们从四个用于对象识别的预训练 CNN 架构中提取深度(视觉和标签)特征,即 AlexNet、GoogLeNet、VGG-16 和 ResNet,并比较它们在图像隐私预测方面的性能。在所有四个网络中,我们观察到 ResNet 为这项任务产生了最好的特征表示。我们还在我们的隐私数据集上微调了预训练的 CNN 架构,并将它们的性能与在预训练特征上训练的模型进行了比较。结果表明,尽管使用微调网络获得的整体性能与预训练网络相当,但与在预训练特征上训练的模型相比,微调网络为私有类提供了改进的性能。我们在超过三万张图像的 Flickr 数据集上的实验结果表明,在从 ResNet 提取的特征上训练的学习模型在图像隐私预测方面优于最先进的模型。我们使用两种设置进一步研究了从 CNN 架构派生的用户标签和深度标签的组合:(1)标签袋特征上的 SVM; (2) 基于文本的 CNN。我们将这些模型与针对隐私预测获得的 ResNet 视觉特征训练的模型进行比较。我们的结果表明,尽管在视觉特征上训练的模型比在标签特征上训练的模型表现更好,但深度视觉特征与图像标签的组合显示出对单个特征集的性能改进。我们在实验中使用的代码、功能和数据集可在 https://github.com/ashwinitonge/deepprivate.git 获得。

1.介绍

通过Face book、Flickr和Instagram等社交网站进行的在线图像共享正在上升,私人或敏感图像的共享也在上升,当这些平台使用不适当的隐私设置时,这可能会对用户的隐私造成潜在威胁。许多用户很快就分享了自己、家人和朋友的私人图像,而没有仔细考虑不必要的披露和隐私侵犯的后果[Ah ern等人,2007年;Zerr等人,2012b]。例如,现在在鸡尾酒会上拍照并毫不犹豫地在社交网站上分享是很常见的。智能手机可以在任何时候与世界各地的人共享照片。这些照片可能会揭示用户的个人和社会习惯,并可能会损害照片所有者的利益。

Gross 和 Acquisti [2005] 分析了 4,000 多名卡内基梅隆大学学生的 Facebook 个人资料,并概述了对隐私的潜在威胁。作者发现,用户经常在社交网站上慷慨地提供个人信息,但他们很少更改默认隐私设置,这可能会危及他们的隐私。在一项平行研究中,Lipford 等人 [2008]表明,虽然目前的社交网站允许用户改变他们的隐私偏好,但绝大多数网络用户在分配和管理隐私设置方面面临困难。有趣的是,Orekondy 等人 [2017]研究表明,即使用户更改隐私设置以符合个人隐私偏好,他们也经常误判图像中的隐私信息,从而无法强制执行自己的隐私偏好。毫不奇怪,如今的雇主经常使用社交网络对其未来员工进行背景调查,并且大约 8% 的公司已经解雇了员工,因为他们在适当的社交媒体内容中存在 [Waters 和 Ackerman 2011]。皮尤研究中心进行的一项研究报告称,11% 的社交网络用户对发布的内容感到遗憾 [Madden 2012]。 Facebook 的 AI 研究主任 Yann LeCun [2017] 敦促开发数字助理,在令人尴尬的照片在社交网络上与所有人分享之前警告人们注意私人或敏感内容。

从图像中识别私人或敏感内容本身就很困难,因为图像的隐私取决于所有者的个性特征和他们对隐私的意识水平。尽管如此,图像的隐私并不是纯粹主观的,而是普遍存在的隐私模式。例如,考虑图1中所示的图像,这些图片是由Zrr等人[2012b,A]进行的一项研究中手动注释和始终被多个注释者评定的私有和公开的图像。请注意,人们的出现通常指向私人图像,尽管这并不总是正确的。例如,一个乐队在音乐会上的形象被认为是公开的。同样,没有人在里面的图像可能是私人的,例如,带有门钥匙、音符、法律文件或某人的艺术的图像被认为是私人的。事实上,Laxton等人[2008]描述了一种“远程复制攻击”,允许对手仅从图像创建物理密钥副本。

研究人员表明,当考虑对大量图像进行分析并研究基于用户标签和图像内容特征(如SIFT(尺度不变特征变换)和RGB(红绿蓝))的二元预测模型时,可以自动识别图像隐私的一般模式[Squiccariniet等人,2014年,2017a;Zerr等人,2012b]。最近,一些研究[Tonge and Caragea 2015、2016、2018;Tran et al.2016]开始探索隐私框架,利用进化神经网络(CNN)的优势进行对象识别,因为直观上,图像中的对象会显著影响图像的隐私(如图1所示)。然而,这些研究仅在小数据集上使用CNN的AlexNet体系结构。到目前为止,已经开发了许多深度CNN架构,并在对象识别方面实现了最先进的性能。这些CNN包括谷歌网 [ Szegedy et al.2014]、VGG-16 [ Simonyan and Zisserman 2014]和ResNet [ He et al.2016a](以及Lexnet [Krizhevsky et al.2012])。为此,在本文中,我们提出了一项广泛的研究,以仔细识别CNN的结构和从这些CNN衍生的特征,这些CNN可以充分预测私有或公共图像的类别。我们的研究是基于这样一个事实,即越来越多的在线用户的隐私被社交和内容共享应用程序所破坏[Zheleva和Getoor,2009]。我们的模型可以帮助用户更好地管理他们参与在线图像共享网站的情况,方法是从图像中识别敏感内容,以便普通用户更容易控制他们通过这些图像共享的个人信息量。

我们的贡献如下:

  • 我们研究了在ImageNet数据集上预先训练的CNN结构的深层视觉语义特征和深层图像标记,并将其与支持向量机(SVM)分类器结合使用,用于图像隐私预测。具体来说,我们从四个成功的(预先训练的)CNN对象识别体系结构中提取深层特征,AlexNet、GoogLeNet、VGG-16和ResNet,并比较它们在隐私预测任务中的性能。通过精心设计的实验,我们发现与其他CNN相比,ResNet产生了最好的隐私预测特征表示。
  • 我们在privacy数据集上微调预先训练好的CNN架构,并使用softmax函数预测图像的隐私。我们将微调后的CNN与基于预训练CNN的特征获得的SVM模型进行了比较,结果表明,尽管微调后的CNN获得的总体性能与SVM模型相当,与基于预训练特征训练的SVM模型相比,微调网络提高了私有类的召回率。
  • 我们表明,ResNet 产生的最佳特征表示优于图像隐私预测的几个基线,这些基线考虑了基于 CNN 的模型和基于 SIFT 和全局 GIST 描述符等传统视觉特征训练的 SVM 模型。
  • 接下来,我们在两种设置中研究从 CNN 派生的用户标签和深度标签的组合:(1)在标签袋特征上使用 SVM; (2) 将文本 CNN [Kim2014] 应用到用户标签和深度标签的组合上,使用 softmax 函数进行隐私预测。 我们将这些模型与从 ResNet(从我们的研究中获得)中提取的最有希望的视觉特征训练的模型进行比较,以进行隐私预测。 我们的结果表明,在视觉特征上训练的模型比在标签特征上训练的模型表现更好。
  • 最后,我们探讨了深度视觉特征与图像标签的结合,并展示了与单个特征集相比在性能上的进一步改进。

论文的其余部分组织如下。我们在第2节中总结了前期工作。在第3节中,我们将详细描述problemstatement。第4节描述了从各种CNN获取的用于隐私预测的图像特征,而在第5节中,我们提供了用于评估模型的数据集的详细信息。在第6节中,我们介绍了实验并描述了实验设置和结果。我们在第7节中完成了分析,在这里我们简要讨论了我们的主要发现、我们工作的有趣应用、未来方向,并总结了本文。

2.相关工作

社交网络中新出现的隐私侵权行为已经开始吸引众多研究人员进入这一领域[Zheleva和Getoor,2009]。研究人员还向公众提供了与在线共享图像相关的隐私风险意识[Henne等人,2013年;Xu等人,2015年]。按照这一思路,开展了几项研究工作,以研究用户在社交网络中的首要问题、关于共享资源的隐私决定以及与之相关的风险[Ghazinour等人2013年;Gross and Acquisti 2005年;Ilia等人2015年;Krishnamurthy and Wills2008年;Parra Arnau等人2014年;Parra Arnau等人2012年;Simpson2008年]。

此外,一些关于隐私分析的著作研究了移动和在线照片共享中的隐私决定和考虑因素[Ahern等人,2007年;Besmer和Lipford,2009年;Gross和Acquistic2005年;Jones和O'Neill,2011年]。例如,Ahern等人[2007]探讨了隐私的关键方面,如用户对隐私决策的考虑、基于内容和上下文的隐私决策模式,以及不同用户如何调整其隐私决策和个人信息披露行为。作者得出结论,应该开发能够支持和影响用户隐私决策过程的应用程序。Jones andO'Neill[2011]强调了隐私相关图像概念的作用。例如,作者确定人们更不愿意分享拍摄社会关系的照片,而不是出于功能目的拍摄的照片;某些设置(如工作、酒吧、音乐会)会导致用户共享较少。Besmer和Lipford[2009]表示,用户希望重新控制其共享内容,但与此同时,他们认为为每个图像配置适当的隐私设置是一种负担。

最近,与我们的工作相关的是自动化图像隐私方法,该方法已在四条研究路线上进行了探索:基于社交组的方法,其中用户档案用于将好友列表划分为多个组或圈,假设来自同一圈子的朋友有相似的隐私偏好;基于位置的方法,其中位置上下文用于控制基于位置的隐私披露;基于标签的方法,其中标签用于隐私设置建议;和基于视觉的方法,其中图像的视觉内容用于隐私预测。

基于社会群体的方法。出现了一些基于社会群体或圈子为在线共享图像提供自动隐私决策的作品 [Bonneau et al.2009a,b; Christinet al.2013;丹尼兹 2009; Fang 和 LeFevre 2010;乔希和张 2009; Kepez 和 Yolum 2016; Klemperer 等人,2012; Mannan andvan Oorschot 2008; Pesce et al.2012; Petkos 等人,2015; Squicciariniet al.2012、2015、2009;沃森等人,2015;袁等人,2017; Zerr et al.2012b]。例如,克里斯汀等人[2013]提出了一种在隐私气泡内与用户共享内容的方法。隐私气泡代表用户的私人领域,并且对内容的访问由气泡创建者提供给气泡内的人。 Bonneau et al.[2009b] 引入了隐私套件的概念,它向用户推荐一组“专家”用户或受信任的朋友已经建立的隐私设置,以便普通用户可以直接接受设置或仅执行较小的修改。 Fang 和 LeFevre [2010] 开发了一个隐私助手来帮助用户向他们的朋友授予权限。该方法将所选朋友的隐私偏好作为输入,然后使用这些标签构建一个分类器,根据他们的个人资料将隐私标签分配给其余(未标记的)朋友。 Danezis [2009] 基于社交圈内产生的信息应保留在该圈内的政策生成隐私设置。沿着这些思路,Adu-Oppong 等人 [2008]通过对用户的朋友列表进行分区形成朋友集群来获得隐私设置。袁等[2017]提出了一种上下文相关和隐私感知的照片共享方法。该方法使用照片的语义和请求者的上下文信息来定义是否在特定上下文中授予对照片的访问权限。这些基于社会群体的方法大多考虑用户的可信度,但忽略了图像内容的敏感性,因此,它们可能没有必要为在线图像提供适当的隐私设置,因为隐私偏好可能会根据图像内容的敏感性而改变。

基于位置的方法。这些方法 [Baokar 2016; Bilo-grevic et al.2016; Choi et al.2017;费舍尔等人,2012;弗洛伊迪格等人,2012;弗里德兰和萨默 2010; Olejnik 等人,2017; Ravichandranet al.2009; Shokri 等人,2011; 2014 年;袁等人,2017; Zhaoet al.2014] 利用地理标签、视觉地标和其他位置上下文来控制基于位置的隐私披露。地理标签可以通过社交标签手动提供,也可以通过具有 GPS 的数码相机或智能手机自动添加位置信息。也可以通过计算机视觉技术从共享图像中识别位置来推断位置。

基于标签的方法。以前在基于标签的访问控制策略和图像隐私预测方面的工作 [Apos-tolova and Demner-Fushman 2009; De Choudhury 等人,2009; Klem-perer 等人,2012;库尔坦和约鲁姆 2018; Mannan 和 van Oorschot 2008; Pesce et al.2012; Ra 等人,2013 年; Squicciarini et al.2012, 2015,2017b; Vyas 等人,2009;杨等人,2009; Zerr et al.2012b] 在将用户标签与访问控制规则联系起来方面取得了初步成功。例如,Squicciarini et al.[2012, 2017b]、Zerr et al.[2012b] 和 Vyas et al.[2009] 探索了使用用户标签进行图像隐私预测的学习模型,并发现用户标签对于预测图像的隐私来说是有用的.此外,Squicciarini 等人 [2015]提出了一个自适应隐私策略预测框架来帮助用户控制对他们共享图像的访问。作者调查了社会背景、图像内容和元数据作为隐私偏好的潜在指标。 Klemperer 等人 [2012]研究了用户注释标签是否有助于更直观地创建和维护访问控制策略。然而,许多在线图像 [Sundaram et al.2012] 的标签稀缺性和用户标签的尺寸妨碍了对图像隐私的准确分析。因此,在我们之前的工作中,[Tonge and Caragea 2015, 2016, 2018; Tongeet al.2018a,b],我们探索了自动图像标记,并表明预测标签与用户标签相结合可以提高整体隐私预测性能。

基于视觉的方法。有几部作品使用了从图像内容中提取的视觉特征,并表明它们对于预测图像的隐私设置具有信息性[Buschek et al.2015;Du faux and Ebrahimi 2008;Hu et al.2016;Kuang et al.2017;Nakashimaet al.2011、2012、2016;Orekondy et al.2018;Shamma and Uddin2014;Squiccarini et al.2014、2017a;Tonge and Caragea 2015、20162018;Tran et al.2016;von Zezschwitz et al.2016;Wu et al.2018;Yu et al.2017a、2018;Yuan et al.2018;Zerr et al.2012b;Zhang et all、 2005年]。例如,Buschek等人[2015]提出了一种使用元数据(位置、时间、镜头细节)和视觉特征(面部、颜色、边缘)为共享图像分配隐私的方法。Zerr等人[2012b]在Flickr图像上提出了隐私感知图像分类和学习分类器。作者在隐私分类任务中考虑了图像标记和视觉特征,如颜色直方图、人脸、边缘方向一致性和尺度不变特征变换(SIFT)。SIFT和GIST是计算机视觉中用于图像分析的最常用的传统特征之一。SIFT[Lowe 2004]检测图像中对象的不同关键点的缩放、旋转和平移,并提取一组视觉特征,这些特征表示为“视觉单词包”GIST[Oliva and Torralba 2001]对图像的全局描述符进行编码,并提取一组感知维度(自然度、开放度、粗糙度、扩展度和粗糙度),这些维度代表场景的主要空间结构。Squiccarini等人[2014,2017a]利用Flickr图像对图像隐私分类进行了深入分析,发现SIFT和图像标签最适合预测用户图像的隐私。

最近,计算机视觉界转向了用于对象检测[Sermanet al.2014,2013]和语义分割[Farabet et al.2013]等任务的环境神经网络(CNN)。CNN已经在ImageNet上获得了用于对象识别的最新结果[Russakovsky等人2015]美国ing监督学习[Krizhevsky等人2012]。鉴于CNNs最近取得的成功,与SIFT和GIST等视觉特征相比,一些研究人员[Kuang等人2017;Tongean和Caragea 2015、2016、2018;Tran等人2016;Yu等人2017a、2018]显示出了有希望的隐私预测结果。Yu等人[2017b]采用CNNS实现了语义图像分割,还学习了对象隐私相关性来识别隐私敏感对象。

使用CNN,一些工作开始探索个性化先验预测模型[Orekondy等人2017;Spyromitros-Xioufiset等人2016;Zhong等人2017]。例如,Spyromitros Xioufiset等人[2016]使用从CNN中提取的特征来提供个性化的图像隐私分类。Zhong等人[2017]提出了在线社交媒体网站中基于aGroup的图像隐私分类个性化模型,该模型学习了一组原型隐私模型(组),并将给定用户与其中一个组相关联。Orekondy等人[2017]定义了一组隐私属性,这些属性首先根据图像内容进行预测,然后结合用户偏好使用这些属性来估计个性化隐私风险。尽管有证据表明个人的共享行为是独特的,Zhong等人[2017]认为,个性化模型通常需要大量的用户数据来学习可靠的模型,并且培训和存储每个用户的模型需要花费时间和空间,同时考虑到用户共享活动和隐私偏好的潜在变化。Orekondy等人[2017]试图通过对用户隐私档案进行聚类,并训练一个分类器,将目标用户映射到其中一个聚类中,以估计个性化隐私得分,从而解决其中的一些限制。但是,用户的隐私配置文件是使用一组属性获取的。其定义基于个人身份信息[McCalister等人,2010年]、1974年《美国隐私法》和官方在线社交网络规则,而不是从社交网站的实际用户那里收集关于敏感内容的意见。因此,敏感内容的定义可能无法满足用户的实际需求,这限制了它们在现实使用场景中的适用性[Li等人,2018]。在此背景下,值得一提的是,CNN还用于另一种隐私相关工作,如多方隐私冲突检测[Zhong等人,2018]和敏感图像内容的自动编校[Orekondy等人,2018]。

使用视觉特征和标签的图像表示是上述隐私预测工作的关键。在本文中,我们旨在通过提取用户的隐私偏好和共享行为来研究CNN的“深层”特征。准确地说,我们的目标是确定一组对图像隐私预测具有最高鉴别能力的“深层”功能,并在社交网站上共享包含私人或敏感内容的图像之前对其进行标记。据我们所知,这是第一个为pri-vacy预测提供各种CNN结构详细分析的研究。我们的一系列综合实验可以为社区提供关于图像隐私预测任务的最佳CNN架构和功能的证据,特别是因为在30000多张图像的大型数据集上获得的结果优于其他复杂方法。

3.问题陈述

我们的目标是在社交网站上共享图像之前准确识别图像中的私人或敏感内容。 准确地说,给定一张图像,我们的目标是学习模型,根据隐私的通用模式将图像分类为两个类别之一:私人或公共。 私人图像属于私人领域(例如,自画像、家人、朋友、某人的家)或包含不会与其他人共享的信息(例如,私人文件)。 公共图像捕获每个人都可以看到的内容,而不会侵犯隐私。 为了实现我们的目标,我们从几个 CNN 中提取了各种特征,并识别出那些对图像隐私预测具有最高判别力的特征。

由于图像的隐私可以通过视觉内容所描述的一个或多个对象和与标签相关联的描述来确定,所以我们考虑视觉特征和图像标签来分析。对于本研究的目的,我们没有考虑关于图像的其他上下文信息(例如,关于图像拥有者或所有者社交网络活动的个人信息,这些信息可能或可能不可用或容易访问),因为我们的目标是仅仅从图像本身的内容来预测图像的私有性。我们的假设是,尽管隐私是一个主观问题,但图像隐私的一般模式是存在的,可以从图像的视觉内容和文本标记中提取出来。

我们将在下一节中描述分析中考虑的特征表示。

4.图像编码

在本节中,我们提供了来自各种CNN(预培训和微调)的视觉内容编码和标签内容编码的详细信息,以仔细识别用于图像隐私预测的信息量最大的特征表示。特别是,我们采用了四种CNN体系结构,AlexNet[Krizhevsky等人2012年]、GoogLeNet[Szegedy等人2014年]、VGG-16[Simonyan and Zisser-man 2014年]和ResNet[He等人2016a]来推导数据集中所有标记为私有或公共的图像的特征。这些体系结构的选择是基于它们在大规模ImageNet对象识别挑战中的良好性能[Russakovsky et al.2015]。我们还利用用于句子分类的基于文本的CNN ar体系结构[Kim 2014],并将itto图像的文本标记应用于隐私预测。

4.1 准备工作:卷积神经网络

CNN是一种由动物视觉皮层组织所激发的前馈人工神经网络。网络中的学习单元称为神经元。这些神经元学习通过自动图像识别将输入数据,即狗的图片转换为相应的标签,即“狗”。CNN的底层由交错卷积和池层组成,顶层由完全连接(fc)层和概率(prob)层组成,概率(prob)层是通过对前一个fc层的输入应用softmax函数获得的,它表示输入图像可用类别的概率分布。当我们通过一个架构提升时,网络获得:(1)较低层特征(色块、线条、角);(2) 中间层特征(由较低层组合而成的纹理);和(3)更高(更深)层特征(通过组合中间层获得的像对象这样的高级图像内容)。由于在线图像可能包含多个对象,所以我们考虑从深层提取的特征,因为它们有助于精确地编码对象。

CNN利用图像数据的2D拓扑,特别是通过卷积层的局部连接,执行权重共享以处理高维输入数据,并可以通过池层处理更多抽象或全局信息。卷积层中的每个单元接收其输入位置L的一个小区域,表示为DRL(x)(又称感受野),并对其应用非线性函数。更准确地说,给定一个输入图像x,负责区域的单元计算σ(W·rl(x)+b),其中分别表示权重矩阵和偏差向量,并且σ是一个非线性函数,例如sigmoid激活或校正线性激活函数。在训练过程中学习,并由卷积层中的所有单元共享。池层中的每个单元从前一个卷积层接收一个小区域,并执行平均或最大池以获得更多抽象特征。在训练期间,CNNSA的队员负责向前传球和向后传球。for ward pass接受输入并生成输出。后向通道采用与输出相关的梯度,并计算与参数和输入相关的梯度,该梯度连续反向传播到之前的层[Jia等人,2014]。

4.2 通过预训练CNN导出的特征

我们描述了一组不同的特征,这些特征来自于在ImageNet数据集的ILSVRC-2012对象分类子集上预先训练的CNN架构,该数据集包含1000个对象类别和1个。200万张图片【Russakovsky等人,2015年】。我们考虑从先前的卷积层生成的CNN的各种完全连接层获得的幂函数,并使用它们来学习符号函数,其符号表示分配给输入IMAX的类(PrimeToRoalPube)。完全连接层的激活捕获感兴趣区域中包含的完整对象。因此,我们使用CNN完全连接层的激活作为特征向量。对于图像编码,我们还使用概率(prob)层,该概率层是通过将SoftMax函数应用于(最后一个)完全连接层的输出而获得的。我们从四个预先训练的CNN中提取特征,如下所示。

AlexNet结构实现了一个八层网络;AlexNet的前五层是卷积的,其余三层是完全连接的。我们从三个完全连接的层(称为fc6-A、fc7-A和fc8-A)和输出层(表示为“prob-A”)中提取特征。fc6-A、fc7-A、fc8-A和prob-A的尺寸分别为409640961000和1000。

GoogleNet体系结构使用Inception体系结构实现了一个22层的深度网络。该体系结构是所有层的组合,其输出滤波器组连接在一起,以便形成下一阶段的输入。我们从最后两层(称为“loss3-G / classifier ”(内积层)和输出层(表示为“prob-G”)提取特征。loss3-G和prob-G的维度为1000。

VGG-16 架构实现了一个 16 层的深度网络;一堆卷积层,感受野非常小:3×3,后面是全连接层。 该架构包含 13 个卷积层和 3 个全连接层。 卷积层的通道数从第一层的 64 开始,然后在每个最大池化层之后增加 2 倍,直到达到 512。 我们将从全连接层提取的特征称为 fc6-V、fc7-V、fc8-V,将输出层称为“prob-V”。 fc6-V、fc7-V、fc8-V、prob-V的尺寸分别为4096、4096、1000、1000。

ResNet(或残差网络)通过引入短路径在非常深的网络范围内携带梯度并允许构建更深的架构来缓解梯度消失问题。 具有恒等映射的残差单元定义为:

式中,xl为输入,xl+1为剩余单位的输出;F是一个残差函数,例如,两个3×3协同进化层的堆栈[He等人,2016a]。残差学习的主要思想是学习关于toXl的加性残差函数F【He等人,2016b】。直观地说,可以通过将剩余函数视为信息易于传播的路径来解释resnet。这解释为resnet学习更复杂的特征表示,这些特征表示与从先前层获得的较浅描述相结合。我们将从完全连接层提取的特征称为fc-R,将输出层称为“prob-R”。fc-R和prob-R的尺寸为1000。使用预训练网络从数据集中提取输入图像的特征,如图2所示。在图中,我们将VGG-16显示为用于说明自然提取的预训练网络。

4.3 微调CNN

对于这种类型的编码,在大型数据集(例如ImageNet数据集)上训练的模型使用较小的数据集(例如,隐私标记的数据集)进行微调。微调网络是一个基于迁移学习概念的过程[Bengio 2012;Donahueet al.2013]。该策略通过在小数据集(即我们场景中的隐私数据集)上继续反向传播来微调预训练网络的权重。这些特征在微调后变得更加特定于数据集,因此不同于从预先训练的CNN获得的特征。我们通过将输出单元从1000(对象类别)更改为2(关于隐私类)(例如,将带有1000个输出单元的fc8更改为带有2个输出单元的fc8-P),修改了所有四种网络体系结构(AlexNet、GoogLeNet、VGG-16和ResNet)的最后完全连接层。我们使用从预先训练的网络中获得的各个层的权重初始化该修改体系结构的所有层的权重。我们通过使用隐私数据迭代网络的所有层来训练网络。我们使用softmax函数来预测图像的隐私性。准确地说,我们使用2个竞争类上的概率分布作为输入图像,该图像是通过在经过改进的最后一个完全连接层(例如VGG-16中的fc8-P)上应用softmax函数获得的,该层为线性调谐网络(见图3,第二个网络,蓝色矩形)。可使用如下所示的softmax函数定义2个竞争类别的条件概率分布:

其中,在我们的例子中,zi分别是修改后的最后一个完全连接层(例如VGG-16的fc8-P层)和Pr和Pu定义为Private和Public类别的输出。使用VGG-16的微调过程如图3所示。

4.4 图像标签(标签袋模型)

隐私预测方面的先前工作 [Squicciarini et al.2014, 2017b;Tonge and Caragea 2015, 2016; Zerr et al.2012b] 发现与图像相关的标签表明它们的敏感内容。标签对于与图像相关的应用程序也至关重要,例如索引、共享、搜索、内容检测和社交发现 [Bischoff]。因为并非所有图像都在社交网站有用户标签或用户标签集非常稀疏 [Sundaram et al.2012],我们使用一种自动技术来根据我们之前的工作 [Tonge andCaragea 2015, 2016] 中描述的视觉内容为图像添加标签。准确地说,我们从预训练的 CNN 中提取的概率分布中预测 topkobject 类别。这些 topkcategories 是图像的深度标签,用于描述图像。例如,我们为图 4 中的图片获取了诸如“Maillot”、“Wig”、“Brassiere”、“Bra”、“Miniskirt”等深度标签(注意图中仅显示了前 5 个深度标签)。请注意,深度标签给出了关于图像的一些描述,但由于 ImageNet 数据集的 1000 个对象类别不包含这些标签,因此仍然不包括一些相关标签,例如“人”和“女人”。社交网站上的图像也提供了有关它们的附加信息通过用户分配的标签。我们将这些标签称为“用户标签”。图 4 中图像的用户标签示例是:“生日派对”、“夜生活”、“人物”等。对于用户标签,我们从用户标签中删除特殊字符和数字,因为它们不提供任何有关方面的信息隐私。

我们结合深度标签和用户标签,并为图像的标签集生成二进制向量表示,说明标签词汇表中标签的存在或不存在。特别是,我们创建一个大小为|V|的向量,其中,对于标签集中的所有标签,我们设置1在词汇表中的标签位置(V),否则设置0。我们将此模型称为 Bag-of-Tags (BoT) 模型,并在图 4 中显示它的图形表示。

4.5 标签CNN

基于CNN的模型在各种NLP任务中取得了优异的结果,如语义分析[Yih等人2014]、搜索查询检索、句子建模[Kalchbrenner等人2014]、句子分类[Kim 2014]和其他传统NLP任务[Collobertet等人2011]。Kim[2014]为句子级分类任务开发了CNN架构。句子包含有助于分类任务的宾语、主语和动词形式的关键词。图像标签只是用来描述动物形象的关键词。因此,对于隐私预测,我们采用CNN架构。事实证明,该架构足以用于句子分类[Kim 2014]。

图 5 所示的 Kim [2014] 的 CNN 架构是 Collobert 等人 [2011] 的 CNN 架构的轻微变体。该架构在从无监督神经语言模型获得的词向量之上包含一层卷积。第一层将词(在我们的例子中为标签)嵌入到词向量中。词向量首先使用由 Leand Mikolov [2014] 给出的在谷歌新闻的 1000 亿个词上训练的词向量进行初始化。预训练单词集中不存在的单词被随机初始化。然后在隐私数据集中的标签上对这些词向量进行微调。下一层使用 3、4 和 5 的多个过滤器大小对嵌入的词向量进行卷积,其中我们使用每个大小的 128 个过滤器并生成标签特征表示。对特征图应用最大池化操作 [Collobert et al.2011] 以获取特征的最大值以捕获每个特征图最重要的特征。这些特征被传递到一个完全连接的 softmax 层以获得概率分布 overprivacy 标签。 Tag CNN 模型的示意图如图 5 所示。

5. 数据集

我们在从PicAlert数据集采集的32000张Flickr图像子集上评估了我们的方法,Zerr等人[2012b,a]提供了该数据集。PicAlert由不同主题的Flickr图像组成,外部观众手动将其标记为PublicPrivate。该数据集包含2010年1月至4月期间上传到Flickr上的照片。这些数据由六个小组进行标记,共有81名10至59岁的用户。其中一个团队包括在研究中心一起工作的计算机科学研究生,而其他团队则包括社交平台的用户。用户被指令认为他们的CAM时代已经拍摄了这些照片,并将其标记为“私人的”、“公众的”或“不可判定的”。选择标签的指导原则是,专有图像属于私人领域(如自画像、家人、朋友、某人的家)或包含不与其他人共享的信息(如私人文档)。重新维护的图像被标记为公共。如果无法做出决定,图像将被标记为不可判定。每个图像都显示给至少两个不同的用户。如果出现分歧,照片将呈现给其他用户。我们只考虑标记为公共或私人的图像。

对于所有的实验,我们的32000个图像数据集分别被分成2700个和5000个图像的训练集和测试集。每个实验以不同的序列/测试分割重复五次(获得五个不同的随机种子),最终结果在五次运行中平均。在列车和测试集中,公共和私人图像的比例均为3:1。

6. 实验、结果和观察

在本节中,我们将进行广泛的实验,评估从各种深层架构中提取的特征,以了解哪种架构可以捕获复杂的隐私特征,并帮助区分隐私类。我们首先在生成模型、集成方法和先验预测判别算法之间选择机器学习分类器。然后,我们使用所选择的分类器来检查从所有四个深层体系结构中提取的视觉特征:AlexNet、GoogLeNet、VGG-16和ResNet,这些深层体系结构对对象数据进行了预训练。我们通过对竞争数据进行微调,进一步研究这些体系结构。接下来,我们将在最高性能特性上训练的模型的性能与最先进的隐私预测模型和基线方法的性能进行比较。此外,我们还展示了通过四个预先训练的网络获得的深度标签的性能,并详细研究了深度标签和用户标签的组合,用于隐私预测。我们在两种设置下展示标签性能:(1)标签袋模型和(2)标签CNN。我们分析了从视觉编码和标签编码中获得的最有前途的特征,用于隐私分类。我们还对隐私预测中最具信息量的标签进行了详细分析。最后,我们展示了在视觉和信息量最大的标签特征融合方面训练的模型的性能。

6.1 基于预训练CNN的特征分类实验

我们首先确定一个分类器,该分类器最适合于从预先训练的CNN中提取的特征。我们使用以下分类算法研究性能:朴素贝叶斯(NB)、随机森林(RF)、逻辑回归(LR)和支持向量机(SVM)。NB是一种生成模型,RF是一种使用决策树的插入码方法,SVM和LR是区分算法。我们使用从所有体系结构的最后一个完全连接层(即AlexNet的fc8-A、GoogLeNet的loss3-G、fc8 Vof VGG-16和ResNet的fc-R)派生的功能来评估这些分类器的性能。图6显示了这些分类器在所有四种体系结构的F1度量方面的性能。从图中,我们注意到,除了NB表现更差之外,几乎所有分类器都表现相似。例如,对于Alexnet,使用NB,我们得到的F1度量值为0。781,而SVM得到的anF1测度为0。我们还可以观察到,一般来说,SVM和LR的性能优于RF。例如,对于ResNet,使用SVM,我们得到的F1度量值为0。872,而对于RF,我们得到的是F1-measureof0。除了ResNet之外,SVM和LR在几乎所有体系结构中的性能都相当。对于ResNet,我们得到了0的F1测度。872和0。865分别使用SVM和LR。支持向量机在LR分类器上的结果对于p值<0.05具有统计学意义。因此,在接下来的所有实验中,我们选择使用从预先训练的CNN中提取的特征的SVM。

为了评估提出的特征,我们使用SVM Weka实现,并在训练集上使用10倍交叉验证选择性能最佳的超参数。我们用C={0.001,0.01,1.0,··,10.0}进行了实验,核:多项式和RBF,RBF中的γ参数,以及多项式的阶数。所有后续表格中显示的超参数均遵循以下格式:“R/P,C,γ/d”,其中“R”表示“RBF”,而“P”表示“多项式”核。

6.2 CNN架构对隐私预测的影响

在本实验中,我们旨在通过研究基于从所有四种架构(AlexNet、GoogLeNet、VGG-16 和 ResNet)中提取的视觉语义特征的隐私预测模型的性能来确定哪种架构最适合隐私预测 ImageNet 的。 我们提取深度视觉特征:(1)来自 AlexNet 的 fc6-A、fc7-A、fc8-A 和“prob-A”,(2)来自 GoogLeNet 的 loss3-G 和“prob-G”,(3)fc6-V, 来自 VGG-16 的 fc7-V、fc8-V 和“prob-V”,以及来自 ResNet 的 (4) fc-R 和“prob-R”。 对于 AlexNet 和 GoogLeNet,我们使用了 CAFFE CNN 开源框架附带的预训练网络 [Jia et al.2014]。 对于 VGG-16,我们使用了 VGG-16 团队在 ILSVRC-2014 竞赛 [Simonyan and Zisserman 2014] 中提出的预训练模型的改进版本。 对于 ResNet,我们使用 He et al.[2016a] 给出的 101 层的 ResNet 预训练模型。

表1显示了根据从所有四个预训练网络中提取的特征训练的支持向量机的性能(精度、F1度量、精度、召回率)。从表中,我们可以观察到,基于从ResNet提取的特征的模型始终具有最佳性能。例如,ResNet实现了F1-measureof0。872与0相比。AlexNet、GoogLeNet和VGG-16分别实现了849,0.861,0.864。这些结果表明,与其他网络相比,深度残差网络具有更高的表征能力,并且对于预测适当的图像隐私等级更为有效。此外,resnets比它们的“普通”对应项要深入得多,后者可以提取各种图像特定的特征,这有助于更好地学习图像的隐私特征。由于privacy涉及理解图像中存在的对象之间的复杂关系,因此从ResNet获得的特征比简单叠加卷积层获得的特征更为充分。在表1中,我们还显示了特定于类的隐私预测性能,以确定哪些功能可以有效地对私有类进行特征化,因为在Web上与每个人共享私有图像是不可取的。有趣的是,我们发现基于从ResNet获得的特征训练的模型为私有类提供了改进的F1度量、精度和召回率。确切地说,私有类的F1度量从0改进为0。661(对于AlexNet)到0。717(对于ResNet),产生6%的改进。类似地,在精确度和召回率方面,我们使用ResNet特性比AlexNet特性分别提高了4%和7%。

从表 1 中,我们还注意到每个网络获得的整体最佳性能(以橙色和蓝色显示)在所有比较度量(整体 - 准确率、F1 度量、准确率和召回率)方面高于 ≈85%。请注意,将每个图像分类为“公共”的幼稚基线获得了 75% 的准确度。此外,通过分析 VGG-16 特征获得的结果,我们注意到随着我们将 VGG-16 网络的全连接层从 fc6-V 提升到 fc8-V,F1-measure 从 0.837 提高到 0.864(见表 1 )。同样,对于 AlexNet,F1 度量从 0.82(对于 fc6-A)提高到 0.849(对于 fc8-A)。这表明通过最后一个全连接层获得的高级对象解释有助于获得更好的隐私特征。此外,值得注意的是,“概率”特征的性能比从全连接层(在所有架构上)提取的特征更差。例如,prob-G 的 F1-measure 为 0.815,而 loss3-G 的 F1-measure 为 0.861。一个可能的解释是,通过 softmax 函数压缩前一层的值(例如,GoogleNet 中的 loss3-G),产生“prob”层,产生的非线性与未转换的 SVM 相比,对 SVM 的用处不大价值观。我们还对特征组合进行了实验,例如 fc7-A 与 fc8-A 连接,但我们没有获得比单个特征(fc7-A 和 fc8-A)的显着改进。

我们还通过显示图7中1度量的方框图来分析性能,图7是针对所有体系结构中最有希望的特性在数据集的五个随机拆分中获得的。该图表明,基于ResNet功能训练的模型在统计上明显优于基于其他体系结构派生的特性训练的模型。我们使用图8中给出的精度重新校准曲线,进一步比较通过所有架构导出的特性。曲线再次表明,从ResNet获得的功能比从其他架构获得的功能性能更好,召回范围为0。5比0。例如,对于0的召回。我们实现了0的精度。75,0.8,0.8和0。85分别适用于AlexNet、GoogLeNet、VGG-16和ResNet。

6.3 微调网络与预训练网络

之前的工作表明,从对象数据集上预先训练的网络到隐私数据的特征实现了良好的性能[Tran等人,2016]。此外,许多其他研究使用“迁移学习”来获得更多数据集特有的特征[Ben gio 2012;Donahue等人,2013]。因此,我们在隐私数据集上确定微调网络的性能。我们将所有四种结构的微调网络与从预先训练的网络中获得的深层特征进行比较。我们将AlexNet、GoogLeNet、VGG-16和ResNet的微调网络分别称为“ft-A”、“ft-G”、“ft-V”和“ft-R”。对于微调,我们使用了在对象数据集上预先训练的sameCNN体系结构,并在以前的实验中使用。为了微调网络,我们试验了三种类型的设置:(1)微调最后一个完全连接的层(有两个输出单元对应2个竞争级别),与网络其余层(0.001vs.0.0001)的学习率相比,学习率更高,称为“fc”(2) 使用较高的学习率微调网络中所有完全连接的层,使用较小的学习率学习卷积层。我们将此设置称为“fc all”(3) 以相同的学习速率微调所有层,并表示为“全部”请注意,由于ResNet和GoogLeNet只有一个完全连接的层,因此我们只报告使用“fc”和“all”设置获得的性能。极低的学习率避免了预训练层的实质性学习。换句话说,由于极低的学习率(0.0001),与学习率较高(0.001)的层相比,预先训练的层学习速度非常慢,以获得隐私数据所需的权重。

表 2 显示了通过对隐私数据进行微调架构获得的模型与基于预训练网络派生的特征训练的模型的性能比较。我们注意到,与在源自预训练架构的特征上训练的模型相比,在我们的隐私数据集上微调预训练模型时,我们得到的结果大多相似。但是,当我们微调时,我们对私有类的召回率有所提高隐私数据集上的网络。例如,经过微调的 VGG-16 网络在调用私有类(参见 ft-V, fc-all setting vs. fc8-V)上比在从预训练中提取的特征上训练的模型提高了 6.7%。训练有素的 VGG-16。在预训练特征上微调 CNN 后实现更好性能的性能度量以斜体和橙色显示每个网络。我们注意到微调后的 VGG 为 F1 测量和私有类的召回提供了最佳性能(以粗体和蓝色显示)。然而,在从预训练的 ResNet 派生的特征上训练的模型产生了最佳的整体性能(以粗体和蓝色显示)。因此,我们将在下一小节中将在 fc-R 特征上训练的模型与先前的隐私预测方法进行比较。

6.4 基于ResNet功能的模型 VS 先前工作

我们将最新的先验预测成果(详见下文)与使用Resnet功能(即fc-R)训练的模型进行比较。

1.PCNH隐私框架【Tran等人,2016】:该框架结合了从两种架构中获得的特征:一种架构提取卷积特征(大小=24,称为卷积CNN),另一种架构提取对象特征(大小=24,称为对象CNN)。卷积CNN分别包含两个卷积层和三个大小为51252,24的完全连接层。另一方面,对象CNN是AlexNet体系结构的扩展,在AlexNet最后一个完全连接的层的末端附加三个完全连接的层Size51252和24,并形成一个11层的深度网络。两个CNN在输出层连接。PCNH框架首先在ImageNet数据集上进行训练,然后在一个小的privacydataset上进行微调。

2.AlexNet功能【Tonge and Caragea 2015、2016、2018】:我们将根据AlexNet最后一个完全连接层(即fc8-A)提取的功能训练的模型视为另一个基线,因为在我们之前的工作中,我们使用这些功能进行隐私预测,取得了良好的性能。3、SIFT和GIST [ ScCiCuraLi等人,2014年,2017A;Zrr等人2012B]:我们还考虑SIFT、GIST和它们的组合作为我们基线的最佳执行特征的分类器。我们之所以选择这些特征,是因为它们的性能优于之前作品中的其他视觉特征,如颜色、图案和边缘方向[Squicciarini等人2014;Zerr等人2012b]。对于SIFT,我们为我们的实验构建了128个视觉单词的词汇表。我们尝试了不同数量的视觉单词,如500、1000等,但与128个视觉单词相比,我们没有得到显著的改善。对于给定的图像,GIST的计算方法是首先用32个Gabor滤波器在4个尺度和8个方向上卷积图像,从而生成32个特征图;第二步,将特征映射划分为4×4网格,并平均每个单元的特征值;第三,将32个特征映射的16个平均值串联起来,得到512(16×32)长的特征向量。

3.基于规则的分类器:我们还比较了在ResNet features fc-R上训练的模型与两个基于规则的分类器的性能,这两个分类器预测图像是否包含人物。否则,图像被分类为公共。对于第一个基于规则的分类,我们使用Viola-Jonesalgorithm[Viola and Jones 2001]检测正面和侧面人脸。对于第二个规则为基础的分类,我们考虑用户标签,如“女人”,“男人”,“人”。请注意,这些标签不存在于ImageNet数据集的1000个类别的theILSVRC-2012子集中,因此,我们仅限于用户标签。如果一个图像包含这些标签中的一个或检测到SA的脸,我们认为它是“私有的”,否则是“公共的”。

表 3 比较了在 fc-R 特征(从我们之前的实验中获得的最高性能特征)上训练的模型的性能与之前工作获得的性能。 从表中可以看出,从预训练的 ResNet 中提取的深层特征实现了最高的性能,因此,能够比先前的工作更好地学习关于这两个类的隐私特征。 准确地说,使用 fc-R 特征,F1-measure 从 PCNH 框架获得的 0.824 提高到了 fc-R 特征获得的 0.872,提供了 5% 的整体改进。 此外,对于私有类,fc-R 特征在 F1-measure 中比更复杂的 PCNH 框架(从 0.624,PCNH 到 0.717,fc-R 特征)提高了 9.8%。

一种可能的解释是,PCNHframework的对象CNN是通过向AlexNet体系结构添加更多完全连接的层而形成的,而复杂非线性层(完全连接的层)数量的增加引入了更多需要学习的参数。同时,使用相对较少的训练数据(PicAlert vs.ImageNet),对象CNN模型更适合。另一方面,由于图像的隐私很大程度上依赖于图像中的对象,我们认为,与添加更多非线性层(如PCNH)相比,通过卷积层获得的控制对象不同属性(例如,游泳衣与短裤的边缘)的低级特征可以更好地近似隐私函数。结果表明,与具有更多完全连接层(即PCNH)的网络相比,具有更多卷积层(即Resnet)的网络实现了更好的性能。此外,尽管PCNH试图使用卷积CNN捕捉卷积特征,但CNN(卷积和目标)的识别能力各不相同,因此很难实现卷积CNN和目标CNN的最佳统一。此外,PCHIS需要首先在ImageNet上进行训练,然后在Picalert数据集上进行微调。将PCNH等深度网络训练两次可显著提高处理能力和时间。另一方面,通过我们的实验,我们发现从最先进的ResNet模型中提取的特征可以减少再训练的开销,并获得更好的隐私预测性能。

如前所述,在ResNet特性上训练的模型的性能优于在AlexNet特性上训练的模型。有趣的是,所有基线中表现最好的对应于从AlexNet体系结构中提取的深层特征上训练的SVM。例如,支持向量机在AlexNet特征(fc8-A)yieldsan F1测度为0的情况下进行训练。849与F1的0相比较。824通过PCNH框架实现。我们假设这是由于模型的复杂性和用于训练PCNH框架的隐私数据集的小规模。例如,合并深度、宽度和优化算法不同的两个CNN(如PCNH)可能会变得非常复杂,因此框架可能具有更多的局部极小值,这可能不会产生最好的结果。此外,与Tran等人[2016]在评估中使用800Images不同,我们在一组包含大量图像主题的大型图像(32000)上评估模型。这些功能源自最先进的AlexNet的各个层,减少了训练复杂结构的开销,并且仍然实现了隐私预测的良好性能。

另一个值得注意的有趣方面是,尽管我们较早地展示了微调网络(在本例中为VGG-16)没有显示出比ResNet预培训功能(见表2)有显著改进,但与PCNH框架相比,我们的微调方法产生了更好的结果。例如,微调VGG-16(ft-V)的F1度量值为0。869而PCNH的F1测量值为0。824(见表2和表3)。可能的原因是我们使用更大的隐私数据集来微调simplerarchitecture,而不像PCNH合并了两个卷积神经网络。此外,我们对Simonyan和Zisserman[2014]提出的最先进的VGG-16模型进行了微调,与toPCNH相反,toPCNH需要估计最佳网络参数以在ImageNet数据集上训练合并架构。

正如预期的那样,我们可以从表3中看到,基于SIFT/GIST的基线模型和基于规则的模型是性能最低的模型。例如,基于fc-R的模型在性能上比SIFT/GIST模型提高了17%。通过配对T检验,与先前的F1测量方法相比,p值<0.05的改善具有统计学意义。有趣的是,基于面部特征的规则显示出比SIFT和GIST更好的性能,并表明代表人物的特征有助于预测私人图像。但是,fc-R功能在所有度量方面都比基于面部特征的规则模型的性能好10%以上。

我们进一步分析了fc-R特征,并通过图9(a)所示的精确召回曲线将其性能与之前的工作进行了比较。从图中可以看出,经过SVM训练的onResNet特征的精度为≈0.8用于召回值高达0的情况。8之后,精度稳步下降。

以前的实验中显示的性能度量是使用分类阈值0.5计算的为了查看不同分类阈值的性能度量是如何变化的,我们绘制了阈值曲线,并在图9(b)中显示了这一点。从图中可以看出,精度从≈0.68至≈0.97,以分类阈值的较慢速率。召回率慢慢降低到0。8的阈值为≈0.4,F1测量值在≈0.75. 掌握≈0.4,我们获得了相同的精度和召回率≈0.78,对应于盈亏平衡点。在图中,我们还显示了误报率和误报率,因此根据用户的需要(高精度或高召回率),分类器可以在所需的阈值下运行。此外,为了减少在Web上与每个人共享的内容敏感图像的数量,需要更低的误报率(FN)。从图9(b)中,我们可以看到,我们在以下情况下实现了较低的FN率≈0.4适用于高达0.8的阈值。

6.5 表现最佳的视觉特征与标签特征

图像标签为具有隐私意识的图像检索提供了相关线索[Zerr et al.2012b],并且可以成为在不暴露敏感细节的情况下显示深层网络的隐藏内容的重要工具。此外,以前的工作表明用户标签表现得更好或与视觉特征相提并论 [Squicciarini et al.2014;Tonge and Caragea 2015, 2016, 2018; Zerr et al.2012b]。例如,在我们之前的工作 [Tonge and Caragea 2015, 2016, 2018] 中,我们展示了来自 AlexNet 的用户标签和深度标签的组合与基于 AlexNet 的视觉特征的性能相当。因此,在本实验中,我们比较了 fc-R 特征与标签特征的性能。对于深度标签,我们采用与之前的工作 [Tonge and Caragea 2015,2016, 2018] 相同的方法,并考虑 topk=10 对象标签 sincek=10 效果最佳。 “DT-A”、“DT-G”、“DT-V”和“DT-R”分别表示由 AlexNet、GoogLeNet、VGG-16 和 ResNet 生成的深度标签。深度标签是使用通过在各个 CNN 的最后一个全连接层上应用 softmax 函数获得的输入图像的 1,000 个对象类别的概率分布生成的。

表 4 比较了使用在 fc-R 特征上训练的模型与在标签特征上训练的模型的性能。我们将标签特征视为:(1)用户标签(UT); (2)从所有架构中获得的深度标签(DT); (3) 使用 Bag-of-Tags(BoT) 模型结合用户标签和表现最好的深度标签特征; (4)标签CNN应用于用户标签和深度标签的组合。从表中可以看出,从 ResNet 中提取的视觉特征独立地以及它们的组合都优于用户标签和深度标签。在 fc-R 特征上训练的模型比在用户标签和深度标签组合上训练的 CNN(Tag CNN)提高了 2%。此外,在 fc-R 特征上训练的模型在 F1-measure 上比单独的用户标签提高了 9.5%,比表现最好的深度标签,即 DT-R(在四个深度标签中)提高了 4%。架构)。

从表 4 中,我们还观察到 Tag CNN 的性能优于 Bag-of-Tags 模型(DT-R+UT),在私有类的 F1-measure 中提高了 3.0%。此外,尽管视觉特征 (fc-R) 总体上比标签特征产生更好的性能,但对于私有类,视觉特征 (fc-R) 的 F1-measure (0.717) 与 F1-measure (0.706) 相当的标签 CNN。有趣的是,Visual CNN (fc-R) 的精度(私有类)比标签 CNN 提高了 8%,而标签 CNN 的召回率(私有类)比视觉 CNN 提高了 5%。

为了了解不同召回值的精度如何变化,我们还在图 10 中显示了视觉和标签特征的精度-召回曲线。为了避免混乱,我们展示了通过 ResNet 以及用户标签和深度标签的组合派生的深度标签的精度-召回曲线( DT-R) 使用 BoT 模型。从曲线中,我们可以看到 ResNet 视觉特征比标签特征表现更好,召回值范围很广,从 0.3 到 0.8。

我们通过检查获得的隐私预测进一步分析了图像编码的类型(视觉和标签)使用这两种编码的轶事示例。

6.5.1必要示例:为了了解通过视觉和标签特征获得的预测的质量,我们展示了通过这两种特征获得的一些样本的privacypredictions。图11显示了使用视觉特征训练的SVM模型以及用户标签和深度标签组合训练的SVM模型得到的预测。正确的预测以斜体和绿色显示。我们可以看到,对于图像(a)和(b),根据图像标记(UT+DT)和视觉特征训练的模型提供了正确的预测。诸如“新郎”、“新娘”、“婚礼”、“摄影”等标签充分描述了图片(a),因此,使用这些标签可以获得适当的预测。类似地,视觉特征识别所需的对象以及对象之间的关系,并为这些图像提供准确的预测。现在考虑例子(c)和(d)。对于这些图像,视觉特征捕获所需对象以进行准确预测,而图像(c)中的“bruins”、“fight”和图像(d)中的“cute”、“wool”、“bonnet”等图像标签无法提供有关图像的充分信息,因此产生了错误的预测。然而,图像(c)中的“曲棍球”、“运动”和图像(d)中的“玩具”、“娃娃”等标记有助于做出适当的预测。我们还展示了一些例子,(e)和(f),其中视觉特征无法预测正确的隐私等级。特别是,对于图像(f),我们注意到视觉特征捕获了将图像标识为私有的对象信息。另一方面,诸如“festival”和“sport”(描述场景)之类的图像标签提供附加信息(在对象信息之上),帮助基于标签的分类器将图片识别为公共图片。

接下来,我们提供关于隐私的图像标签的详细分析。

6.5.2 与隐私类相关的图像标签分析:我们提供对深度标签(捕获图像的视觉内容)和用户标签的分析,以了解它们与私有和公共类的相关性。首先,我们根据用户标签和深度标签在训练集上的信息增益对它们进行排名。表 5 显示了具有高信息增益的前 50 个标签。从表中,我们观察到“maillot”、“two-piece”、“sandbar”等标签与隐私类别具有高度相关性。我们还注意到,深度标签(对象)在前 50 个信息量很大的标签中占有重要地位。其次,我们根据它们在公共和私人类中的频率对标签(用户和深度标签)进行排名。我们在图 12 中使用词云显示了每个隐私类别的 50 个最常见的标签。词大小越大的标签描绘的标签频率越高。我们注意到诸如“室内”、“人物”、“肖像”之类的标签在私有类中出现的频率更高,而诸如“户外”、“湖畔”、“喷泉”之类的标签在公共类中出现的频率更高。

我们还观察到一些信息标签在公共云和私有云中重叠(参见图12,例如“室内”)。所以,我们需要分析和重叠标签同时出现的其他标签,以进一步区分它们和公共类和私有类的关联。为了检查重叠标记,我们创建了两个关于公共类和私有类的图。对于公共图,我们将每个标记视为图中的一个节点,如果两个标记属于同一个公共图像,则在两个节点之间绘制一条边。同样,我们使用私有图像构造另一个图。图13显示了“室内”标签的公共和私有图形的部分。为了降低可视化的复杂性,我们只显示具有强边的节点,这些节点的共生度大于某个阈值。请注意,更强的边(具有更高宽度的边)表示两个节点(在我们的示例中为标记)之间的高共现系数。从图中,我们观察到重叠标签“室内”对于公共和私人类具有不同的高度共现标签。例如,“室内”标记与私有图中的“人员”、“浴室”、“外套”、“领结”、“胸罩”(描述私有类的标记)等标记高度共现。另一方面,在公共图中,标记与“灰尘”、“灯光”、“手帕”、“面包店”、“橡胶”等(描述公共类的标记)高度共生。尽管图中的一些标记的共现率相对较低,但私有图中出现的标记倾向于与私有类关联,而公共图中的标记更倾向于公共类。

我们进一步分析了10大私人和公共形象主题的隐私差异。我们考虑“户外”、“室内”、“喷泉”、“湖岸”和“海岸”等公共场所。另一方面,我们考虑“室内”、“人”、“假发”、“肖像”、“户外”、“新郎”和“MayLood”。请注意,由于图像可能具有与其关联的各种标记,因此一个图像可以向多个标记计数。鉴于数据集包含的公共图像是私有图像的三倍(3:1公共与私有的比率),我们为每个私有图像计算3,而不是为每个公共图像计算1的公共类,以便进行公平比较。特定标签的私有内容与公共内容的比率如图14(a)所示。例如,在所有带有“室内”标签的图像中,60%的图像属于私人类。从图中,我们观察到,除了“室内”标签外,其他标签在对公共和私人类的定义上存在显著差异。我们还绘制了图14(b)中由数据集大小规范化的TOP1000标记的频率。该图显示Top200标签以3%的比例出现−30%的数据集,只有很少的标记出现在大约20%的数据集中。我们还观察到,大多数标记位于数据集的3%以下,显示了图像主题的变化和数据集的复杂性,这证明了增加图像数量会增加问题陈述的挑战这一事实。

6.6 融合视觉和标签特征的图像隐私预测

视觉编码和标签编码捕捉图像的不同方面。因此,我们将前 350 个相关标签添加到视觉特征 fc-R 中,并评估它们的隐私预测性能。我们试验了最高相关标签的数量={10,20,···,50,100,···,500,1000,5000,10000}。但是,我们使用前 350 个相关标签获得了最好的结果。表 6 显示了使用在 fc-R 上训练的 SVM 以及 fc-R 与前 350 个相关用户标签(fc-R+tag)的组合获得的结果。结果表明,添加高度相关的标签可以提高隐私预测性能。准确地说,与使用视觉特征 fc-R 获得的性能相比,我们在私有类的 F1 度量上获得了 4% 的显着改进。请注意,在我们之前的作品[Tonge and Caragea 2015, 2016, 2018] 和实验 6.5(我们比较视觉和标签特征)中,我们使用标签(深度标签)描述视觉内容并结合用户标签以获得更好的性能。然而,与用户标签和 fc-R 特征的组合(组合两种类型的编码)相比,用户标签和深度标签的组合(组合一种类型的编码)产生的性能较低。准确地说,用户标签(UT)和 fc-R 特征的组合在私有类的 F1 度量(参见表 4 和表 6)中比用户标签和深度标签的组合提高了 5%。

7. 结论

在本文中,我们对源自各种深度不断增加的 CNN 架构的深度特征进行了全面研究,以发现可以为在线图像提供准确隐私预测的最佳特征。具体来说,我们探索了从预训练 CNN 的各个层(例如 AlexNet、GoogLeNet、VGG-16 和 ResNet)获得的特征,并将它们与 SVM 分类器一起使用来预测图像的隐私或公共隐私。我们还在隐私数据集上微调了这些架构。该研究表明,基于 ResNet 派生的特征训练的 SVM 模型比使用 AlexNet、GoogLeNet 和 VGG-16 派生的特征训练的模型表现更好。我们发现,使用对通过预训练网络派生的特征进行训练的模型获得的整体性能与微调架构相当。然而,与在预训练特征上训练的模型相比,微调网络为私有类提供了改进的性能。结果表明,与基于 CNN 和传统基线特征训练的模型相比,图像隐私预测的性能有显着改进。此外,在深度特征上训练的模型优于基于规则的模型,如果图像包含人,则将图像分类为私有。我们还在两种设置中研究从 CNN 架构派生的用户标签和深度标签的组合:(1)在标签袋特征上使用 SVM; (2) 在这些标签上应用文本 CNN。我们将这些模型与针对隐私预测获得的最高性能视觉特征训练的模型进行了彻底的比较。我们进一步提供了对标签的详细分析,这些分析为隐私预测的信息量最大的标签提供了见解。我们最终表明,将深度视觉特征与这些信息标签相结合,可以提高单个特征集(视觉和标签)的性能。

我们的分类任务的结果有望帮助其他实际应用。例如,执法人员需要审查可疑设备上的数字证据,以检测图像和视频中的敏感内容,例如儿童色情制品。在此开发的学习模型可用于过滤或缩小具有敏感或私有内容的图像和视频的数量,然后再将其他更复杂的方法应用于数据。再举一个例子,今天的图像经常被存储在云(例如,Dropbox或iCloud)中,作为一种文件备份的形式,以防止它们从物理损坏中丢失,并且当存储提供者受损时,它们是脆弱的TunNoW曝光。我们的工作可以在将用户的私人(或敏感)图像上传到云系统之前提醒用户,以控制通过图像共享的个人信息量(如社会安全号码)。

在未来,利用这项研究,可以开发一种架构,除了图像的视觉内容外,还可以结合图像的其他上下文信息,如图像所有者的个人信息、所有者的隐私偏好或所有者的社交网络活动。另一个有趣的方向是扩展这些CNN架构来描述和本地化私有图像中的敏感内容。

【论文笔记】Image Privacy Prediction Using Deep Neural Networks相关推荐

  1. 论文笔记 Aggregated Residual Transformations for Deep Neural Networks

    这篇文章构建了一个基本"Block",并在此"Block"基础上引入了一个新的维度"cardinality"(字母"C" ...

  2. 论文笔记——Aggregated Residual Transformations for Deep Neural Networks(ResNeXt)

    论文下载: https://arxiv.org/pdf/1611.05431.pdf 论文代码: https://github.com/miraclewkf/ResNeXt-PyTorch 论文摘要: ...

  3. 剪枝综述论文阅读:Methods for Pruning Deep Neural Networks

    文章目录 一.概述 1.分类 2.评估 二.Magnitude based pruning 1.权重剪枝 2.彩票定理 3.特征图和过滤器剪枝 (1)基于通道方差的剪枝 Inbound pruning ...

  4. [论文阅读] ICCV2015 Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition

    Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition 论文链接:https://ieeexplore. ...

  5. 【论文泛读】XFlow: Cross-Modal Deep Neural Networks for Audiovisual Classification

    论文题目:XFlow: Cross-Modal Deep Neural Networks for Audiovisual Classification 时间:2019 来源:IEEE TNNLS 论文 ...

  6. 论文解读《Structured Pruning for Deep Neural Networks with Adaptive Pruning Rate Derivation Based on Con》

    论文:Structured Pruning for Deep Neural Networks with Adaptive Pruning Rate Derivation Based on Connec ...

  7. 【论文阅读|深读】DNGR:Deep Neural Networks for Learning Graph Representations

    目录 前言 简介 Abstract 1 Introduction 2 Background and Related Work 2.1 Random Walk in DeepWalk 2.2 Skip- ...

  8. 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

    0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...

  9. 机器学习入门课程笔记(二)——deeplearning.ai: Improving Deep Neural Networks

    欢迎前往我的个人博客网站:mathscode.top获取更多学习资源. 所有文本内容会在知乎: MathsCode同步 所有开放资源会在Github: MathsCode开放下载 有问题欢迎大家评论或 ...

最新文章

  1. 数据结构与算法——线性结构——线性表及其表示
  2. Module(模块)
  3. 《Linux》阿里云部署django全攻略
  4. 机器学习理论引导 电子版_机器学习理论篇1:机器学习的数学基础(2)
  5. 一个dsp最小系统至少要有_DSP最小系统电路设计
  6. 【树莓派学习笔记】三、点亮一个LED灯(C语言 - WiringPi、Python - RPi.GPIO/GPIO Zero、bash脚本)
  7. lua编译器和ide
  8. shell 脚本基础
  9. iOS 手记 - 计算文字高度/宽度:- (CGSize)sizeWithAttributes:(NSDictionaryNSString *,id *)attrs...
  10. 我的Android之路
  11. 传输线理论  特征阻抗
  12. AI 人工智能学习之需要具备的基础知识
  13. 【多线程与高并发】这可能是最全的多线程面试题了
  14. 22个Python绘图包,极简总结
  15. chrome 恐龙 html源码,Chrome 恐龙快跑
  16. RecyclerView点击某个条目保持选中
  17. 小爱音箱 电脑 麦克风_颜值音质皆出色,还有丰富功能,小米小爱音箱体验
  18. iPhone/iPad/Android UI尺寸规范
  19. 将HTML5封装成android应用APK文件的几种方法
  20. Lodop设置指定打印机打印,避免默认打印机被修改

热门文章

  1. 从ReentrantLock出发看AQS(一)
  2. mysqldump备份数据库 mysql恢复数据库
  3. 解决cannot find module providing package
  4. js中SetInterval与setTimeout用法
  5. 平衡车之转向环分析及调试
  6. 夜深人静,我听到了自己的心跳,却还是睡不着
  7. AI如何让你变得更美丽?
  8. 【企业微信】企业微信开发整理(私有化部署企业微信 / 普通企业微信)
  9. 羊了个羊爆火的模式分析
  10. android 高仿糯米界面,iOS (UIButton封装)仿糯米首页缩放“按钮”效果