基于安全压缩感知的大数据隐私保护

王平1, 张玉书2, 何兴1, 仲盛3

1 西南大学电子信息工程学院,重庆 400715

2 南京航空航天大学计算机科学与技术学院,江苏 南京 211106

3 南京大学计算机科学与技术系,江苏 南京 210023

摘要当前的数据“大爆炸”主要受万物互联的驱动,服务于人类衣食住行的各类物联网感知设备时刻在捕获个人隐私数据,然而,这些隐私数据已成为网络攻击的重点目标。分析了资源受限的物联网应用中的数据安全问题,介绍了基于压缩感知理论的隐私保护技术—— 安全压缩感知,提出了相应的大数据采集方案,并且通过安全性理论和实验分析给出了结论性的呼吁:将安全压缩感知作为一种感知层内置的轻量级加密机制,以近乎零的成本为数据提供第一层安全防护。

关键词 安全压缩感知 ; 大数据 ; 物联网 ; 隐私保护

论文引用格式:

王平, 张玉书, 何兴, 仲盛.基于安全压缩感知的大数据隐私保护.  大数据[J], 2020, 6(1):3-11

WANG P, ZHANG Y S, HE X, ZHONG S.Big data privacy protection based on secure compressive sensing. Big Data Research[J], 2020, 6(1):3-11

1 引言

随着数字化和信息化程度的不断提升,全球已进入大数据时代。根据国际数据公司(International Data Corporation,IDC)在2018年11月发布的调研报告显示,全球大数据存储量呈现爆炸式增长。如图1所示,全球数据量预计将从2018年的33 ZB增至2025年的175 ZB。值得兴奋的是,中国数据圈占比将从2018年的23.4%(即7.6 ZB)增至2025年的27.8%(即48.6 ZB),成为全球范围内最大数据圈。大数据是人、机和物在网络空间中交互、融合所产生并在互联网上可获得的数据集合,其具有容量大、类型多、集中化存储的特点,通过现代化大数据分析和预测手段,可以充分挖掘其背后隐藏的新知识、新价值和新动力,进而在电信、互联网、金融、交通、医疗等行业创造新的商业模式和应用价值。目前,大数据逐步成为国家基础战略资源和社会基础的生产要素。

目前,数据的增长主要受到来自物联网数据、元数据和与娱乐相关的数据增长的影响,其中物联网数据增速迅猛。在万物互联的时代,成千上万的传感器、服务器和智能终端构成一个比传统互联网更加广泛的物联网,人们可以从外界感知信息,信息交互不再仅限于人与人之间。物联网的发展必然伴随着局域连接与广域连接业务的急剧增长,随着5G商业化落地,联网终端会进一步增多,这将会产生海量的物联网数据。预计到2025年,全球各地联网的数十亿台物联网设备将产生超过90 ZB的数据,这主要受到车联网、无人机网络、可穿戴设备网络和各种监测网络等的驱动。在大数据和物联网时代,人始终是物联网的中心,各种物联网应用服务于人类的衣食住行。无所不在的数据收集技术和专业化、多样化的数据处理技术,使得个人难以控制隐私数据的收集情境和应用途径。因其蕴藏的巨大潜在价值和逐渐集中化的存储管理模式,隐私数据成为网络攻击的重点目标。根据数字安全领域的金雅拓公司(Gemalto)统计,仅2018年上半年,全球范围内公共数据泄露事件达945起,导致45亿条信息泄露。如何保障大数据隐私安全成为一项迫在眉睫的全球性问题。此外,为了追求极致的用户体验,物联网终端设备普遍呈现出轻量化、可植入化的特点,在资源受限的应用环境下数据安全更加难以保障。

压缩感知(compressive sensing,CS)采用混沌密码对采样数据进行二次强加密。也有研究表明,当采用高斯随机数发生器构造测量系统时,通过隐藏样本的能量信息可实现完美加密。此外,一种基于SCS的多级加密框架被提出,针对不同权限级别的用户,从密文中获取的信息量是不同的。

图1   每年全球数据量增长情况预测

本文首先通过介绍CS理论基础引出SCS技术,即嵌入保密性的CS。然后,提出SCS技术普遍适用的物联网场景模型,并且从密码学的角度给出理论分析。最后,通过仿真实验进一步阐述SCS技术的可行性和安全性,并给出结论性的呼吁,即将其作为一种低成本的、内置保密性的信息获取技术,广泛应用在资源受限的物联网场景中。

2 压缩感知理论

CS理论基于信号的稀疏性或可压缩性,不同于传统的先采样后压缩过程(如图2所示),其能够同步执行采样和压缩操作,并且通过解决欠定方程,系统能够精确地重构出原始信号。假定一个长度为N的一维信号X,能够在一个大小为N×N的变换矩阵的作用下稀疏化,那么称之为K-稀疏信号,其中。稀疏过程表示为:

其中,S为一个长度为N的系数向量,包含至多K个非零元。如果S是由占绝大多数的小数值元素和少量的大数值元素组成的,那么X被称为可压缩信号,可以通过将所有小数值元素视为零元素进行近似稀疏表示。幸运的是,大部分自然信号在预知的一组基上可以进行稀疏化。

图2   压缩感知和传统采样对比

在CS理论中,通过构建一个与不相干的大小为M×N(K<M<<N)的矩阵来线性测量原始信号x,该过程可表示为:

其中,Y表示长度为M的测量值向量,分别叫作测量矩阵和传感矩阵。采样时用的是测量矩阵,而重构时用的是传感矩阵A。

由条件K<M<<N可以看出,CS理论主要解决的是欠采样情况下的信号重构问题。本质上,这是一个病态的求逆问题,即通过式(2)求解X是一个欠定问题,不具备唯一解。但是,基于原始信号是K-稀疏的先验信息,即信号X只有K+1个自由度,理论上仅需超过该自由度的测量数便可以通过最优化方法重构原始信号。具体的做法是求解以下的l0最优化问题:

其中,ε表示噪声。求解式(3)是通过遍历所有可能情况的集合来找到最稀疏的形式,显然这是一个NP难问题。常用的重构算法包括匹配追踪(matching pursuit, MP)和正交匹配追踪(orthogonal matching pursuit,OMP)。经研究表明,求解式(3)可等价于求解以下的l1最优化问题:

求解式(4)是一个线性规划问题,利用常用的基追踪(basis pursuit,BP)算法便可准确地重构信号。

为了保证能够精确地从测量值Y中重构出原始信号X,除了信号的稀疏性这一先验信息,测量矩阵与变换矩阵应该尽可能不相干。对此,传感矩阵A需要具备以下受限等距特性(restricted isometry property,RIP):

存在δK∈(0,1),对于所有的K-稀疏信号s,使得上述不等式成立。事实上,检验一个矩阵是否满足RIP条件也是一个NP难问题。Candès和Tao指出,由独立同分布的高斯或伯努利随机变量构成的随机测量矩阵与任何一个固定变换矩阵大概率不相干。总体来说,待采样信号的稀疏化程度越高,测量矩阵与变换矩阵之间的不相干程度越高,信号重构效果便会越好。

3 基于压缩感知的大数据隐私保护

该节首先在CS理论的基础上介绍融合混沌理论的SCS技术;然后,针对大数据时代的个人隐私泄露问题,构建了SCS技术普遍适用的物联网场景模型;最后,从信息理论上给出SCS技术的安全性分析。

3.1 安全压缩感知

在CS理论中,原始信号X的成功重构依赖于测量矩阵的真实性。因此,当将视为一种特殊的密钥时,基于CS的信息获取系统可同时被视为一种特殊的对称密码系统,这便是所谓的SCS。众所周知,一个密码系统由5个基本元素组成,包括明文、密文、密钥、加密和解密。图3直观地展示了CS和对称密码之间的对应关系,也就是原始信号对应明文,采样得到的测量值对应密文,测量矩阵对应密钥,采样过程对应加密过程,重构过程对应解密过程。值得注意的是,由于CS是一种有损压缩技术,解密所得的明文与原始明文注定是非一致的。此外,信息与通信系统中的白噪声和重构算法只进行有限次迭代,而引入的重构噪声也将使解密算法不能完美地得到原始明文。

本质上,CS是一个线性映射过程。当掌握充分多的明密文对时,攻击者可以轻松计算出采用的某个固定测量矩阵。为了达到较高的安全级别,基于CS的对称密码系统需要频繁地更新密钥,甚至采用一次一密的设置。由前文可知,密钥尺寸是远大于明文X尺寸的。倘若采用一次性的,每次测量都需要传输远多于采样数据的密钥数据,这反过来将导致严重的数据灾难,明显与CS的设计理念相违背。为了避免直接传输大尺寸的,并且保持CS低复杂度采样的优势,可以尝试通过混沌系统生成混沌序列,进而用来构造测量矩阵。

图3   压缩感知与对称密码之间的对应关系

混沌是非线性动力学系统中特有的一种运动形式。混沌系统本质上是一种确定性系统,但其呈现出非周期性和伪随机特性。一维混沌系统可表示为:

其中,f(⋅)表示某种确切的映射关系, c0为该混沌系统的初始输入值,即种子值。由以上混沌系统产生的混沌序列经等尺度变换和等间距抽样操作后,可得到一个长度为M×N的伪随机序列。按照逐列填充的方式,便可构成以下的混沌测量矩阵:

其中,σ2表示混沌序列Z(c0)的方差。由混沌理论可知,混沌系统对种子值c0十分敏感,一旦c0发生轻微变化,生成的将大相径庭。因此,将输入混沌系统的种子值c0作为SCS的密钥,便可避免频繁更新测量矩阵带来的沉重通信负担。值得注意的是,因为传感矩阵A必须满足RIP条件,所以并非所有的混沌系统均适合用来构造测量矩阵。

在这里,介绍两种常用的混沌系统,即Logistic映射和Tent映射,它们均已被证明大概率地使传感矩阵满足RIP条件。Logistic映射可表示为:

其中,({µ,c}0)是初始输入值。当µ∈((3..556699945 6,,4]]时,Logistic映射进入混沌状态。但当µ=4时,Logistic映射被称为满映射,生成的混沌序列具有最好的伪随机特性。然而,由Logistic映射产生的混沌序列并不满足均匀分布。为了得到更好的随机特性来抵抗统计分析,需要对产生的混沌序列进行额外的非线性变换。对此,采用Tent映射可以产生近似均匀分布的混沌序列。Tent映射可表示为:

其中,初始输入值µ,c0∈(0,1)。

SCS技术的核心是在无法获知的情况下,恢复X是不可实现的。因此,如何保障的安全是最关键的任务。在安全威胁小的情况下,可以采取定期改变混沌系统的初始输入值的方案,以节约采样时间。在安全威胁大的情况下,便需要采取一次一密的加密模式。

3.2 隐私保护的大数据采集方案

大数据的发展主要受到物联网和云计算技术的驱动。物联网致力于将自然万物相互关联,构建一个广泛、有序和智能的网络环境,其依靠各种感知设备获取联网物体的信息,以数据的形式完成信息交互。面对物联网的不断扩张,时刻喷涌而出的海量数据逐步向云端迁移。据IDC预测,到2025年, 49%的全球已存储数据将驻留在公共云中。在云中心,数据可以被实时地处理和分析,并且将得到的结果及时反馈给终端用户。同时,通过集中化的数据管理机制,海量数据背后隐藏的巨大价值将被进一步挖掘,并服务于人类社会的生活、生产。

数据是一种特殊的资产,个人隐私数据尤其容易招致恶意攻击。目前,物联网感知设备日益轻量化,资源受限问题也越来越突出。在大量的物联网应用中,无线传感器网络(wireless sensor network,WSN)是最底层的信息感知方式。对于单个传感器节点来说,可利用的资源十分有限,高复杂度的非对称密码系统常常不适合嵌入其中。SCS技术能在近乎不增加硬件成本的情况下,将保密性嵌入压缩采样的过程中。同时,CS充分考虑了数据的冗余性,仅需远低于传统采样理论要求的样本数量便可准确地重构原始信号,这将显著降低网络中的数据量,进而有效地减轻信息与通信系统的负担。但是本质上,CS是一个复杂度转移过程,即发送端的低功耗采样是以接收端的高复杂度重构算法为代价的。幸运的是,随着智能终端算力的不断提升和云计算技术的迅速发展,重构算法的高复杂度问题能够在云端或者终端得到有效解决。

在这里,SCS技术的普遍适用场景模型被提出,如图4所示。首先,置于感知设备物理层的伪随机数发生器根据输入的种子值(即SCS密钥)生成混沌序列,进而构造出混沌测量矩阵;然后,随机采样得到的测量值经过量化、编码后,数据流向相应的客户机,在这里可通过非对称加密算法进行二次强加密处理;接着,加密数据经过通信基站进入公共互联网;最后,通过公共信道传输至云数据中心进行存储和处理。当授权用户需要访问原始信息时, SCS密钥被授权给可信任的云服务提供商进行重构(解密),然后将重构结果进行反馈。当然,云数据中心也可以仅发挥大数据存储的作用,发回的测量值在算力充足的智能终端上进行重构。

值得注意的是,SCS密钥在发送端和接收端之间的安全传输需要凭借安全信道或者公钥密码技术完成,它的权限掌握在合法用户或者可信任的第三方手中,并且需要被频繁地更新。在如此的应用场景下,通过基于混沌和CS的信息获取技术可以安全高效地采集数据,这极大地降低了物联网中感知设备和通信设备的负担。

图4   安全压缩感知技术的应用场景模型

3.3 安全性分析

从密码学的角度来看,基于SCS的信息获取系统也是一种轻量级对称密码系统。根据香农对信息理论安全的定义,绝对安全的密码系统能够保障攻击者无法从非法窃取的密文Y中获取任何有关于明文X的信息,即满足。换句话说,明文X和密文Y之间的互信息为零,即满足。本质上,SCS是一个线性映射过程,缺乏非线性混淆机制,明文X和密文Y之间存在着线性相关,无法实现信息理论安全。但是,当采用高斯随机测量矩阵时,密文Y仅暴露明文的能量信息,且仅密文的能量信息 能泄露与明文X有关的信息,这种情况被称为渐进球面安全。这也意味着,可以通过隐藏密文的能量来实现信息理论安全。

面对融合混沌理论的SCS应用,攻击者若想得到真实的测量矩阵,进而从窃听的密文y中非法重构出明文,将必须面临着破解混沌密码系统或者随机猜测的困难。SCS应用在计算上的安全强度主要取决于密钥空间大小,即攻击者能否在有效时间内调用所有可支配的计算资源成功遍历完整个密钥空间,这种暴力攻击的方式对混沌密码系统来说一般是徒劳无功的。尽管SCS缺乏非线性混淆机制,但若采用一次一密的加密模式,攻击者依然无法通过已知信息或选择明文的攻击手段从可利用的明密文对中获取任何有价值的消息。

4 实验结果和分析

本节通过仿真实验简要地验证了融合混沌理论的SCS技术的可行性和安全性。本文选择512×512像素的标准Lena图作为测试对象,选择Tent映射和Logistic映射构建混沌测量矩阵,并且利用二维离散小波变换(2DWT)进行信号稀疏表示。此外,所有的实验均采用OMP算法重构信号,通过峰值信噪比(peak signalto-noise ratio,PSNR)衡量重构信号质量。需要说明的是,所有的仿真实验都在MATLAB R2015b软件中执行,并且以上实验条件的设定与SCS技术的可行性无关。

4.1 可行性

为了验证混沌测量矩阵能够发挥与传统随机测量矩阵相似的效果,本文利用Logistic映射和Tent映射构建混沌测量矩阵,并且将它们与Gaussian测量矩阵、Bernoulli测量矩阵进行实验对比。在本实验中,Logistic映射和Tent映射的初始输入值(μ,c0)分别为(0.35,0.65)和(4,0.65),为了保证较好的伪随机特性,输出序列的前1 200位被摒弃,并且按照15位的等间距抽样获得最终的混沌序列。

由图5可知,在不同的压缩率下,由Logistic映射、Tent映射生成的混沌测量矩阵与Gaussian测量矩阵、Bernoulli测量矩阵达到几乎相同的重构效果。这意味着,混沌测量矩阵也适用于CS技术,这样不仅可以避免传输大尺寸的测量矩阵,而且可以通过混沌系统将一定水平的保密性嵌入压缩采样的过程中。

4.2 安全性

由前文的安全性理论分析可知,SCS技术无法提供绝对的安全保障,但是其能以一种近乎零成本的方式将额外的保护层嵌入感知设备中。在这里,本文将进一步通过仿真实验展现面对暴力攻击时融合混沌系统的SCS技术的安全性能。在本实验中,压缩率被固定为0.5,采用Tent映射构建混沌测量矩阵。同样先摒弃输出序列的前1 200位,然后按照15位的等间距抽样获得最终的混沌序列。假定采用的密钥是(μ,c0) =(0.45,0.55),攻击者猜想的虚假密钥包括(μ+Δ,c0)、(μ,c0+Δ)和(μ+Δ/2,c0+Δ/2),其中Δ=10-16是真实密钥和猜测密钥之间的偏差。

图5   不同测量矩阵的重构效果对比

图6是原始图像和重构图像质量的对比。从图6可知,利用SCS技术加密得到的密文(即测量值,如图6(b)所示)在视觉上无法泄露任何有意义的信息。此外,尽管攻击者猜测的密钥与真实的密钥如此接近,但是依然无法通过它从窃听到的密文中解密出明文。

图6   原始图像和重构图像质量对比

5 结束语

在万物互联的时代,物联网中时刻生成着大量与个人隐私有关的数据,这些数据在互联网上流动以及汇向云端的过程中容易受到恶意攻击。特别在一些资源受限的物联网场景下,底层信息感知设备不支持嵌入高能耗的传统密码系统,数据安全问题尤为突出。针对这种问题,本文融合混沌理论和CS理论提出了新兴的SCS技术。尽管SCS技术无法实现信息理论安全,但其能在近乎不增加任何硬件成本的情况下同步完成采样、压缩和加密3种操作。紧接着,本文给出了SCS技术普遍使用的物联网场景模型,并通过仿真实验阐述了该技术的可行性和安全性。由于SCS技术具备低能耗采样和轻量加密特性,笔者呼吁将其作为一种低成本的、内置保密性的信息获取技术,在资源受限的物联网场景下为采样数据提供第一层安全防护。

作者简介

王平(1993-),男,西南大学电子信息工程学院硕士生,主要研究方向为多媒体安全 。

张玉书(1987-),男,博士,南京航空航天大学计算机科学与技术学院教授,主要研究方向为多媒体安全、物联网与云计算安全 。

何兴(1986-),男,博士,西南大学电子信息工程学院教授,主要研究方向为计算智能 。

仲盛(1974-),男,博士,南京大学计算机科学与技术系教授,主要研究方向为密码学、博弈论及其在计算机网络、分布式系统中的应用 。

《大数据》期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。

关注《大数据》期刊微信公众号,获取更多内容

往期文章回顾

基于APMSSGA-LSTM的容器云资源预测

Hadoop下水环境模拟集群运算模式

WEB:一种基于网络嵌入的互联网借贷欺诈预测方法

基于SARIMA-LSTM的门诊量预测研究

一种基于随机投影的本地差分隐私高维数值型数据收集算法


基于安全压缩感知的大数据隐私保护相关推荐

  1. 专题导读:大数据隐私保护

    专题导读:大数据隐私保护 在大数据时代,数据的开放共享是发 掘大数据中蕴含的巨大价值以及推动大数 据发展的必要途径.然而,大数据中往往包 含用户的大量敏感信息,一旦开放这些数 据,会导致严重的个人隐私 ...

  2. 教育大数据隐私保护机制与技术研究

    点击上方蓝字关注我们 教育大数据隐私保护机制与技术研究 乐洁玉1, 罗超洋2, 丁静姝3, 李卿2 1 华中师范大学国家数字化学习工程技术研究中心,湖北 武汉 430079 2 华中师范大学教育大数据 ...

  3. 【2016年第1期】大数据隐私保护技术综述(下)

    6  大数据访问控制技术 大数据访问控制技术主要用于决定哪些用户可以以何种权限访问哪些大数据资源,从而确保合适的数据及合适的属性在合适的时间和地点,给合适的用户访问,其主要目标是解决大数据使用过程中的 ...

  4. nsl0重构算法 matlab,基于SL0压缩感知信号重建的改进算法

    第 28 卷 第 6 期 2012 年 6 月 信 号 处 理 SIGNAL PROCESSING Vol. 28 No. 6 Jun. 2012 收稿日期: 2012-03-30; 修回日期: 20 ...

  5. 云计算与大数据第11章 大数据隐私保护习题带答案

    第11章 大数据隐私保护习题 11.1 选择题 1.以下(  D  )通常不是导致数据隐私泄露问题的来源. A.  数据被肆意收集   B. 数据集成融合   C. 大数据分析   D. DDOS攻击 ...

  6. 【压缩感知】基于matlab压缩感知理论的窄带信号DOA估计【含Matlab源码 2616期】

    ⛄一.压缩感知理论 阵列信号波达方向(Direction ofArrival,DOA)估计是阵列信号处理领域中主要研究内容之一,广泛应用于军事及民用领域.基于压缩感知理论的稀疏重构算法的阵列信号DOA ...

  7. 大数据隐私保护技术之脱敏技术

    前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解. 介绍 随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了 ...

  8. 【OMP信道估计】基于OMP压缩感知的信道估计算法的MATLAB仿真

    1.软件版本 MATLAB2021a 2.本算法理论知识 3.核心代码 clc; clear; close all; warning off; addpath 'func\'CYC = 20; for ...

  9. 《位置大数据隐私管理》—— 导读

    前言 大数据时代,移动通信和传感设备等位置感知技术的发展将人和事物的地理位置数据化,与用户位置相关的数据通过各种各样的服务以多种形式产生.例如,用户通过"签到"等移动社交网络服务( ...

最新文章

  1. SLAM和三维重建有什么区别?
  2. 按下电源后的几秒钟,CPU在干嘛?
  3. 2000条你应知的WPF小姿势 基础篇45-50 Visual TreeLogic Tree 附带两个小工具
  4. python003 一 Python起步、pyhthon运行方式、语法结构、python变量
  5. 多线程通信—生产者和消费者模式
  6. HTML 4.01 event 事件
  7. pandas基础(part2)--DataFrame
  8. SAP Enterprise search test report ESH_TEST_SEARCH debug in Q2D
  9. QWaiteCondition思考3
  10. ssl certificate 验证
  11. Android Gradle编译问题
  12. linux设备分层优点,Linux设备驱动的分层设计思想
  13. linux下得到date命令,linux下date命令获得今天日期的用法
  14. python django 优势_为什么选择Django?
  15. Python学习笔记-异常处理
  16. 【转载】在windows上部署使用Redis
  17. 爬取qq音乐,js加密sign值无效,包含思路,遇到的各种问题要点
  18. JRTPLib的编译步骤
  19. 教育学外文文献是哪里找的?
  20. AS+图灵机器人官网+HTTP POST(json)+JsonReader实现安卓课设《智能聊天机器人》填坑记录

热门文章

  1. 白盒测试 | 用例设计方法之条件覆盖
  2. 存储池与存储卷,使用virt-install创建虚拟机
  3. $.ajax的标准写法
  4. Page9:结构分解以及系统内部稳定和BIBO稳定概念及其性质[Linear System Theory]
  5. zendstudio快捷键收录
  6. 解决 c3p0 和 MySQL 集成情况下,连接长时间闲置后重新使用时报错的问题
  7. apache配置多个虚拟主机
  8. 这些快捷键要学会使用啊
  9. DataGridView里的Checkbox全选问题解决了!
  10. ORA-00972: identifier is too long问题解决