数据泄漏检测和溯源技术

前言：本文为个人对相关领域的调查综述，部分内容为引用文献的结果，非本人提出

数据泄露追踪和溯源技术

摘要：本文全面介绍了数据泄漏预防技术和溯源技术，从正反两方面对比分析了数据泄漏追踪与检测方法中的行为日志分析，（其中包括数据库访问/操作日志，系统操作日志，http日志，邮件内容，移动设备使用日志以及将文件拷贝到移动设备的日志），用户权限管理，数据流量分析，以及插入追踪数据等。从国内外和时间分布两个层面详细介绍了数据库日志审计，数据库数字签名和水印，第三方代理泄漏检测以及外部移动设备数据泄漏相关方面的研究。为维护数据库安全提供了重要参考。

关键字：叛徒追踪，数据库，数据溯源

一、前言

数据泄漏诞生于20世纪90年代，较为官方的定义是：一场事故中发生敏感，受保护或机密数据可能被未经授权的个人查看、偷窃或使用的事件。多年来，数据泄漏屡屡发生，造成了巨大的危害的同时也引起了安全工作者的思考。从1976年到2006年，GregChung窃取了大约250,000页与美国航天飞机和军用飞机(包括B-1轰炸机)有关的敏感航空航天文件，据估计，这些数据价值高达20亿美元。今天的数据量已经比历史上任何时候都要庞大，而即使是世界上最大的公司也无时无刻不在受到数据泄漏的威胁。就在最近发生的俄乌冲突中，我们已经深刻体会到信息时代的战争与信息安全密不可分的关系。在未来，数据泄漏的危害和影响只会更加深远巨大，数据保护和溯源将越来越成为我们的重要任务。我们的目的是：及时检测数据泄漏并报警、对潜在危险人员作出风险评价、在数据泄漏之后完成溯源、对数据泄漏人员实现准确定位。我们不希望：大量的插入追踪数据导致数据库膨胀、复杂的加密手段使得系统正常运行效率降低、用户正常的行为被误报为阳性、水印，指纹等被识别，修改和破解。我们的研究主要是针对数据的内部泄漏展开，在数据泄漏的预防和数据泄漏后的溯源工作上作了全面的分析和讨论。

国内外相关研究

（一）用户行为日志分析

1、数据库访问/操作日志：

数据库访问日志的分析主要是通过结合历史日志训练模型，在此基础上与用户的实时日志进行对比分析，目的是实现对用户异常行为的及时监督和对异常行为的有效响应。在数据泄漏之后对用户的行为日志分析可以得到用户的风险等级，从而达到定位溯源的目的。数据库访问/操作日志分析技术的优点是：不必修改数据库，可以达到及时检测报警的目的。同时，这种技术的缺点是：信息处理量巨大可能导致效率较低，对于用户“很少发生但不违法”的行为容易发生假阳性报警，这种可能性在拥有大量客户端的体系中会造成经常性的错报。

2008年，Ashish Kamra 等人[1]提出了一种基于挖掘存储在数据库审计日志文件中的 SQL查询。在基于角色的访问控制 (RBAC) 模型系统下，通过角色信息训练分类器为每个角色构建了配置文件。在没有与角色相关的数据库时，采用聚类算法为每个用户形成代表正常用户行为的简明配置文件，然后以类似于监督案例的方式或作为异常值检测问题来处理异常检测阶段。

优点：假阳性率较低（作者提出了三种粒度的分析日志模型，在最精细的情况下能够保证低假阳性率）

缺点：训练模型成本较高，训练所需数据量大，没有定时更新训练结果

2013 年，Kim, Seung等人[2]提出了一种基于密度的异常值检测方法的数据库活动监控。作者通过使用kd-tree优化了LOF（局部异常值因子）的算法，并将其作为捕获异常数据库访问日志的一种措施。

LOF的主要功能是计算每个数据点的异常度。具有较高 LOF 值的数据点被视为异常值，因为它们的局部密度小于其周围点。优化后的LOF算法具有高效的优点，在处理大量数据的情况下效果显著。

主要流程如下：

系统首先处理原始日志数据，将日志中的有效信息提取出来并规范化；之后利用优化的LOF算法计算数据点（或者说数据记录）的异常因子；最后进行离群值分析，检查数据泄漏。

优点：模型效率较高，可以和多种数据库兼容

缺点：无法保证检测的实时性（只能在已经泄漏以后检测），在低风险行为处理时准确度不够

2016年，Ronao, Charissa Ann等人[3]提出了带有加权投票（WRF）和主成分分析（PCA）的随机森林作为特征选择技术，用于检测数据库访问异常的任务。作者改良了基于角色的访问控制（RBAC）模型，为与数据库交互的角色构建正常行为的配置文件提出了新的算法。采用数据挖掘技术随机森林（RF）作为核心 IDS 机制来区分角色类别。

RF在加权之后假阳性和假阴性率都有效降低。

优点：假阳性，假阴性报错率低，可以处理特别倾斜的数据

缺点：模型效率较低

2016年， Sallam, Asmaa等人[4]提出了一种关系数据库的数据和语法中心异常检测技术。该技术基于在数据库审计日志中挖掘SQL查询，以形成正常用户访问模式的配置文件。对这些配置文件进行检查，并检查与这些配置文件的偏差被视为异常，因此表明可能试图泄露或滥用数据。

数据库有基于角色的访问控制（RBAC）时：作者应用了天真的贝叶斯分类器，该分类器在实践中显示准确的结果。另外采用多标签分类，以提高访问模式对多个角色通用的准确性。

第二个应用程序场景是DBMS（没有基于角色的访问控制，只能对每个用户形成配置文件）不应用RBAC。在这个场景中应用COBWEB聚类方法。

系统具体工作流程如下：

和其他的DBMS模型类似，该模型也是分为训练模型和实时检测两个部分：

先由个人资料创建者通过历史日志选择相应特征并形成角色配置文件；（训练阶段）

训练完成后，当用户向数据库发送操作请求时，由查询拦截器及时拦截，送交异常检测器；

异常检测器结合训练模型（配置文件）进行异常检测，将检测结果送交响应引擎；

响应引擎根据收到的结果作出反应。

优点：提高了报警的准确性，能够实时检测非法操作，在数据泄漏之后可以作为溯源依据（追责）

缺点：效率可以进一步提升（在无法形成角色配置文件时为每一位用户形成配置文件效率低）

2021年阿里云对外提供了 DataWorks的数据溯源服务

主要思想：

阿里云提供的通过DataWorks[5]的数据保护伞的数据脱敏管理。

在DataWorks中，对命中目标数据识别规则的数据所执行的所有操作（例如查询、下载等）均会自动生成水印信息[6]。(阿里使用了明水印和暗水印两种手段，分别为添加可见列和插入载体技术，关于暗水印没有明确指出具体实现方法）

水印信息用于记录用户的访问行为，并且唯一标识此次访问。根据DataWorks分析的可能概率、操作时间及操作命令的内容，定位出最可能泄露数据的责任人。

优点：可以检测到泄漏源且效率较高

缺点：一条数据被多次查询后无法锁定具体人员，人员风险评价困难；溯源要求提供大量数据；

2、基于流量的数据泄漏检测：

基于对网络流量的分析得到用户的行为日志，分析其异常状况可以得到用户行为的风险。基于网络流量的日志分析的优点是：隐蔽，难以察觉，能够及时报警，可以防止侵入型数据泄漏。缺点是：解析处理量巨大时可能发生假阳性报错。（这是行为日志分析比较常见的问题，即对异常情况的处理往往采用“宁可杀错也不放过”的思路）

2012年 ALTMAN Y等人提出了使用流量分步分析的技术[7]。

本文所述的方法和系统可用于各种流处理应用，如数据泄漏预防、入侵检测和/或预防和合法拦截。

前段处理器将数据包和流量进行关联，并搜索数据包流中出现的关键字或关键短语的单元，将数据发往分类单元。

分类单元通过检查网络流量中使用超文本传输协议 (HTTP) 的 Internet 浏览会话、使用特定电子邮件应用程序的电子邮件会话、对等 (P2P) 会话、即时消息 (IM) 会话、加密会话等对数据包分类。

分类后确定是否需要进一步分析，如果需要，发往流量分析单元。流量分析单元根据分类结果确定合适的分析标准。

分析结果在中间过程可以读取。从而判断流量异常情况。

该发明的优势在于：

这里不必使用日志的方式就能及时检测异常情况，能够有效防止数据泄漏。

该发明不足的是：
没有将检测结果总结为文本形式，无法查看历史异常结果。

建议：

可以将该系统的生成结果的做法作为网络流量日志的一种生成手段。

并结合其他的模型训练等技术，可以将历史日志和实时日志进行对比分析，从而在数据泄漏后作为溯源和追责的依据。

2014年，MILIEFSKY G S提出了一种基于硬件端口检测和控制的网络流量检测技术[9]，该方法将检测端口上传输的网络流量，在检测到异常数据传输时关闭端口。当客户端-服务器功能提供实时手动、半自动和自动检测并高效控制对高风险数据端口的访问时，该方法可以在网络计算设备中检测、警报和阻止数据泄漏、窃听和间谍软件。

关键方法：对于未授权/高风险端口的违法使用进行报警。关注未授权端口非法解析，查看数据包的行为。

优点：及时检测和预防数据泄漏，能够阻止内部安装的窃听、间谍技术

缺点：无法进行数据泄漏溯源

2018年，傅涛等人提出了一种基于网络流量分析的泄密态势感知系统[8]。

数据采集层通过旁路方式接入被监测网络，将互联网接入口网络流量进行镜像,对获取的镜像流量进行协议解析。

数据检测层通过网络攻击窃密检测模块对恶意攻击行为进行特征识别。

文件解析引擎对协议解析还原出的文件进行文件内容检测，基于协议解析模块对IM传输文件、收发文件等用户行为进行审计。

数据存储分析层对各类型告警数据进行关联分析与挖掘;

可视化层通过柱图、饼状图、热力图对攻击源、攻击事件和泄密态势进行可视化展开,并通过可视化界面进行数据关联检查。

优点：

1，可以解析多种协议

2，可以ORC图文识别检测

3，可以精确识别恶意行为

缺点：没有做到异常行为统计存储

移动设备使用日志分析

2013年 DAS S等人提出了一种有条件地防止基于位置从服务器（如服务器）传输数据（例如计算机代码）的方法，涉及根据数据的位置和数据传输到的目标地址阻止数据传输[11]

确定了数据传输到的目标地址，并根据数据的位置和目标地址阻止了数据的传输。元数据生成器标识关闭不受保护文件的请求，以便从元数据存储库中删除或删除与此类文件关联的元数据。

有条件地防止从服务器和/或客户端设备（如台式计算机、笔记本电脑、手持计算机、手机、个人数字助理（PDA）和外围设备（如打印机）和/或根据位置外部连接到外部硬盘驱动器和外部光盘（CD）驱动器的任何硬件设备传输计算机代码等数据的方法。

优点：可以及时阻止泄漏行为。

缺点：缺少报警功能

2021年黄大足等人提出了一种计算机信息安全控制设备，具有信息跟踪模块与中央控制模块连接，用于访问、记录和跟踪计算机系统访问和下载的信息[10]

该设备通过使用网络信息安全模块、终端安全控制模块、信息跟踪模块和数据备份模块，实现计算机信息安全系统中信息的监控和保护过程，从而有效确保计算机终端中数据的安全，从而避免数据泄露。该设备实现了计算机终端和移动终端之间的无线通信，以便确定计算机终端是否受到非法入侵，从而进一步确保计算机的安全

优点：能够及时报警

入侵检测模块：
目标分类---》异常检测分类----》记录异常属性-----》采用基于模板匹配的方法、基于概率统计的方法或基于语义的方法进行异常检测；

登录身份验证模块：
低级模块：一种身份验证，访问低级硬盘

中级模块：三种身份验证，访问中级硬盘

高级模块：五种身份验证，访问高级硬盘

信息跟踪模块：

资源管控模块：扫描静态数据的情况，将异常情况生成日志记录，实时向服务器发送

数据跟踪审计模块：记录计算机端口输入和输出的文件信息，生成日志保存

（二）数据库水印技术

2008年 Shehab, Mohamed 等人提出了使用基于优化的技术给关系数据库添加水印的方法[12]。

作者提出了一种鲁棒性较好的水印编码和解码技术：

水印编码：首先使用基于密钥的数据分区技术对目标数据集进行分区；然后利用优化后的遗传算法 (GA) 和模式搜索 (PS) 技术，根据分区信息对各个区嵌入水印；最后嵌入之后对水印信息进行统计，求出解码错误最小化的解码阈值；

水印解码：对加入水印后的数据进行分区；使用基于阈值参数的方案对嵌入分区的比特为进行解码；使用多数投票策略对水印进行解码

优点：鲁棒性良好（在删除了80%的元组条件下仍然能够100%解码），解码效率高，可以针对数据库使用

缺点：可能由于重复插入水印（本文使用这种技术增强了鲁棒性）导致数据库数据膨胀

2006年 Guo, HP 等人提出了一种用于检测数据库关系恶意修改的脆弱水印方案[13]（配合其他水印手段使用，防止内部人员恶意修改水印，也可以保护数据库的完整性，这里不详述其实现方法）

在拟议的方案中，数据库关系中的所有元组首先安全地划分为组；水印独立嵌入并逐组验证。脆弱水印具有对攻击“脆弱”的特点，使得轻微的修改尝试也能被识别。在最坏的情况下，修改可以缩小到组中的元组。另外，此项技术保证了数据库在授权的修改后有低成本更新水印的能力（数据库被修改后不必抛弃所有水印），这使得在多次修改数据库的情况下依然适用。

优点：可以及时检测数据库被修改，可以配合其他水印使用，使用成本较低

缺点：水印无法嵌入到非数字属性中，适用范围还可以提升

2012年Farfoura, Mahmoud E.等人提出了一种基于时间戳协议的水印关系数据库的盲可逆方法[14]

首先是时间戳协议（类似一种数字签名）：

签名阶段：

数据发送者用第三方提供的公钥对信息（包括发送者ID,添加了水印的数据，以及水印）加密，发送给第三方；

第三方用私钥解密，处理数据后用私钥签名，将数据用发送者的公钥加密后发给所有者；

所有者解密信息，得到时间戳，并检查日期和数据的计算结果。

验证阶段：

首先，公证人请求数据拥有者验证数据库关系的时间戳和水印

然后，数据拥有者将计算结果交给公证人仲裁

最后，公证人根据不同代理接受数据的时间次序可以判断数据来源

然后是水印技术：

嵌入阶段：

在属性中编码一个水印位；对属性中的水印为进行解码；

为待插入水印的不同元组确定了一个密钥；向属性中嵌入多个水印；

检测阶段：

利用多数投票机制在数据泄露后检测水印；利用密钥对水印解码（可以将添加了水印的数据恢复为添加前的状态，对比分析是否受到了恶意修改，并验证数据所有权）。

优点：鲁棒性良好（在破坏了95%的水印情况下依然能够完成检测），不会影响数据库正常的操作性能

缺点：可能由于大量插入水印导致数据库发生数据膨胀（在保证极强的鲁棒性的条件下牺牲了存储空间，对于一个属性嵌入了多个水印）

2013年Jawad, Khurram关系数据库的遗传算法和基于差分展开的可逆水印

这项技术目的是数据库所有权证明和防篡改传输。

使用遗传算法（GA），探索不同的属性以满足最佳标准，而不是选择效果较差的水印插入属性。探索了不同属性的失真容忍度（提高了技术鲁棒性）。

在GA的适应功能中集成了元组和属性失真（差分展开导致的失真可以帮助攻击者预测水印属性）

方法简介：利用遗传算法（GA）来提高水印容量并减少失真

优点：鲁棒性良好

缺点：效率不够

（三）第三方代理泄漏检测

多年来研究表明，目前针对第三方代理泄漏数据的思路主要有三种：添加水印或者指纹，加入“虚假但是真实”的信息以及改变代理分配方式。数据发生泄漏后，可以通过解读水印/指纹，解析虚假数据以及查找特殊数据包来识别泄漏源。

2021年Gupta, Ishu等人提出了SELI：基于统计评估的安全数据共享泄漏识别随机方案[15]

文章的具体思路如下：

代理向分发者请求样本数据
分发者根据请求数据的先后顺序依次分配数据（代理选择）

3、分发者首先对不同的代理分配一些几乎不会重叠的数据块（对象选择），称为敏感数据

4、在分配的数据中添加虚假对象（虚假对象包含）

5、数据泄漏后，对敏感数据和虚假对象进行检测

优点：检测到泄漏源的效率较高（99.92%的精度、99.4%的召回率和99.97%的特异性）

缺点：无法预防数据泄漏，虚假对象可能被攻击（未进行鲁棒性测试）

（特殊数据包；虚假对象；水印）

其他的检测方法也是大同小异，主要集中在使用“真实但虚假”的对象和改变代理分配策略上。

（有一篇在云服务器上使用水印预防第三方代理数据泄漏的论文，但是由于权限问题无法查看。这里暂且不提）

链接：https://xueshu.baidu.com/usercenter/paper/show?paperid=1h5j0e604k7m06r05f0m0gd0xw046142&site=xueshu_se&hitarticle=1）

[1]https://www.researchgate.net/publication/48205467_Detecting_anomalous_access_patterns_in_relational_databases

[2]Web of Science

[3]Web of Science

[4]Web of Science

[5]https://help.aliyun.com/document_detail/264221.html?spm=5176.10695662.1996646101.searchclickresult.160e13dcVmox1S

[6]https://help.aliyun.com/document_detail/183829.html?spm=5176.10695662.1996646101.searchclickresult.160e13dcVmox1S

[7]Web of Science

[8]https://www.webofscience.com/wos/alldb/full-record/DIIDW:201918657L

[9]https://www.webofscience.com/wos/alldb/full-record/DIIDW:2014V58981

[10]https://www.webofscience.com/wos/alldb/full-record/DIIDW:201843265L

[11]Web of Science

[12]Web of Science

[13]Web of Science

[14]Web of Science

[15]Web of Science

[16]Web of Science

数据泄漏检测和溯源技术相关推荐

数据数据泄露泄露_通过超参数调整进行数据泄漏
数据数据泄露泄露介绍 (Introduction) Data Leakage is when the model somehow knows the patterns in the test dat ...
如何避免Facebook数据泄漏事件，这家公司用四大新兴技术给出了答案
冲量在线揭秘数据流通和隐私保护背后的技术关键. 当企业数字化需求加速,上云成了时代的特征,数据逐渐成为企业的核心资产.企业数字化一片利好的背后,数据泄露事故频出,背后的企业也因此付出了巨大的代价. 在 ...
网络分流器-DPI深度数据包检测技术及作用
戎腾网络分流器又名核心网采集器,作为网络安全领域网络监控前端重要的基础装备,是整个网络安全中不可缺少的必要装备!对网络安全起到了关键作用! 戎腾当前固网已经升级到400G,支持不同链路,移动互联网信令 ...
网络分流器-网络分流器之DPI深度数据包检测技术及作用
戎腾网络分流器又名核心网采集器,作为网络安全领域网络监控前端重要的基础装备,是整个网络安全中不可缺少的必要装备!对网络安全起到了关键作用 ! RT当前固网已经升级到400G,支持不同链路,移动互联 ...
电力设备内部绝缘油泄漏检测图像数据集（300多张数据，VOC标签）
下载地址:电力设备内部绝缘油泄漏检测图像数据集(300多张数据,VOC标签)
万字长文：盘点2022全球10大数据泄漏事件（红蓝攻防角度）
导读:全球每年都会有大量的爆炸性的数据泄漏事件发生,但是今年的数据泄漏事件特别多,此起彼伏,而且数据泄漏的规模和造成的破坏性影响,一次比一次大. 根据Identify Theft Research C ...
【附赠书】2022年全球10大数据泄漏事件
导读:全球每年都会有大量的爆炸性的数据泄漏事件发生,但是今年的数据泄漏事件特别多,此起彼伏,而且数据泄漏的规模和造成的破坏性影响,一次比一次大. 根据Identify Theft Research C ...
安全界“圣经”DBIR 报告推翻了哪些“你以为的”数据泄漏情况？
聚焦源代码安全,网罗国内外最新资讯! 编译:奇安信代码卫士团队 Verizon 公司发布2020年度<数据泄露调查报告 (DBIR)>,由81家组织机构参与,分析了超过3.2万起安全事件 ...
DOS攻击与网络溯源技术
1.DoS攻击 DoS攻击(Denial of Service,拒绝服务攻击)通过消耗计算机的某种资源,例如计算资源.网络连接等,造成资源耗尽,导致服务端无法为合法用户提供服务或只能提供降级服务.在S ...

数据泄漏检测和溯源技术

数据泄漏检测和溯源技术相关推荐

最新文章

热门文章