脱敏数据的残余风险评估
小结
在用户隐私数据安全合规场景中,企业采集用户信息或与用户形成交互状态,企业此时需要满足各 类隐私合规要求。对于用户敏感行为的信息采集,比如 GPS 轨迹、输入表情以及浏览行为,为了降低合规性风险,可采取本地化差分技术⸺实现批量用户行为数据的挖掘而不泄露单个的个体隐私信息; 为了更好地满足用户出各项数据权利请求与响应,可采取知识图谱技术,对个人信息进行治理与可视 化。进一步地,应用流程自动化技术可对用户数据权利“请求 -响应”过程进行赋能,一方面可通过 高处理效率从而人工运营成本,另一方面可降低由于响应超时带来的合规性风险。我国《个人信息保护 法(草案)》赋予个人包括知情权、决定权、查询权、更正权、删除权等,同时指出“个人信息处理者 应当建立个人行使权利的申请受理和处理机制”,而在《个人信息安全
规范》(GB/T 35273-2020)指 出企业处理用户数据权利请求的时间是 30 天之内。随着我国数据安全法规 -标准体系的完善,可预计 国内用户数据权利响应自动化等隐私合规技术与市场正将逐步形成。
前沿技术
数据安全场景与挑战
本节将分析用户隐私数据安全合规的三个子场景面临的合规性条款,以及安全挑战。
敏感数据的智能识别 / 分类
敏感数据识别与分类是数据安全建设与治理的首要环节。如 2.1 节所述,敏感数据来源有三类:➀ 国家敏感数据(也称重要数据);➁ 个人隐私数据;➂ 企业敏感数据。通过对这三类敏感数据类型的 识别与分类,企业更好地实施敏感数据安全管控与保护。
- 合规条款
- GDPR:法规保护“个人数据”。其定义的“个人数据”范围十分宽泛(如 1.2 节分析),不仅 包括姓名、年龄、性别等基本个人信息,还包括个人照片、指纹、虹膜、个人的宗教信仰,心 理和生理特征信息以及 IP、Mac、网络 Cookie 等一系列新增类型(第 4 条)。
- 《网络安全法》:法规保护的网络信息包括两类:“个人信息”和“重要数据”。对于“个人信息”, 它同样蕴含丰富的信息类型,比如个人照片、身份证照片和指纹等(第 76 条)。对于“重要数据”, 《数据安全管理办法》(征求意见稿)进一步给出了示例, “入未公开的政府信息,大面积人 口、基因健康、地理、矿产资源等”。对于不同类型的敏感数据,企业应履行“采取数据分类、 重要数据备份和加密等措施”(第 21 条)。
- 问题挑战
敏感数据类型多种多样,传统规则和正则匹配不够智能,易出现漏检。对于非结构数据的检测与识别, 如身份证照片、合同文档,传统的检测与识别方法难以应付。
应对技术: 敏感数据智能识别(参见 4.2 节)
脱敏数据的残余风险评估
虽然数据脱敏在企业得到广泛应用,但研究发现脱敏数据仍然或多或少存在残余的隐私风险 [20]。因此,需对脱敏的数据进行风险评估与风险管理,确保风险在企业组织的可控范围之内。
- 合规条款
- GDPR:为了应对隐私问题带来的风险的挑战,GDPR指出数据控制者与处理者“应当执行合 的技术措施和有组织性的措施来保证合理应对风险的安全水平”(第 32 条)。
- 《网络安全法》:“网络运营者应当采取技术措施和其他必要措施,确保其收集的个人信息安全, 防止信息泄露、毁损、丢失”。即要求企业采取一定的技术与管理措施,确保用户个人信息与 隐私安全(第 42 条)。
- 问题挑战 如何在攻击视角下,对脱敏数据的残余隐私风险进行刻画。 应对技术: 数据脱敏风险评估(参见 4.3 节)
数据操作行为的异常检测
在数据库、大数据平台等环境中,如何检测与区分正常和异常操作行为模式,对数据安全的监控与 防护十分关键。
合规条款
同 4.1.2 节的合规条款。
!问题挑战
普通的规则、阈值无法应对复杂业务带来的挑战。 应对技术: 用户实体行为分析 (UEBA)(参见 4.4 节)
敏感数据智能识别
智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中。智能敏感识别包括三类智能 算法:基于相似度、非监督学习和监督学习。
基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。首先,手工或者通过感知算法(例如,SimHash)
取文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文 件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,出来需要学习和训练的敏 感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练 的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。
基于非监督学习算法,人工无需打标签,进行特征设计与提取,比如敏感图像场景提取目标关键点、 文档数据根据语义取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法, 然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同 “簇”的数据集合,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非 敏感型。
基于监督学习算法需收集一定数量的训练数据(比如文档、图片),同时对数据进行人工打标签, 比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量机(SVM)、决 策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新 的数据进行智能识别与预测,自动化输出数据类型⸺敏感 / 非敏感数据。
在实际应用中,Securiti.ai [17] 和 BigID [19]公司均宣称利用机器学习和聚类算法在大规模数据实现分 类,以自动化发现个人数据以及其他敏感数据。但算法的效率、识别精度以及可扩展性仍然是一系列富 有挑战性的关键问题。
参考资料
绿盟 2020 数据安全前沿技术研究报告
友情链接
GB-T 20274.1-2006 信息安全技术 信息系统安全保障评估框架 第一部分:简介和一般模型
脱敏数据的残余风险评估相关推荐
- 基于脱敏数据,使用huggingface的Transformers预训练模型
背景: 一些竞赛给的是脱敏数据,中文竞赛一般将汉字表示为一个整数,汉字间用空格分割,在这样的数据集上想要预训练一个自己的模型,可以参考这个文章. 首先介绍本文参考的文章: 1.别人做的该任务的总结 2 ...
- 滴滴出行“盖亚计划”开放脱敏数据,举办首届信号灯挑战赛|CNCC 2017
本文讲的是滴滴出行"盖亚计划"开放脱敏数据,举办首届信号灯挑战赛|CNCC 2017, 由中国计算机学会(CCF)主办,福州市人民政府.福州大学承办,福建师范大学.福建工程学院协办 ...
- springboot mongodb 脱敏数据的明文查询
一.背景 1.1 项目运行环境 spring-boot 2.0.6 数据库:mongodb 4.4.4 orm框架:spring-data-mongodb java 10 1.2 关于四要素脱敏 所谓 ...
- AOP实现注解式脱敏数据明文查询
最近又遇到了脱敏数据查询相关的问题,常规的脱敏数据比如用户身份证将中间位数抹去后加入数据库,那么查询时需要手动调用就比较麻烦,不过可以使用自定义注解,利用AOP解析后在切面将数据加密再作为参数注入运行 ...
- 用户画像(真实脱敏数据)
数据简介:某租车平台部分数据
- 美团数据仓库-数据脱敏
背景与目标 在数据仓库建设过程中,数据安全扮演着重要角色,因为隐私或敏感数据的泄露,会对数据主体(客户,员工和公司)的财产.名誉.人身安全.以及合法利益造成严重损害.因此我们需要严格控制对仓库中的数据 ...
- 数据脱敏平台-大数据时代的隐私保护利器
什么是数据脱敏 又称数据漂白.数据去隐私化或数据变形.是对核心业务数据中敏感的信息,进行变形.转换.混淆,使得对业务数据中的身份.组织等隐私敏感信息进行去除或掩盖,以保护数据能被合理.安全地利用. 数 ...
- 【2017年第1期】基于文本大数据的企业信用风险评估
杨扬1, 周一懋2, 周宗放3 1. 西南财经大学经济数学学院,四川 成都 611130 2. 江苏汇誉通数据科技有限公司,江苏 苏州 215123 3. 电子科技大学经济与管理学院,四川 成都 61 ...
- 数据脱敏和加密_Apache ShardingSphere数据脱敏全解决方案详解
解决方案详解 在了解了ShardingSphere脱敏处理流程后,即可将脱敏配置.脱敏处理流程与实际场景进行结合.所有的设计开发都是为了解决业务场景遇到的痛点.那么面对之前提到的业务场景需求,又应该如 ...
最新文章
- c51语言的标准库函的头文件,C51编程中头文件的使用
- 工作流程怎么安排?用Edraw Max轻松创建工作流程图!
- C#线程系列(3):线程池和文件下载服务器
- 使Git与代理服务器一起使用-因“请求超时”而失败
- bat 指定jdk_微服务开发 bat 一键批量启动 jar(效率小技巧)
- ActiveMQ安装
- Dinic算法----最大流常用算法之一
- 排序算法(1) 快速排序 C++实现
- swoole 热重启
- arm thttpd php,thttpd嵌入式web开发笔记
- [转载]Web Frameworks for Python by Guido van Rossum
- 抢占云安全管理高地 启明星辰先发云SOC
- oracel的安装和卸载
- bat脚本 提取文件内容和复制文件
- mysql 同比sql_mysql计算同比和环比的区别_【面试真题】Mysql实现计算同比、环比...
- android网购功能,网购Android App购物车点击动画实现详解
- matlab画出二维可行域,matlab中如何对线性规划不等式画图,以及标出可行域?
- 【mp3】洗脑循环了!龙珠超 自在极意功 【究极の圣戦】串田アキラ 背景纯音乐...
- Android运行时Crash自动恢复框架:Recovery
- Error:In PaddlePaddle 2.x
热门文章
- OpenCV:02基础知识和绘制图形
- (实测可用)STM32CubeMX教程-STM32L431RCT6开发板研究串口通信(串口发送函数)
- Python连接MySQL insert插入语句
- linux解压lzma,如何获得LZMA2文件的解压缩大小(.xz/liblzma)
- 电子计算机与互联网发展简史
- TPC/IP协议中与IP相关的知识点简介
- linux mmc 读写,这个mmc读取linux的原因是什么
- SQL server 2008R2 入门
- 使用Xcode的memory graph查找内存泄漏
- java SSM项目基础(day 5)[实现用户添加功能(注册)]