小结

在用户隐私数据安全合规场景中,企业采集用户信息或与用户形成交互状态,企业此时需要满足各 类隐私合规要求。对于用户敏感行为的信息采集,比如 GPS 轨迹、输入表情以及浏览行为,为了降低合规性风险,可采取本地化差分技术⸺实现批量用户行为数据的挖掘而不泄露单个的个体隐私信息; 为了更好地满足用户出各项数据权利请求与响应,可采取知识图谱技术,对个人信息进行治理与可视 化。进一步地,应用流程自动化技术可对用户数据权利“请求 -响应”过程进行赋能,一方面可通过 高处理效率从而人工运营成本,另一方面可降低由于响应超时带来的合规性风险。我国《个人信息保护 法(草案)》赋予个人包括知情权、决定权、查询权、更正权、删除权等,同时指出“个人信息处理者 应当建立个人行使权利的申请受理和处理机制”,而在《个人信息安全
规范》(GB/T 35273-2020)指 出企业处理用户数据权利请求的时间是 30 天之内。随着我国数据安全法规 -标准体系的完善,可预计 国内用户数据权利响应自动化等隐私合规技术与市场正将逐步形成。

前沿技术

赋能企业内部数据安全治理

本章将聚焦在企业内部数据安全治理场景,首先分析其三个典型的子场景合规性
要求与安全挑战, 后续将从应对的三种前沿技术,包括敏感数据智能识别、数据脱敏风险评估、用户实体行为分析,进行 技术原理、行业应用、以及未来发展的介绍与探讨。

数据安全场景与挑战

本节将分析用户隐私数据安全合规的三个子场景面临的合规性条款,以及安全挑战。

敏感数据的智能识别 / 分类

敏感数据识别与分类是数据安全建设与治理的首要环节。如 2.1 节所述,敏感数据来源有三类:➀ 国家敏感数据(也称重要数据);➁ 个人隐私数据;➂ 企业敏感数据。通过对这三类敏感数据类型的 识别与分类,企业更好地实施敏感数据安全管控与保护。

  • 合规条款
  • GDPR:法规保护“个人数据”。其定义的“个人数据”范围十分宽泛(如 1.2 节分析),不仅 包括姓名、年龄、性别等基本个人信息,还包括个人照片、指纹、虹膜、个人的宗教信仰,心 理和生理特征信息以及 IP、Mac、网络 Cookie 等一系列新增类型(第 4 条)。
  • 《网络安全法》:法规保护的网络信息包括两类:“个人信息”和“重要数据”。对于“个人信息”, 它同样蕴含丰富的信息类型,比如个人照片、身份证照片和指纹等(第 76 条)。对于“重要数据”, 《数据安全管理办法》(征求意见稿)进一步给出了示例, “入未公开的政府信息,大面积人 口、基因健康、地理、矿产资源等”。对于不同类型的敏感数据,企业应履行“采取数据分类、 重要数据备份和加密等措施”(第 21 条)。
  • 问题挑战

敏感数据类型多种多样,传统规则和正则匹配不够智能,易出现漏检。对于非结构数据的检测与识别, 如身份证照片、合同文档,传统的检测与识别方法难以应付。

应对技术: 敏感数据智能识别(参见 4.2 节)

脱敏数据的残余风险评估

虽然数据脱敏在企业得到广泛应用,但研究发现脱敏数据仍然或多或少存在残余的隐私风险 [20]。因此,需对脱敏的数据进行风险评估与风险管理,确保风险在企业组织的可控范围之内。

  • 合规条款
  • GDPR:为了应对隐私问题带来的风险的挑战,GDPR指出数据控制者与处理者“应当执行合 的技术措施和有组织性的措施来保证合理应对风险的安全水平”(第 32 条)。
  • 《网络安全法》:“网络运营者应当采取技术措施和其他必要措施,确保其收集的个人信息安全, 防止信息泄露、毁损、丢失”。即要求企业采取一定的技术与管理措施,确保用户个人信息与 隐私安全(第 42 条)。
  • 问题挑战 如何在攻击视角下,对脱敏数据的残余隐私风险进行刻画。 应对技术: 数据脱敏风险评估(参见 4.3 节)

数据操作行为的异常检测

在数据库、大数据平台等环境中,如何检测与区分正常和异常操作行为模式,对数据安全的监控与 防护十分关键。
 合规条款

同 4.1.2 节的合规条款。

!问题挑战

普通的规则、阈值无法应对复杂业务带来的挑战。 应对技术: 用户实体行为分析 (UEBA)(参见 4.4 节)

敏感数据智能识别

智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中。智能敏感识别包括三类智能 算法:基于相似度、非监督学习和监督学习。

基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。首先,手工或者通过感知算法(例如,SimHash)
取文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文 件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,出来需要学习和训练的敏 感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练 的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。

基于非监督学习算法,人工无需打标签,进行特征设计与提取,比如敏感图像场景提取目标关键点、 文档数据根据语义取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法, 然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同 “簇”的数据集合,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非 敏感型。

基于监督学习算法需收集一定数量的训练数据(比如文档、图片),同时对数据进行人工打标签, 比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量机(SVM)、决 策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新 的数据进行智能识别与预测,自动化输出数据类型⸺敏感 / 非敏感数据。

在实际应用中,Securiti.ai [17] 和 BigID [19]公司均宣称利用机器学习和聚类算法在大规模数据实现分 类,以自动化发现个人数据以及其他敏感数据。但算法的效率、识别精度以及可扩展性仍然是一系列富 有挑战性的关键问题。

参考资料

绿盟 2020 数据安全前沿技术研究报告

友情链接

GB-T 20274.1-2006 信息安全技术 信息系统安全保障评估框架 第一部分:简介和一般模型

脱敏数据的残余风险评估相关推荐

  1. 基于脱敏数据,使用huggingface的Transformers预训练模型

    背景: 一些竞赛给的是脱敏数据,中文竞赛一般将汉字表示为一个整数,汉字间用空格分割,在这样的数据集上想要预训练一个自己的模型,可以参考这个文章. 首先介绍本文参考的文章: 1.别人做的该任务的总结 2 ...

  2. 滴滴出行“盖亚计划”开放脱敏数据,举办首届信号灯挑战赛|CNCC 2017

    本文讲的是滴滴出行"盖亚计划"开放脱敏数据,举办首届信号灯挑战赛|CNCC 2017, 由中国计算机学会(CCF)主办,福州市人民政府.福州大学承办,福建师范大学.福建工程学院协办 ...

  3. springboot mongodb 脱敏数据的明文查询

    一.背景 1.1 项目运行环境 spring-boot 2.0.6 数据库:mongodb 4.4.4 orm框架:spring-data-mongodb java 10 1.2 关于四要素脱敏 所谓 ...

  4. AOP实现注解式脱敏数据明文查询

    最近又遇到了脱敏数据查询相关的问题,常规的脱敏数据比如用户身份证将中间位数抹去后加入数据库,那么查询时需要手动调用就比较麻烦,不过可以使用自定义注解,利用AOP解析后在切面将数据加密再作为参数注入运行 ...

  5. 用户画像(真实脱敏数据)

    数据简介:某租车平台部分数据

  6. 美团数据仓库-数据脱敏

    背景与目标 在数据仓库建设过程中,数据安全扮演着重要角色,因为隐私或敏感数据的泄露,会对数据主体(客户,员工和公司)的财产.名誉.人身安全.以及合法利益造成严重损害.因此我们需要严格控制对仓库中的数据 ...

  7. 数据脱敏平台-大数据时代的隐私保护利器

    什么是数据脱敏 又称数据漂白.数据去隐私化或数据变形.是对核心业务数据中敏感的信息,进行变形.转换.混淆,使得对业务数据中的身份.组织等隐私敏感信息进行去除或掩盖,以保护数据能被合理.安全地利用. 数 ...

  8. 【2017年第1期】基于文本大数据的企业信用风险评估

    杨扬1, 周一懋2, 周宗放3 1. 西南财经大学经济数学学院,四川 成都 611130 2. 江苏汇誉通数据科技有限公司,江苏 苏州 215123 3. 电子科技大学经济与管理学院,四川 成都 61 ...

  9. 数据脱敏和加密_Apache ShardingSphere数据脱敏全解决方案详解

    解决方案详解 在了解了ShardingSphere脱敏处理流程后,即可将脱敏配置.脱敏处理流程与实际场景进行结合.所有的设计开发都是为了解决业务场景遇到的痛点.那么面对之前提到的业务场景需求,又应该如 ...

最新文章

  1. c51语言的标准库函的头文件,C51编程中头文件的使用
  2. 工作流程怎么安排?用Edraw Max轻松创建工作流程图!
  3. C#线程系列(3):线程池和文件下载服务器
  4. 使Git与代理服务器一起使用-因“请求超时”而失败
  5. bat 指定jdk_微服务开发 bat 一键批量启动 jar(效率小技巧)
  6. ActiveMQ安装
  7. Dinic算法----最大流常用算法之一
  8. 排序算法(1) 快速排序 C++实现
  9. swoole 热重启
  10. arm thttpd php,thttpd嵌入式web开发笔记
  11. [转载]Web Frameworks for Python by Guido van Rossum
  12. 抢占云安全管理高地 启明星辰先发云SOC
  13. oracel的安装和卸载
  14. bat脚本 提取文件内容和复制文件
  15. mysql 同比sql_mysql计算同比和环比的区别_【面试真题】Mysql实现计算同比、环比...
  16. android网购功能,网购Android App购物车点击动画实现详解
  17. matlab画出二维可行域,matlab中如何对线性规划不等式画图,以及标出可行域?
  18. 【mp3】洗脑循环了!龙珠超 自在极意功 【究极の圣戦】串田アキラ 背景纯音乐...
  19. Android运行时Crash自动恢复框架:Recovery
  20. Error:In PaddlePaddle 2.x

热门文章

  1. OpenCV:02基础知识和绘制图形
  2. (实测可用)STM32CubeMX教程-STM32L431RCT6开发板研究串口通信(串口发送函数)
  3. Python连接MySQL insert插入语句
  4. linux解压lzma,如何获得LZMA2文件的解压缩大小(.xz/liblzma)
  5. 电子计算机与互联网发展简史
  6. TPC/IP协议中与IP相关的知识点简介
  7. linux mmc 读写,这个mmc读取linux的原因是什么
  8. SQL server 2008R2 入门
  9. 使用Xcode的memory graph查找内存泄漏
  10. java SSM项目基础(day 5)[实现用户添加功能(注册)]