大数据时代下,海量数据中蕴藏的价值得以挖掘,但也带来隐私信息与关键性敏感数据保护方面的困难。数据脱敏技术是解决这一问题的重要手段之一。传统的脱敏方法人工干预大,配置成本高,对用户的专业素养要求高。
为解决这一问题,如果将数据安全脱敏技术与人工智能的自主学习和强大的数据分析能力相结合,则无需过多人工干预,会显著加强数据脱敏系统的可靠性和易用性,在保证安全性的同时,实现易学习、免配置、自动脱敏和自适应脱敏算法等功能。
**相关概念及内涵

数据脱敏是在保存数据原始特征的同时改变其数值,从而保护敏感数据免于未经授权而被访问,同时又可以进行相关的数据处理,可以在保留数据意义和有效性的同时保持数据的安全性,并遵从数据隐私规范。借助数据脱敏,信息依旧可以被使用,并与业务相关联,不会违反相关规定,而且也避免了数据泄露的风险。
传统的数据脱敏工作流程,一般如图所示**

传统数据脱敏系统的敏感数据发现和关联关系识别,一般都是通过人工配置和正则表达式匹配来实现的。

其识别准确程度主要取决于正则表达式的规则设置是否精准合理。然而性能与准确性不可兼得:正则匹配规则越简单,系统性能越好,识别率相对较差;而复杂的正则规则下提升了识别率,但系统性能却有所下降,对人工配置的经验和技术要求较高,一般业务人员难以胜任。
大数据时代下的数据脱敏系统机制

大数据时代下的数据脱敏系统设计提供多种预置算法库,包括映射、随机、散列和加密四大类,每一大类中都包含若干算法。系统可以根据用户的业务需求,灵活搭配,使针对敏感数据的脱敏能够满足数据原始属性、可重复性、可逆性、关联性、可追踪性以及准确性要求。其一般原型工作流程逻辑如图所示。

系统实施步骤可以分解为:
(1)收集用户当前业务系统需求进行数据模型分析,建立系统原型及使用环境;
(2)对用户当前业务系统数据进行智能数据分析,通过机器自学习识别出当前业务系统敏感数据,进行自动聚类,提出敏感数据分类分级规则方案;
(3)对智能发现的敏感数据进行关联关系分析以及数据变形规则分析,同时对系统进行分析;
(4)根据第3步的分析,对用户权限、脱敏规则、脱敏数据表、脱敏函数、脱敏数据关联关系及脱敏流程进行配置,导入到系统原型;
(5)对敏感数据进行数据的变形工作,包括脱敏函数库的自定义、扩展及丰富;
(6)进行脱敏数据的分发,包括数据加载到其他库、 数据加载到本地库、 数据在线脱敏使用;
(7)通过脱敏后的结果对系统原型支撑技术进行验证。
大数据智能化背景下的数据脱敏技术分析

基于人工智能的敏感数据自动分类和识别、机器学习的数据关联关系识别和保持、用户使用模型学习的智能自适应脱敏算法等三个角度,本文对大数据背景下的数据脱敏进行了技术分析。
典型案例实验分析

文章以一个典型的运营商应用业务场景中的数据脱敏作为案例进行了实验分析。该案例采用智能自适应脱敏算法在海量运营商用户中随机抽取36万个用户的静态属性表、套餐开通数据表、Top10APP使用数据表,月流量语音使用数据表总共 31列的属性中进行智能自适应脱敏。
讨论

文章指出随着目前大数据与人工智能的飞速发展,数据脱敏将面临诸多挑战:

如何将数据安全脱敏技术与人工智能的自主学习和强大的数据分析能力有机结合;
如何利用大数据智能分析及人工智能建模算法从传统的静态脱敏方式到自适应的动态脱敏模式转变,有效满足多模态数据交互流量的不断增长和复杂多变的安全处理业务场景需求,例如在电力、运营商这种关乎国计民生的行业的应用;
如何应对大数据智能化场景下用户信息透明导致的数据所有权及使用权的伦理问题,仅仅依赖智能化的技术是否能使数据脱敏评价机制的可靠性、敏感数据准确识别方法多样性及数据治理体系的全面性达到预期目标。

结论

最后,文章从技术、需求和法治、管理机制方面提出了数据脱敏的3点思考和建议:
辩证地认识数据脱敏安全问题;
多媒体数据的隐私保护与脱敏会成为未来数据脱敏领域的重点方向;
数据脱敏问题还需要与法律法规、管理机制等层面进行联动。

全文详见《大数据智能下数据脱敏的思考》,论文发表在《科技导报》2020年第3期。

转载自:https://mp.weixin.qq.com/s/j4HQsUNjZthqp5OqPCP68Q

大数据智能下数据脱敏的思考相关推荐

  1. 医疗数据治理——构建高质量医疗大数据智能分析数据基础

    医疗数据治理--构建高质量医疗大数据智能分析数据基础 阮彤,邱加辉,张知行,叶琪 华东理工大学计算机科学与技术系,上海 200237   摘要:以专病真实世界研究为背景,分析了医疗数据治理和数据可用性 ...

  2. 开源实践 | OceanBase 在红象云腾大数据场景下的实践与思考

    本文将介绍 OceanBase 在红象云腾大数据场景下的落地实践与思考,希望帮助正在探索 OceanBase 的企业用户快速实现 OceanBase 选型与落地. 作者:童小军 红象云腾 (REDOO ...

  3. 金融数据智能峰会 | 数据规模爆炸性增长,企业如何进行精准决策?云原生数据仓库数据化运营实战分享

    简介:在日前的2021阿里云金融数据智能峰会--<云原生驱动数智化运营的"增长黑马">专场上,阿里云数据库资深技术专家魏闯先 从数据价值链路角度切入,为大家解读云原生数 ...

  4. 奇点云数据中台技术汇 | 数据智能模型——数据中台航母的作战集群

    中台是"让听得见炮火的人召唤炮火",面对如火如荼的中台建设潮,只有先解释了"数据该怎么用"的问题,才有必要进一步解答"数据怎么来".&quo ...

  5. 神策数据成林松:数据智能在业务场景下的应用(附 PPT 下载)

     在神策 2020 数据驱动用户大会「上海站」现场,神策数据业务咨询师成林松分享了<数据智能在业务场景下的应用>的演讲.(文末附 PPT 下载地址) 本文根据其演讲内容整理,数据均为虚拟. ...

  6. 企业数字化最核心的数据智能,它的价值到底在哪?

    一.企业数字化概述 近年来,企业数字化转型已经成为各行各业的共识,很多企业在数字化转型上已经投入了大量资源,部分转型成功的企业已体验到数字化带来的生意增长和业务流程的敏捷优化. 随着数字化进程的加快, ...

  7. 赠票 | 2019,GMIS归来!杨强、吴恩达等全球重磅嘉宾共话数据智能(上海)

    GMIS 是机器之心主办的全球机器智能系列峰会,是关注全球人工智能前沿技术和产业应用的年度盛会. GMIS 2017 于 2017 年 5 月在北京举办,围绕主题"机器智能时代", ...

  8. 【个推CTO谈数据智能】之本质及技术体系要求

    戳蓝字"CSDN云计算"关注我们哦! 作者|安森来源|个推技术学院 安森,个推CTO 毕业于浙江大学,现全面负责个推技术选型.研发创新.运维管理等工作,已带领团队开发出针对移动互联 ...

  9. 友盟+吕志国:数据智能让天下没有难做的营销

    2021年,在疫情黑天鹅.新消费群体崛起.存量竞争加剧等发展趋势的相互作用下,营销行业迎来了一个崭新阶段.营销数字化成为了企业转型升级的重中之重,而在此过程中,企业应如何通过数据智能,让营销" ...

最新文章

  1. nodejs npm install -g 全局安装和非全局安装的区别
  2. jquery 选择时间(小时)区间(二)
  3. 开发日记-20190915 关键词 汇编语言王爽版 第九章
  4. x264代码剖析(十四):核心算法之宏块编码函数x264_macroblock_encode()
  5. cmake--gccxml
  6. HDU - 4135 Co-prime(容斥原理)
  7. Oracle primary,unique,foreign 区别,Hibernate 关联映射
  8. 一篇文章学习Python中的多进程
  9. 北京大学药学院张亮仁教授/刘振明研究员课题组博士后招聘启事
  10. html li之间的间隙,求助大神 如让图片展示在li标签里面,不要间隙 谢谢
  11. 阿里巴巴建议的线程池创建方式,你用上了吗?
  12. WAP 1.X 2.0 相关知识
  13. Low-Light Image Enhancement via Edge-Enhanced Multi-Exposure Fusion Network阅读札记
  14. 局域网共享文件搭建方法
  15. 高性能计算--HPCC--他人评述
  16. Android双系统之基本问题研究
  17. Docker 入门教程 - 2021 最新版(上)
  18. 简单操作用R Markdown生成HTML和PDF文件
  19. JavaScript 加减法
  20. fx3g485通讯模块_FX3G-485-BD用户手册三菱FX3G-485-BD数据通讯版手册 - 广州凌控

热门文章

  1. 席慕容《写给幸福》读记
  2. android判断字符中是否包含表情符
  3. 印象笔记不同步问题的解决方法
  4. 如何在苹果iPhone或iPad上启用SSL证书
  5. (18)语义分割--paddle--EISeg自动标注软件的使用和自己数据集的测试
  6. MP3/MP4原理电路图下载全搜集
  7. 课程实训-校园导游系统
  8. 北京市自动驾驶车辆测试概况
  9. matplotlib 均值_matplotlib可视化箱线图
  10. SparkLink星闪技术之SLB概述