大数据时代下,海量数据中蕴藏的价值得以挖掘,但也带来隐私信息与关键性敏感数据保护方面的困难。数据脱敏技术是解决这一问题的重要手段之一。传统的脱敏方法人工干预大,配置成本高,对用户的专业素养要求高。

为解决这一问题,如果将数据安全脱敏技术与人工智能的自主学习和强大的数据分析能力相结合,则无需过多人工干预,会显著加强数据脱敏系统的可靠性和易用性,在保证安全性的同时,实现易学习、免配置、自动脱敏和自适应脱敏算法等功能。

相关概念及内涵

数据脱敏是在保存数据原始特征的同时改变其数值,从而保护敏感数据免于未经授权而被访问,同时又可以进行相关的数据处理,可以在保留数据意义和有效性的同时保持数据的安全性,并遵从数据隐私规范。借助数据脱敏,信息依旧可以被使用,并与业务相关联,不会违反相关规定,而且也避免了数据泄露的风险。

传统的数据脱敏工作流程,一般如图所示

传统数据脱敏系统工作流程

传统数据脱敏系统的敏感数据发现和关联关系识别,一般都是通过人工配置和正则表达式匹配来实现的。

规则式脱敏系统示意

其识别准确程度主要取决于正则表达式的规则设置是否精准合理。然而性能与准确性不可兼得:正则匹配规则越简单,系统性能越好,识别率相对较差;而复杂的正则规则下提升了识别率,但系统性能却有所下降,对人工配置的经验和技术要求较高,一般业务人员难以胜任。

大数据时代下的数据脱敏系统机制

大数据时代下的数据脱敏系统设计提供多种预置算法库,包括映射、随机、散列和加密四大类,每一大类中都包含若干算法。系统可以根据用户的业务需求,灵活搭配,使针对敏感数据的脱敏能够满足数据原始属性、可重复性、可逆性、关联性、可追踪性以及准确性要求。其一般原型工作流程逻辑如图所示。

数据脱敏系统工作逻辑流程图

系统实施步骤可以分解为:

(1)收集用户当前业务系统需求进行数据模型分析,建立系统原型及使用环境;

(2)对用户当前业务系统数据进行智能数据分析,通过机器自学习识别出当前业务系统敏感数据,进行自动聚类,提出敏感数据分类分级规则方案;

(3)对智能发现的敏感数据进行关联关系分析以及数据变形规则分析,同时对系统进行分析;

(4)根据第3步的分析,对用户权限、脱敏规则、脱敏数据表、脱敏函数、脱敏数据关联关系及脱敏流程进行配置,导入到系统原型;

(5)对敏感数据进行数据的变形工作,包括脱敏函数库的自定义、扩展及丰富;

(6)进行脱敏数据的分发,包括数据加载到其他库、 数据加载到本地库、 数据在线脱敏使用;

(7)通过脱敏后的结果对系统原型支撑技术进行验证。

大数据智能化背景下的数据脱敏技术分析

基于人工智能的敏感数据自动分类和识别、机器学习的数据关联关系识别和保持、用户使用模型学习的智能自适应脱敏算法等三个角度,本文对大数据背景下的数据脱敏进行了技术分析。

典型案例实验分析

文章以一个典型的运营商应用业务场景中的数据脱敏作为案例进行了实验分析。该案例采用智能自适应脱敏算法在海量运营商用户中随机抽取36万个用户的静态属性表、套餐开通数据表、Top10APP使用数据表,月流量语音使用数据表总共 31列的属性中进行智能自适应脱敏。

讨论

文章指出随着目前大数据与人工智能的飞速发展,数据脱敏将面临诸多挑战:

如何将数据安全脱敏技术与人工智能的自主学习和强大的数据分析能力有机结合;

如何利用大数据智能分析及人工智能建模算法从传统的静态脱敏方式到自适应的动态脱敏模式转变,有效满足多模态数据交互流量的不断增长和复杂多变的安全处理业务场景需求,例如在电力、运营商这种关乎国计民生的行业的应用;

如何应对大数据智能化场景下用户信息透明导致的数据所有权及使用权的伦理问题,仅仅依赖智能化的技术是否能使数据脱敏评价机制的可靠性、敏感数据准确识别方法多样性及数据治理体系的全面性达到预期目标。

结论

最后,文章从技术、需求和法治、管理机制方面提出了数据脱敏的3点思考和建议:

  • 辩证地认识数据脱敏安全问题;
  • 多媒体数据的隐私保护与脱敏会成为未来数据脱敏领域的重点方向;
  • 数据脱敏问题还需要与法律法规、管理机制等层面进行联动。

全文详见《大数据智能下数据脱敏的思考》,论文发表在《科技导报》2020年第3期。

论文作者:

王红凯,龚小刚,叶卫,陈超,马新强,姚进强,刘勇

作者简介:

王红凯,国网浙江省电力有限公司信息通信分公司,高级工程师,研究方向为网络与信息安全;

马新强(通信作者),浙江大学智能系统与控制研究所,重庆文理学院人工智能学院,教授,研究方向为大数据智能化与信息安全;

刘勇(共同通信作者),浙江大学智能系统与控制研究所,教授,研究方向为大数据、人工智能与信息安全。

大数据的4v特征及思考_大数据智能下数据脱敏的思考相关推荐

  1. 大数据的4v特征、数据预处理

    一.大数据的4v特征 大数据的4v特征主要包含规模性(Volume).多样性(Variety).高速性(Velocity).价值性(Value) 1.规模性(Volume) 大数据中的数据计量单位是P ...

  2. 大数据智能下数据脱敏的思考

    大数据时代下,海量数据中蕴藏的价值得以挖掘,但也带来隐私信息与关键性敏感数据保护方面的困难.数据脱敏技术是解决这一问题的重要手段之一.传统的脱敏方法人工干预大,配置成本高,对用户的专业素养要求高. 为 ...

  3. 大数据分析师高级证书_数据分析师资格证书好考吗_大数据分析师认证

    数据分析师资格证书好考吗_大数据分析师认证 为了适应大数据时代的要求,数据分析这一工作需要更加正规化.专业化以及职业化,因此,数据分析师应运而生,成了较多人争相报考的科目.那么 一方面,据小编了解,数 ...

  4. 《大数据》2015年第3期“网络大数据专题”——基于特征学习的文本大数据内容理解及其发展趋势...

    基于特征学习的文本大数据内容理解及其发展趋势 袁书寒,向 阳,鄂世嘉 (同济大学计算机科学与技术系 上海 201804) 摘要:大数据中蕴含着重要的价值信息,文本大数据作为大数据的重要组成部分,是人类 ...

  5. 大数据在各个行业的应用_大数据的应用领域有哪些

    一.金融领域 大数据所带来的社会变革已经深入到人们生活的各个方面,金融创新离不开大数据,日常的出行.购物.运动.理财等等.金融业面临众多前所未有的跨界竞争对手,市场格局.业务流程将发生巨大改变.未来的 ...

  6. 大数据在高校的应用场景_大数据在高校教育信息化的应用

    [摘要]随着我国经济的发展,科学技术的迅猛提高,信息技术已经逐渐融入到社会的每一个角落,21世纪开始步入信息化时代.随着信息技术的渗透,作为社会生活的重要阵地,高校自然也不会置身事外,信息技术在高校教 ...

  7. 大数据在高校的应用场景_大数据在高校中的应用研究

    大数据在高校中的典型应用 很多高校正在使用大数据分析技术解决遇到的实际问题,如美国德克萨斯大学利用大数据技术分析学校用户IT 使用行为产生的数据,确定用户行为异常,审计IT 基础环境,制定安全防护措施 ...

  8. 大数据开发和java的前景_大数据开发和javaEE后端开发哪个就业前景好?

    javaEE后端开发和大数据开发(Hadoop Spark...)哪个就业前景好? 本科计算机毕业一年了最近在自学想选择一个方向努力有JavaSE基础想知道这两个方向市场怎么样我知道javaEE后端开 ...

  9. 大数据后从此再无隐私_大数据时代没有个人隐私?

    作为一名大数据领域的从业者,我来回答一下这个问题. ​在大数据技术的推动下,随着数据价值的不断提高,关于个人隐私的安全问题受到了更多的关注,关于如何在大数据时代保护个人隐私(数据安全)也是目前不少研究 ...

  10. python做大数据开发是做什么的_大数据开发是干什么的?

    大数据作为时下火热的IT行业的词汇,随之而来的数据开发.数据仓库.数据安全.数据分析.数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点.随着大数据时代的来临,大数据开发也应运而 ...

最新文章

  1. linux mail 命令 (收发邮件)
  2. python第三方库Requests的基本使用
  3. php kafka storm,php的kafka踩坑(二)
  4. Android之Bitmap学习总结
  5. 新闻发布系统java ee_Java EE 7发布–反馈和新闻报道
  6. HAO3GP整站源码学生当时就蒙了
  7. 视频帧率对人眼主观感受的影响 2
  8. what is apache2 ?
  9. 反射中的SetValue和GetValue
  10. 图片转文字,实用的图片文字识别工具
  11. 愿你一直能够撑下去!
  12. 波士顿大学计算机科学与技术专业,波士顿大学计算机科学专业.pdf
  13. 如何学会计算机基础,学会这4点,你就能快速掌握电脑基本操作,摆脱新手的标签...
  14. 想想五年后的你,什么工作值得你去拼命? 转~ 推迟满足感 成长比成功重要
  15. puzzle(0151)《24点》
  16. 隧道放样方法+超欠挖计算方法+程序
  17. ytb网站报错 “您没有联网,请检查网络连接”
  18. Python IDE开发环境
  19. 4.3 脉冲响应不变法
  20. 图像处理中的傅里叶变换

热门文章

  1. Oracle 查看表空间使用率,表空间扩展
  2. html文件怎么兼容浏览器,如何扫描HTML和跨浏览器兼容的JavaScript文件?
  3. python控制语句字符串截取_python字符串截取如何操作
  4. kill mysql 进程_如何快速处理mysql连接数占满的问题?
  5. 动态规划——Palindrome Partitioning II
  6. 安卓中如何修改创建的模拟器的存储位置
  7. 部署单台zookeeper
  8. ASP.NET文件的上传与下载
  9. 写PHP还是Zend好用
  10. web开发必备的几个软件