1.开发背景

由于各种原因,在实际生产环境中Mysql或者其他的业务库,有很多敏感数据并没有加密,同样,业务库数据同步到Hive仓库后也并没有加密,这样就存在数据安全问题,但是由于涉及到的库和表太多,用人工去排查显然是不符合实际的,所以急需开发这样一套程序去对进行排查。

2.开发目标

能够把每个库每个表中可能包含敏感信息的字段找出来并存储在Mysql中(敏感信息包括身份证,手机号,邮箱,银行卡号等),并以邮件的形式通知给对应负责人及时进行处理。如果负责人确认该字段不是敏感字段,无需加密,则需要把该表的该字段加入白名单,下次扫描的时候就会自动忽略

3.使用技术

第一版:java hive mysql

升级版:sparksql  sparkcore hive mysql  datax python

流程图:

分析

每个表中随机抽取20条数据,对这些数据的每个字段根据相关正则进行匹配,如果该字段的所有数据都匹配不上正则,说明不包含敏感数据,则不做任何处理,如果有部分匹配上了,则存储在Mysql数据库的时候,将result_flag置为5,如果全部匹配的话,则将result_flag置为10

4.开发结果

表结果:

邮件结果:

数据治理之敏感数据探查相关推荐

  1. 美团配送数据治理实践

    背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值.将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台. 但这里要特别强调一下,如果在大 ...

  2. 数据治理系列文章:(7)数据安全

    概述 数据安全是一个非常重要的领域,特别是随着近几年社会面对数据安全问题的关注和国家相关数据安全法规的颁布,数据安全在各行各业都产生了强烈的需求,如何在传统数据治理的基础上消除安全隐患.强化安全属性, ...

  3. 数据仓库amp;数据指标amp;数据治理体系搭建方法论

    数据仓库的基本概念 数据仓库概念 英文名称为Data Warehouse,可简写为DW或DWH.数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support).它 ...

  4. 美团配送数据治理实践【转载美团技术团队博客】

    大数据时代的到来,让越来越多的企业看到了数据资产的价值.将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台. 但这里要特别强调一下,如果在大数据& ...

  5. Informatica:全局数据治理

    Informatica 的数据治理框架提供了必要的环境和对基本原则的理解,帮助在组织内构建有效的数据治理能力.它有助于确定组织为获得早期价值和动力可借助的能力,以及可减少组遇到的障碍和风险的潜在改进和 ...

  6. 2W字剖析数据治理平台建设经验(建议收藏)

    点击上方 "大数据肌肉猿"关注, 星标一起成长 点击下方链接,进入高质量学习交流群 今日更新| 1052个转型案例分享-大数据交流群 00 前言 阿里巴巴一直将数据作为自己的核心资 ...

  7. 浅谈数据治理体系演进

    网易内部如严选.云音乐.传媒等数据团队对数据内容体系的治理思路都是将治理规范融入到开发过程中,将治理的动作提前,这其实就是"开发治理一体化":事后依赖数据资产健康评估和治理工具进行 ...

  8. 2万字揭秘阿里巴巴数据治理平台建设经验

    全网最全大数据面试提升手册! 00 前言 阿里巴巴一直将数据作为自己的核心资产与能力之一,通过多年的实践探索建设数据应用,支撑业务发展.在不断升级和重构的过程中,我们经历了从分散的数据分析到平台化能力 ...

  9. 阿里巴巴数据治理平台建设经验

    阿里巴巴一直将数据作为自己的核心资产与能力之一,通过多年的实践探索建设数据应用,支撑业务发展.在不断升级和重构的过程中,我们经历了从分散的数据分析到平台化能力整合,再到全局数据智能化的时代.如今,大数 ...

最新文章

  1. 吴恩达 deeplearning.ai 新课上线:TensorFlow 移动和 web 端机器学习
  2. 人工智能AI正从这五个方面改变公司
  3. 设计模式 | 工厂方法模式及典型应用
  4. Python教程:推荐一个比 open 读文件还好用、方便的库
  5. JavaScript中的Date对象在Safari与IOS中的“大坑”
  6. 前端学习(1170):findIndex
  7. 全球企业KVM开源贡献榜发布,腾讯云、华为、阿里巴巴等入围
  8. C++语言基础 —— 函数
  9. pandas计算时间的间隔天数
  10. php网站 只显示sinsiu_sinsiu_cms_1_0_10
  11. css知多少(7)——盒子模型
  12. GIST特征描述符使用
  13. NVIDIA Game Ready 显卡驱动517.48发布!为《守望先锋2》做好游戏准备
  14. PHP的WMB队列消费代理的实现
  15. 【工具篇】maven指令大全
  16. wlop一张多少钱_为什么都说wlop的画很烂?
  17. 单链表的整表创建(头结点版)
  18. openstack-M版,学习笔记六
  19. 微型计算机AL和AH区别,微型计算机的技术与应用.ppt
  20. wordpress后台管理(七)说说管理:所有说说、发表说说

热门文章

  1. php 变量 打字费劲,电脑自己打字停不下来
  2. 【工业智能】用AI来做工业设备的故障诊断,目前还停留在“鸡尾酒疗法”阶段
  3. 2021-09-16关于初学C的心路历程~
  4. Unity3D学习笔记6——GPU实例化(1)
  5. 淘宝双十一喵糖总动员玩法攻略 双11扔喵糖占领格子战队怎么玩
  6. Qt使用键盘事件实现ESC键退出Halcon的绘图流程
  7. svn提交报错Unexpected HTTP status 413 'Request Entity Too Large' on
  8. 【腾讯开发者大会】天刀手游开发历程(笔记)
  9. 机器人杆长标定_关于机器人标定,还有这些内幕你必须知道
  10. 2022青海省农商银行(农信社)招聘每日一练及答案