数据分类分级的深度思考
文章目录
前言
1、敏感数据识别
1.1落地难点
1.2技术实现
1.2.1常规识别技术
1.2.2AI(人工智能)和ML(机器学习)
1.3敏感数据识别存在的问题
2、分类分级进阶功能
2.1数据资产管理
2.2数据分类分级
2.3数据资产地图
2.4敏感数据流动监控
2.5数据安全风险检测
2.6数据开放共享管理
总结
前言
随着数据分类分级成为市场热点之后,市面上数据分类分级产品不断涌现出来,但功能都大同小异,原理和方法论都摆在那里,能区分的就是产品核心技术和安全服务的区别,能不能做好数据分类分级这项工作依赖于对客户业务的深度理解融合。
关于数据分类分级的解决方案请看金融数据安全分类分级解决方案,可以了解下整体思路和基本概念;关于数据分类分级产品的介绍请看 数据分类分级产品,一文详解;可以了解产品基本功能和实现原理,当你看了前两篇文章有了初步的理解之后,这篇文章重点讨论了数据分类分级工具的敏感数据识别能力和功能优化的一些深度思考。
1、敏感数据识别
数据分类分级的准确度和效率取决于工具的识别能力是否强大,即“工具是不是真的能够看到数据、看懂数据”。
1.1落地难点
数据分类分类大多数安全工具都是基于模式匹配和相对敏感级别来执行的,然后将该结果记录在存储库中或作为文档上的标签或标签,敏感数据识别策略是数据识别的一个核心能力点。
市面上很多工具大多会选择从具备明显数据特征的数据切入。如身份证号码有固定的编码,手机号码有固定的位数格式,姓名、民族等都具有易于定义和区分的含义,识别策略较容易设计。
客户特定且不断增长的业务数据,在数据分类分级的框架下往往不具备明显的数据特征,甚至还可能存在歧义。比如一个姓名,他可能是企业员工,也可能是企业用户,在不同的业务场景和数据类别中,其重要程度和敏感度是不一样的。例如,数字35可以是门牌号、温度——实际上是任何东西,当数据分类分级产品仅限于模式匹配以进行发现和分类时,几乎无法发现某个数据特征不明显的业务数据是什么。
1.2技术实现
1.2.1常规识别技术
①基于规则的自动识别,比如:正则表达式、关键字、算法、数据字典、包含、等于、字段名等规则。
通过用户自定义规则,自动识别敏感数据,使用自带的规则或自定义规则,对其结构化表或者非结构化文件进行整体扫描。
如何发现敏感数据字段?
通过定期全库扫描,识别敏感字段(周期触发)。如果新增或修改表和字段,增量扫描识别出敏感字段,需要监听数据库对表或字段的操作,来指定表或字段进行敏感识别扫描,需结合数据库代理服务。
日常的一些敏感数据识别
银行卡号、证件号、手机号,有明确的规则,可以根据正则表达式和算法匹配;姓名、特殊字段,没有明确信息,可能是任意字符串,可以通过配置关键字来进行匹配;营业执照、地址、图片等,没有明确规则,可以通过自然语言算法来识别,使用开源算法库。
②字段名匹配
针对已经做过元数据梳理或者人工分类分级的客户,可以把敏感数据的字段名导出来,在数据分类分级工具中输入敏感数据在数据库中对应表字段的名称,可以直接100%匹配到敏感数据,这种方式可以避免重复工作。
③人工辅助的数据资产识别
技术工具识别出来的结果再精准也不如人工,所以在敏感数据识别环节要预留人工二次确认的环节,提高准确性。
能落地的数据分类分级工具必须经过大量项目的沉淀,通过深度接触客户的业务,理解具体场景中的数据含义,掌握各种数据处理活动中的数据流动情况,再将这些知识和经验集成到工具中,才能发挥实际作用。
1.2.2AI(人工智能)和ML(机器学习)
理想化的数据分类分级技术工具应具备数据分类的语义能力——判断数据的实际情况和业务场景,而不是依赖于预配置的标识符。
安全厂商正在努力摆脱算法模式匹配,并正在添加基于人工智能/机器学习的功能,使技术工具的语义功能可以识别出“真正”的数据。
下面简单介绍一下基于人工智能的敏感数据发现。
①基于 NLP 自然语言技术的自动识别
自然语言处理(NLP)是指机器理解并解释人类paralyzes写作、说话方式的能力。NLP的目标是让计算机/机器在理解语言上像人类一样智能。
插入一段科普:人工智能三大阶段
阶段 1——机器学习:智能系统使用一系列算法从经验中进行学习。
阶段 2——机器智能:机器使用的一系列从经验中进行学习的高级算法,例如深度神经网络。人工智能目前处于此阶段。
阶段 3——机器意识:不需要外部数据就能从经验中自学习。
具体的算法模型不展开讨论,AI技术对于敏感数据的自动识别有关键意义。目前业内智能化打标一般指的是针对敏感数据进行打标。借助正则表达式、关键词、文档指纹、NLP、OCR、机器学习等先进AI技术提取敏感数据特征,建立相应敏感识别规则,然后统一录入规则引擎。
②机器学习
机器学习是未来战略技术趋势之一,当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,机器学习在当前的大数据技术中扮演着重要的角色。机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能.在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。
- 基于相似度算法
基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。
首先,手工或者通过感知算法提取文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,提出来需要学习和训练的敏感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。
- 基于非监督学习算法
基于无监督学习算法,人工无需打标签,进行特征设计与提取。
比如敏感图像场景提取目标关键点、文档数据根据语义提取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法,然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同“簇”的数据集合,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非敏感型。
- 基于监督学习算法
基于监督学习算法需收集一定数量的训练数据,同时对数据进行人工打标签,比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量、决策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新的数据进行智能识别与预测,自动化输出数据类型--敏感 / 非敏感数据。
目前有公司宣称利用机器学习和聚类算法实现规模数据分类,以自动化发现个人数据以及其他敏感数据,但算法的效率、识别精度以及可扩展性仍然是一系列有挑战性的关键问题。
③深度学习
深度学习是机器学习的一大分支,在自然语言处理中需应用深度学习模型,如卷积神经网络、循环神经网络等,通过对生成的词向量进行学习,以完成自然语言分类、理解的过程。
与传统的机器学习相比,基于深度学习的自然语言处理技术具备以下优势:
(1)深度学习能够以词或句子的向量化为前提,不断学习语言特征,掌握更高层次、更加抽象的语言特征,满足大量特征工程的自然语言处理要求。
(2)深度学习无需专家人工定义训练集,可通过神经网络自动学习高层次特征
简单例举机器学习中三种敏感数据识别的算法模型,具体技术细节不展开讨论。通过机器学习算法对数据进行多维度元数据特征向量自动提取,对相似字段的数据字段进行聚合归类。数据分类分级工具在有足够数据样板的条件下是可以支持机器学习的,通过各种AI算法自动完成敏感数据识别、分类分级,缩减了所投入的人力成本,敏感数据识别规则的沉淀随着分类分级工作的深入开展,边际成本递减。
1.3敏感数据识别存在的问题
- 全库扫描占用资源较大,是否可以使用采样的方式
- 应对增量数据如何处理,除了执行定期扫描是否还有其他方式
- 脏数据的判断识别,有的字段是NULL或者空格的,是否可以直接默认是定义为敏感级别
- 数据打标签,是对全库字段打标,还是只对采样数据进行打标,并单独存库用走后期的统计分析。
- 机器学习和聚类算法是否成熟,需要考虑精确度和效率。
2、分类分级进阶功能
2.1数据资产管理
支持数据源手动添加、自动发现、API 对接三种模式。
- 手工添加数据库,配置数据库的详细连接信息。
- API 通用接口对接其他数据平台的元数据。
- 自动发现在通过IP地址区间和端口扫描自动化发现网络环境中存在的数据库。
2.2数据分类分级
数据自动分类分级。对识别到的数据资产结合内置识别模型和配置的分类分级规则进行分析,自动完成敏感数据识别和数据分类分级。
分类分级结果展示。完成分类分级自动打标后,需展示本次自动识别的数据分类分级结果清单以供查看和批准,并支持手工修改。
2.3数据资产地图
利用数据处理程序对采集的数据进行清洗、解析、处理,通过数据识别和分类分级引擎,结合数据识别策略、分类分级策略、数据识别和分类模型对处理后的数据进行匹配识别,准确定位数据中包含的敏感数据或重要数据,对其进行识别标记和分类分级标记。
利用数据分析引擎,对数据源、采集数据、识别结果等内容进行全面分析,形成企业数据资产地图、多维统计分析视图、资产分析报告、资产清单等,为企业进一步的数据价值挖掘、数据安全防护体系建设完成数据准备工作。
2.4敏感数据流动监控
在所有流动的数据资产可视基础上,发现敏感数据并进行分类分级,做到所有流动的数据已知,所有敏感数据已知。知道敏感数据资产的流转路径,涉及业务部门、时间、地点等信息。基于已知的敏感数据后续制定各种场景化的预警和告警,从而有效保护敏感数据。
2.5数据安全风险检测
能够展示数据访问热度、敏感数据分布等统计信息,对数据资产的访问源头、访问频率、访问时间、访问流量等敏感数据访问情况进行监测。这项功能涉及流量分析技术。
2.6数据开放共享管理
对数据分类分级之后进行共享管控,严格按照安全级别进安全管理,对高安全级别数据需要经过数据脱敏处理之后开放,对数据共享全链路进行风险监控;另一方面严格控制数据访问权限,设置数据消费(使用)账号进行权限区分。
以上举例的几个进阶功能只是一个理论概念,真正落地实现要看实际的业务场景需求,前提是先得打好数据分类分级的基础,其他的数据、数据安全防护的可扩展性才能被慢慢挖掘出来。
总结
对于数据分类分级这个技术工具的演变后面肯定是一个集成化的产品,与数据平台的对接或者安全产品的联动联防必定成为焦点,关于精细化防护的场景更多在运维端。搭配相应的组织架构、制度流程、人员配置,数据分类分级这项工作才能真正落地。
数据分类分级处在数据治理和数据安全治理的交汇处,这就意味着它的交互场景会非常多,往往很多时候需要应用的场景牵扯到业务,同时需要兼顾安全。对于数据安全和治理三个维度的要素,我们如果按照紧急或者是大小程度去排序,应该是数据>治理>安全,在整个数据安全或者是数据治理的过程当中,我们都应该考虑一个问题,如何对数据进行降本增效的效果。
下期更新分类分级落地最佳效果,落地之后怎么做,值得思考!
资料参考:
- 敏感数据算法识别参考:http://t.csdn.cn/Q8g77
- 数据与数据安全的关系参考:https://t.zsxq.com/02uR7iiyZ
注:以上内容分享仅供参考和学习,如有侵权,请联系我删除。
数据分类分级的深度思考相关推荐
- 数据分类分级的实践方法论与更深层次的思考
数据分类分级的实践方法论与更深层次的思考 数据安全的未来 未来的世界观 价值和意义 数据分类分级实践方法论 背景 数据分类分级介绍 数据分类分级建设方案 1.数据安全整体规划 2.数据安全体系制度及实 ...
- 《数据安全法》第二十一条【数据分类分级保护】 解读与合规实践探究
<中华人民共和国数据安全法> 第二十一条: 国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改.破坏.泄露或者非法获取.非法利用,对国家安全.公共利益或者个 ...
- 《媒体大数据分类分级指南》团体标准正式发布,易观分析参与编制
11月16日,<媒体大数据分级指南>团体标准由中国市场信息调查业协会发布并开始实施,易观分析参与编制. 随着互联网和数字经济的发展,媒体深度融合,媒体大数据既是新闻生产的核心要素,也是重要 ...
- 反思深度思考:预热[准备] 高密度[压力专注] 辨真伪[冷静分析] 反推[灵活] 结构化[全局]
陈六六 公众号:陈六六的成长笔记 1.给大脑预热的习惯 一般来说,在进入烧脑的深度思考之前,我会做两次深呼吸.通过两个深呼吸的时间来调整自己的思维状态. 这样我每次都很容易开启我的"深度思考 ...
- 反思深度思考:不无脑的行动 有脑的持久行动
https://www.zhihu.com/question/290935221 知乎的一些答案 写的挺不错的 读来自己反思下 (持续更新) 个人问题 好像自己一直在瞎跑,还跑的挺辛苦,但是很多路都 ...
- 深度思考的能力,决定了你能走多远
深度思考的能力,决定了你能走多远 陕西西安火车站的一名90后售票员李聪,能够把全国铁路接算站示意图上的几百个站名,熟记于心. 凭借着这身本事,李聪1年为乘客推荐了近2万次的换乘方案,也因此被誉为西 ...
- 忍不住了, 和大家聊聊怎么写简历吧, 关于简历的深度思考
最近几个月休假, 帮助朋友的猎头公司看人选, 每天大约500份左右的简历, 真的有些话不吐不快. 市面上也有不少关于写简历的文章, 但是, 在我看来如同隔靴搔痒, 没有搔到我们用人单位的痒处, 简历的 ...
- 为什么说只有深度思考才能让你持续赚到钱?
尽管我们看过无数的投资书籍,读过无数的名人传记,也经常听人说,长线思维,价值投资,乐观主义,但大部分人恐怕仍然不理解其中的奥秘. 大道至简,真正赚钱的道理其实大家都懂,肖恩经常说的一句话就是,十年后回 ...
- 【米课】思维导图与深度思考
劳动最光荣,米课最有用 再一次听到米课,我的认知又一次被颠覆了,它是关于 工业革命 的. Emmmmmmm--作为一个如假包换的理科生,我说我知道一点儿工业革命,还不错啦: 第一次工业革命:蒸汽机的发 ...
最新文章
- mysql as用法_MySQL基础学习总结
- Confluence 6 找到在创建 XML 备份的时候出现的错误
- centos+nginx+php+mysql(经典架构流程案例)
- vb microsoft.xmlhttp 获取所有超链接_利用VBA批量自动生成表格超链接
- 《C prime plus (第五版)》 ---第11章 字符串和字符串函数---4
- 开源GIS系统关系图
- 日常问题——Mac下新建目录报Read-only file system
- Python中json和pickle模快dumps()、loads()、dump()、load()序列化和反序列化实例
- 使用wordpress_为什么我使用WordPress进行教育
- 基于多视角学习和个性化注意力机制的新闻推荐(附论文下载链接)
- linux复制文件夹所有文件到另一文件夹
- 关于Vue页面JS+JQ无法调用页面方法与data
- python中ndarray除_Numpy 基本除法运算和模运算
- Oracle 中data与timstamp互转
- CentOS安装NVidia驱动提示kernel source path问题
- phpStudy启动失败时的解决方法 提示缺vc9运行库
- BMFont制作美术字体包教包会
- SCI/SCIE/SSCI/期刊简介及官方查询验证方法
- 华为项目管理法读后小结
- 如何判断一个点在三角形内部
热门文章
- 关于WINSOCK.H与winsock2.h中的重定义解决办法分析
- 你用icloud网页关闭激活锁功能
- onchange无法监听到js赋值给input的变化的解决方法
- pinpoint部署在docker容器中
- 掌握知识变现的四个步骤,你的知识就是印钞机
- Excel 公式中的文本引用
- “计算机网络“ 那些事
- 计算机试题汇编2.14,AutoCAD2007试题汇编(中级)—第二单元(14页)-原创力文档
- YDOOK:ANSYS 定义材料属性步骤与流程 ANSYS 如何定义材料属性的详细教程
- windows下追踪路由