云湖湖导读:随着企业业务的不断发展,企业大数据资产在企业辅助决策、用户画像、推荐系统等诸多业务流程中扮演着越来越重要的作用,如何保证企业大数据在满足各业务部门数据访问需求的同时又能精细化保障数据访问安全、避免数据泄露是每个企业大数据资产管理者必须关注的话题。

笔者结合在华为云数据湖探索服务中的技术沉淀与丰富的企业数据安全管理经验,从以下几点来探讨如何精细化保障企业大数据安全。

1、企业大数据的安全挑战

2、数据资产权限管理的通用做法

3、以华为云DLI为例,对数据资产管理的实践&案例分析

4、未来展望

企业大数据的安全挑战

企业大数据的日积月累,自然面临着大数据安全的挑战:数据来源广泛,来源于不同的业务单元,又要服务于各种业务单元,还需要对不同层级的员工设置不一样的权限。如何防范企业数据不被未经授权的用户访问,管理数据在不同业务单元的共享,隔离企业敏感数据……企业可能面临着以下的挑战:

1.1 数据隔离

不同的项目业务数据需要隔离,如游戏运营数据,企业在设计大数据分析平台时可能期望A游戏产生的业务数据用来支撑A游戏运营分析,B游戏产生的业务数据是支撑B游戏运营分析,那么需要对业务数据按项目进行隔离,A游戏运营部门员工只可访问A游戏运营数据,B游戏运营部门员工只可访问B游戏运营数据

1.2 数据分层访问

不同层级业务部门对数据具备不同的访问权限,高层级部门可以访问底层级部门的数据,而低层级部门不可访问高层级部门的数据。如省级部门可以访问地市级数据,而地市级部门只可访问本地市数据,不可访问跨区数据,也不可访问省级部门数据。这就要求对数据的权限管理需要具备分层管理能力,能够分层级授予不同的权限。

1.3 列级数据授权

不同业务部门对同一份数据的访问权限要求不同,所以要求能够对数据进行精细化授权。如银行系统中,用户表中的身份证号信息是敏感信息,柜台系统可以查询用户的身份证号,但推荐系统就不需要身份证信息,只需要用户ID就可以了。这种场景下需要对用户表能够分列授权,对不同的业务单元不同的权限。

1.4 批量授权

随着企业规模的增大,企业员工可能非常庞大,分部门授权,批量授权也是很常见的业务场景。例如销售部门下面员工很多,如果单个单个的给销售人员授权,会非常麻烦,人员流动时取消授权也很复杂,这时就需要能够批量授权或者基本角色的授权模型,来实现一次授权,部门内员工均可使用的目的。

数据资产权限管理

通用做法

目前比较流行的大数据分析平台的有HADOOP,HIVE,SPARK等,它们使用的权限模型有POSIX模型,ACL模型,SQL Standard模型和RBAC模型。其中HADOOP大数据平台使用了POSIX和ACL权限模型来管理数据,HIVE和SPARK使用了ACL和RBAC权限模型来管理数据。

POSIX权限模型是基于文件的权限模型,与Linux系统的文件系统权限类似。即一个文件有相应的OWNER和GROUP,只能支持设置OWNER, GROUP和其他用户的权限,可授权限也只有读写执行权限。这种模型不适用于企业用户,有一个明显的缺点就是它只有一个GROUP,不能实现不同的GROUP,有不同的权限,也无法实现精细化的权限管理,只能在文件级授权,所授权限也只有读写与执行权限。

ACL即Access Control List, ACL权限模型可以弥补POSIX权限模型的不足,可以实现比较精细化的权限管理。通过设置访问控制列表,我们可以授予某一个用户多个权限,也可以授予不同的用户不同的权限。但ACL也有明显的缺点,当用户数较大时,ACL列表会变得庞大而难以维护,这在大企业中问题尤其明显。

RBAC(Role-Based Access Control)模型也是业界常用的一种权限模型。是基于用户角色的权限管理模型,其首先将一个或多个权限授权某一个角色,再把角色与用户绑定,也实现了对用户的授权。一个用户可以绑定一个或多个角色,用户具备的权限为所绑定角色权限的并集。RBAC可以实现批量授权,可以灵活维护用户的权限,是当前比较流行的权限管理模型。

SQL Standard模型是HIVE/Spark使用权限模型之一,本质是使用SQL方式的授权语法来管理权限。HIVE中的权限模型也是基于ACL和RBAC模型,即可以给单独的用户直接授权,也可能通过角色进行授权。

以华为云DLI为例

对数据资产管理

DLI结合了ACL和RBAC两种权限模型来管理用户权限。DLI中涉及到的概念有:

DLI用户:DLI用户为IAM账号及其下的子用户,下面访问权限说明的用户均指IAM账号及其下的子用户。

DLI资源:DLI的资源分为数据库(Database),表(table),视图(View),作业(Job)和队列(Queue)。资源是按项目隔离的,不同项目的资源不可互相访问。表和视图是数据库(Database)下的子资源。

DLI权限:DLI权限为执行DLI相关操作所需要的权限。DLI中的权限比较细,每项操作对应的权限都不一样,如创建表对应CREATE_TABLE权限,删除表对应DROP_TABLE权限, 查询对应SELECT权限等等。

DLI使用统一身份认证(IAM)的策略和DLI的访问控制列表(ACL)来管理资源的访问权限。其中统一身份认证(IAM)的策略控制项目级资源的隔离和定义用户为项目的管理员还是普通用户。访问控制列表(ACL)控制队列,数据库,表,视图,列的访问权限和授权管理。

DLI使用统一身份认证来完成用户认证和用户角色管理。DLI在IAM中预定义了几个角色:Tenant Administrator(租户管理员),DLI Service Admin(DLI管理员),DLI Service User(DLI普通用户)。其中具备租户管理员或DLI管理员角色的用户在DLI内是管理员,可以操作该项目的所有资源,包括创建数据库,创建队列,操作项目下的数据库,表,视图,队列,作业。普通用户不可创建数据库,不可创建队列,依赖管理员的授权,可以执行创建表,查询表等操作。

DLI使用ACL和RBAC两种模型来管理用户权限。管理员或资源的所有者可以授予另外一个用户单个或多个权限,也可能创建角色,授予权限给创建好的角色,然后绑定角色和用户。

DLI提供了API和SQL语句两种方式来实现以上权限管理,方便用户灵活授权。具体使用方式可以参考DLI的权限管理。

案例分析

拿银行的大数据实践来分析下如何利用DLI来管理数据的权限。众所周知,银行积累了大量的用户数据,包括用户信息,交易信息,账户信息等等数以亿计的数据。而银行业务也是非常的复杂,涉及到柜员系统,监管部门,运营部门,营销部门等等各个业务线,各业务线对数据的要求不同,访问的权限不同。我们拿反洗钱业务与画像业务来简单介绍下如何利用DLI平台实现大数分析和数据资产权限管理。

典型的反洗钱业务一般是大额预警和黑名单机制,需要从海量的交易数据中筛选出大额交易或者是黑名单人员交易数据,将这些数据反馈给监管人员进行进一步分析,涉及到的数据是交易数据,账户信息和黑名单信息。

画像一般会分析用户的交易类型与交易数据,推断出用户的兴趣爱好,给用户画像,标记用户的兴趣点在哪些地方。涉及交易信息中的交易类型和账号信息。

在这两项业务中,在DLI中,由数据管理员生成生成用户信息表,交易数据表,账户信息表,黑名单信息表,并导入相应的数据。在反省钱业务,授予反洗钱业务部门或人员账户信息表的查询权限,交易数据表的查询权限,黑名单信息的查询权限,通过对账户信息表和交易数据表和黑名单表的联合查询,可以查找出异常交易信息及相关交易人员,反馈给反洗钱监管人员。在画像业务中,由数据管理员授予画像业务部门或人员用户信息表的查询权限,交易数据表中交易金额和交易类型,交易商户等列的查询权限,账户信息表中的账户ID和用户ID列的查询权限,经过这几张表的联合与聚合查询,找出用户常用交易信息,包含交易类型,金额,及相关地点等信息,描绘出用户画像信息。

未来展望

传统企业数据资产面临着几个难题。各业务部门均会产生数据,数据标准不一致,维护复杂。各业务部门数据存在在不同的系统中,数据容易形成孤岛,无法有效挖掘利用。部门间数据共享复杂,容易形成网状授权网络,维护成本巨大。

数据中台方案可以解决这样的难题,使用统一的数据管理平台,统一的数据存储,统一的数据标准,进行统一的数据资产管理,统一进行授权管理,这也DLI探索的一个方向。

【华为云技术分享】数据赋能,如何精细化保障企业大数据安全相关推荐

  1. 华为云服务权限在哪_华为云数据湖探索服务DLI,精细化保障企业大数据安全

    原标题:华为云数据湖探索服务DLI,精细化保障企业大数据安全 随着企业业务的不断发展,企业大数据资产在企业辅助决策.用户画像.推荐系统等诸多业务流程中扮演着越来越重要的作用,如何保证企业大数据在满足各 ...

  2. 【华为云技术分享】唐老师带你秒懂大数据,以及Spark和Flink在干啥咧

    [摘要] 花20分钟时间入门一个新领域,唐老师以一个生活中的例子,表达大数据框架Spark和Flink的各自特色.入门总结,请多指教. 作为网络老砖家(自封),唐老师本对大数据是一窍不通,在看完一系列 ...

  3. 【华为云技术分享】大数据实践解析(下):Spark的读写流程分析

    摘要:本文通过简单的例子来解析,大数据实践中的Spark读写流程,内容主要聚焦于Spark中的高效并行读写以及在写过程中如何保证事务性. 导读: 众所周知,在大数据/数据库领域,数据的存储格式直接影响 ...

  4. 【华为云技术分享】三大前端技术(React,Vue,Angular)探密(下)

    [华为云技术分享]三大前端技术(React,Vue,Angular)探密(上) [Angular] Angular(通常被称为 "Angular 2+"或 "Angula ...

  5. 【华为云技术分享】“技术-经济范式”视角下的开源软件演进剖析-part 1

    前言 以互联网为代表的信息技术的迅猛发展对整个经济体系产生了巨大的影响.信息技术的发展一方面使知识的积累和传播更加迅速,知识爆炸性的增长:另一方面,使信息的获取变得越来越容易,信息交流的强度逐渐增加, ...

  6. 【华为云技术分享】“技术-经济范式”视角下的开源软件演进剖析-part 3

    4. 微观层面 4.1 个体动机 在开源软件发展之初, 商业组织的投入很少甚至没有, 完全是靠Richard Stallman 或者 linus Torvalds 这样的个人在努力推动开源软件艰难前行 ...

  7. 【华为云技术分享】华为云:安全的蘑菇街才能让你更美丽

    企业进入数字化.智能化,已经不能够按照过往的模式来进行运营了.上云成为企业发展的必经之路.云服务最吸引人的特征之一是弹性,可以按照不断变化的需求而向上或向下扩展.企业上云往往是希望既有公有云弹性扩容. ...

  8. 【华为云技术分享】直播回顾丨激发数据裂变新动能,HDC.Cloud云数据库前沿技术解读

    3月24日14:00-17:00,HDC.Cloud开发者沙龙系列云数据库专场直播线上开启,此次华为云数据库通过三场直播从NoSQL数据库新技术.数据库迁移.行业解决方案等方面对云端数据库进行深度解读 ...

  9. 【华为云技术分享】解析数据治理在过程可信变革中的运作流程

    摘要:本文针对"数据牵引改进,工具固化规范"这一思路在业务团队落地过程中的动作流程进行详细阐述,并明确了支撑整个流程的关键角色定义和组织运作形式. 目的 为实现云服务开发的过程可信 ...

最新文章

  1. torch max 判断与筛选
  2. java jprofile安装与使用
  3. JavaScript使用localStorage缓存Js和css文件
  4. php的htaccess,PHP .htaccess文件详细介绍
  5. KEIL MDK 仿真时程序”乱跑“问题
  6. 【深度学习】常见优化器的PyTorch实现
  7. 第2讲 | 网络分层的真实含义是什么?
  8. android TextView 的setTextSize方法的使用
  9. [导入]ASP.NET Ajax程序设计第II卷:客户端Microsoft Ajax Library与异步通信层及源代码.zip(101.50 MB)...
  10. 云服务如何对外开发指定端口
  11. TextWatcher实现一键清空EditText
  12. 悟饭服务器连接中断,英雄联盟连接服务器失败解决方法
  13. linux命令日志抓取,linux抓取某条日志记录的命令
  14. 我叫MT4怎么在电脑上玩?我叫MT4手游安卓模拟器电脑版操作教程
  15. 置换 置换群 应用 +置换群对某些算法问题的解释
  16. Win10系统无法启动的最终解决方案
  17. (linux-x86-ARM)麒麟V10安装DBeaver21.3通用的数据库管理工具和 SQL 客户端
  18. 如何采用离线的 Google Map API 加载离线谷歌地图的方法
  19. 委内瑞拉经济衰退导致通货膨胀
  20. 程序员再也不用抢月饼了~

热门文章

  1. ROS笔记(26) Movelt!
  2. 信息技术课与计算机课有关系吗,信息技术教学与计算机教学的区别与联系
  3. 类的别名java,类型别名是为 Java 类型设置一个短的名字。 它只和 XML 配置有关,存在的意义仅在于用来减少类完全限定名的冗余。例如:typeAliases typeAlias ali...
  4. pymavlink 源码剖析(二)之生成代码
  5. docker管理监控方案
  6. Delphi 生日提醒的方法《LceMeaning》
  7. 【.Net】C#实现多线程的方式:使用Parallel类
  8. Storm,Spark和Samza
  9. [转]java代码性能优化总结
  10. html切换搜索引擎,关于JavaScript如何切换搜索引擎的导航网页搜索框的实例代码分享...