什么是多租户?

多租户是一种软件架构模式,通俗来讲,就是构建一套应用来服务多个用户,但又能确保一定的隔离性。区别于用户的概念,用户是资源的使用者,而租户一般对应一个组织或一类用户。通常数据权限、计算资源与租户直接绑定,而租户与用户又存在一定的映射关系,这样,用户就可以访问该租户所具备的资源。

为什么需要多租户?
多租户管理的优点在于降低了信息化建设和管理的成本,尤其是在大数据领域,随着数据量快速增长,数据集中化程度越来越高,企业内部对算力的需求也逐步增大,大量业务应用构建在统一的大数据平台之上,对资源的控制、对权限的控制也越来越越严格,各子公司、各部门、各业务线既有共享资源的需求、又希望通过一定的数据隔离和资源隔离技术来解决安全性和资源抢占的问题,所以多租户管理在大数据技术方案中已经变成了一个必选方案。

大数据的多租户管的是什么?

大数据的技术组件众多,但无外乎可以分为数据存储型的、数据查询型的、数据计算型的。所以多租户管理就是针对这些核心组件的权限、资源和配额进行管理。存储型的,主要就是分布式存储系统HDFS,配额和目录权限管理;数据查询型的,主要是hbase、hive,库、表、字段相关的scheme权限管理,以及相应的增删改查权限;以及计算型的,主要是yarn,管理cpu和内存;

常见的大数据多租户方案设计

由于开源大数据技术的复杂性,每个组件的数据隔离、资源配额控制都大不相同,所以也就没有统一的产品或技术能完成多租户的管理,现在比较常用的是通过多套技术组合来实现。先看下常见需求:假设一个公司有一个大数据平台P,上面有两个部门A、B,两个部门都希望有独享的计算资源,做到互不影响。又希望数据存储和查询做到隔离,避免数据泄露。从使用者角度讲,能满足他们的隔离性需求即可,这里面就包括数据的隔离性和资源的隔离性。但从提供者角度,也就是平台,还要考虑安全客户端的认证鉴权、统一用户中心管理、统一权限管理、用户操作审计等等一系列的管理方案,同时还要考虑资源的超卖问题(毕竟业务申请的资源都会虚高,所以适当的超卖是不影响的)。这里边涉及到的技术体系就包括Kerberos(统一认证)、Ranger权限管理(CDH提供的是Sentry)、Ldap(身份信息管理)、Yarn的队列机制等等

从平台层面,

第一步:先规划YARN的队列划分,可以考虑一个租户一个队列,通过给队列划分配额来控制队列资源,根据业务使用模式配置是否抢占。

第二步:编写ldif文件,将组织信息、用户信息等初始化到ldap内,相当于创建一个租户,ldap实现了身份信息管理。

第三步:kerberos会同步ldap内的用户,并针对每个租户生成一个票据,可以理解为令牌文件,用户只有在安全客户端上用这个令牌做认证,才能执行后续的平台操作。

第四步:在ranger中配置权限策略,ranger很强大, 可以通过plugin的方式适配几乎所有的核心大数据组件,来完成大数据组件的权限管理。ranger会从ldap同步身份信息(需要修改配置),将租户的身份信息与权限信息做关联,就完成了权限的管理。这里就包括yarn的队列权限、hive的库表字段权限、hbase的schema权限等等。

第五步:ranger还提供了审计功能,可以对提交到大数据平台的操作,包括hive的访问、hbase的访问、hdfs目录的访问等等做检索。记录的信息包括:时间、发起请求的主机IP、租户信息(ldap内的身份信息)、执行的操作(SQL或其他执行命令)、是否成功等信息。

从用户使用层面,只需要登录到主机上,将令牌做一个kinit,然后访问大数据平台资源,包括提交任务到队列、访问hive表。而不需要关心底层的细节,就已经实现了资源隔离和数据安全隔离。

扫盲系列-大数据平台多租户方案设计相关推荐

  1. 大数据多租户的概念_大数据平台 多租户

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  2. 从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

    摘要:在2017年云栖大会•北京峰会的大数据专场中,来自阿里云的高级技术专家李雪峰带来了主题为<金融级别大数据平台的多租户隔离实践>的演讲.在分享中,李雪峰首先介绍了基于传统IaaS单租户 ...

  3. 电信行业大数据(大数据平台系列)

    电信行业大数据(大数据平台系列) 电信行业拥有体量巨大的数据资源,单个运营商的手机用户每天产生的话单记录.信令数据.上网日志数据可以达到PB级规模.通过大数据技术,运营商可以提升数据处理能力,聚合海量 ...

  4. 灾害预警实时监控中心(大数据平台系列)

    灾害预警实时监控中心(大数据平台系列) 大数据对雷暴雨.洪水.地震.海啸等天灾的救援发挥了重要的作用,为科学救灾提供智能化决策.大数据平台抓取气象局.地震局的海量气象数据.卫星云图变化数据,构建气象运 ...

  5. 手机移动互联网营销(大数据平台系列)

    手机移动互联网营销(大数据平台系列) 移动互联网与大数据时代,基于手机App与大数据的营销模式不可或缺,是企业商家与用户拉近距离的桥梁,可以融入人们生活的方方面面.基于手机App与大数据的营销模式,是 ...

  6. 电商用户行为分析大数据平台相关系列1-环境介绍

    最近在自学Spark,看了一些书籍和视频,总是感觉无从下手.拿着一个想法总是无从下手.追其原因,主要是没有系统的学习和使用.对于IT,一切新技术都需要不断实践.不断动手.本着动手的原则,本人通过各种渠 ...

  7. 【Hadoop大数据平台组件搭建系列(一)】——Zookeeper组件配置

    简介 本篇介绍Hadoop大数据平台组件中的Zookeeper组件的搭建 使用软件版本信息 zookeeper-3.4.14.tar.gz Zookeeper安装 解压Zookeeper安装包至目标目 ...

  8. 谈谈对 Canal( 增量数据订阅与消费 )的理解--大数据平台技术栈系列(3)

    之前说了,大数据平台技术栈 (可点击查看),今天就来说说其中的Cannal 来源:朱小厮, blog.csdn.net/u013256816/article/details/52475190 概述 c ...

  9. CM+CDH构建企业大数据平台系列(一)

    问题导读: 1.CM是什么? 2.CDH是什么? 3.CM+CDH是什么? 4.什么是企业大数据平台? 5.如何用CM+CDH构建企业大数据平台? .......... 带着种种疑问让我们开启真正的企 ...

最新文章

  1. Android Studio3.x上使用Lombok
  2. CF #737(div2) Ezzat and Two Subsequences 找规律
  3. 腐蚀单机服务器怎么不稳定,腐蚀有什么指令?基本指令及服务器指令汇总
  4. Atitit.信息论原理概论attilax总结
  5. Vista 如何关闭UAC(用户帐户控制)
  6. linux 运行魂斗罗,如何在linux/freebsd下玩模拟器游戏_linux教程
  7. java 如何调用类库_Java中怎么调用类库?
  8. 2022-08-13 00:00:00 - 2022-08-13 23:59:59这种格式,后端如何处理成为date类型
  9. VMware安装windows7x64时提示找不到CD/DVD驱动器
  10. Ecshop模板开发(二十三):手机版显示商城
  11. 11.18-刷题日结
  12. 30天自制操作系统——第二十三天窗口操作
  13. 教程--免费为小程序接入客服机器人
  14. HDU - 2014 青年歌手大奖赛_评委会打分
  15. 1、有一颗豆跌倒了,它气馁,情绪低落。这豆就是我,有什么能鼓励它站起来呢?答案就是你!因为有一样东西,叫“猪鼓励(朱古力)豆”。   2、你我都是单翼的天...
  16. python星号和双星号的区别
  17. 计算机无法登录到网络,电脑无法连接到这个网络是什么原因
  18. 【HDU】1535 Invitation Cards 最短路
  19. EAS中的EAS License与Apusic的License区别
  20. python蟒蛇代码解析_Python 小蟒蛇 代码分析

热门文章

  1. 最经典最新的图像去噪算法
  2. Deepin系统安装教程及无法关机问题解决办法
  3. 关于数据结构链表问题(C语言实现)—— 线性表顺序存储设计与实现
  4. 网络层IP协议:IP网段划分(A类 B类 C类 D类 E类)
  5. pdf.js跨域及屏蔽下载
  6. c语言队列实现FIFO
  7. 用java实现简单的图像处理基础篇之像素点数据的移位计算
  8. linux查看已杀死的进程,linux 查看并杀死僵尸进程
  9. 自相关函数法基音周期提取(matlab版)
  10. python退出语句_python退出命令