Apache Kylin的核心概念
不多说,直接上干货!
2、模型(model):模型描述了一个星型模式的数据结构,它定义了一个事实表(Fact Table)和多个查找表(Lookup Table)的连接和过滤关系。
3、 Cube 描述:描述一个Cube实例的定义和配置选项,包括使用了哪个数据模型、包含哪些维度和度量、如何将数据进行分区、如何处理自动合并等等。
4、Cube实例:通过Cube描述Build得到,包含一个或者多个Cube Segment。
5、分区(Partition):用户可以在Cube描述中使用一个DATA/STRING的列作为分区的列,从而将一个Cube按照日期分割成多个segment。
6、立方体段(cube segmetn):它是立方体构建(build)后的数据载体,一个 segment 映射hbase中的一张表,立方体实例构建(build)后,会产生一个新的segment,一旦某个已经构建的立方体的原始数据发生变化,只需刷新(fresh)变化的时间段所关联的segment即可。
7、聚合组:每一个聚合组是一个维度的子集,在内部通过组合构建cuboid。
8、作业(job):对立方体实例发出构建(build)请求后,会产生一个作业。该作业记录了立方体实例build时的每一步任务信息。作业的状态信息反映构建立方体实例的结果信息。如作业执行的状态信息为RUNNING 时,表明立方体实例正在被构建;若作业状态信息为FINISHED ,表明立方体实例构建成功;若作业状态信息为ERROR ,表明立方体实例构建失败!
DIMENSION & MEASURE的种类
- Mandotary:强制维度,所有cuboid必须包含的维度。
- Hierarchy:层次关系维度,维度之间具有层次关系性,只需要保留一定层次关系的cuboid即可。
- Derived:衍生维度,在lookup 表中,有一些维度可以通过它的主键衍生得到,所以这些维度将不参加cuboid的构建。
- Count Distinct(HyperLogLog) :直接进行count distinct是很难去计算的,一个近似的算法HyperLogLog可以保持错误率在一个很低的范围内。
- Count Distinct(Precise):将基于RoaringBitMap进行计算,目前只支持int和BigInt。
Cube Action种类
- BUILD:给定一个分区列指定的时间间隔,对Cube进行Build,创建一个新的cube Segment。
- REFRESH:这个操作,将在一些分期周期内对cube Segment进行重新build。
- MERGE:这个操作将合并多个cube segments。这个操作可以在构建cube时,设置为自动完成。
- PURGE:清理一个Cube实例下的segment,但是不会删除HBase表中的Tables。
Job状态
NEW:表示一个job已经被创建。 PENDING:表示一个job已经被job Scheduler提交,等待执行资源。
RUNNING:表示一个job正在运行。 FINISHED:表示一个job成功完成。
ERROR:表示一个job因为错误退出。 DISCARDED:表示一个job被用户取消。
Job执行
RESUME:这个操作将从失败的Job的最后一个成功点继续执行该Job。 DISCARD:无论工作的状态,用户可以结束它和释放资源。
转载于:https://www.cnblogs.com/zlslch/p/7404416.html
Apache Kylin的核心概念相关推荐
- Apache kylin学习笔记
一.Apache kylin的核心概念 表(Table ):表定义在hive中,是数据立方体(Data cube)的数据源,在build cube 之前,必须同步在 kylin中. 模型(model) ...
- 一文读懂Apache Kylin(麒麟)
"麒麟出没,必有祥瑞." -- 中国古谚语 Kylin思维导图 前言 随着移动互联网.物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临.但是海量数据 ...
- 一文读懂Apache Kylin
感谢分享. http://www.jianshu.com/p/abd5e90ab051?utm_campaign=maleskine&utm_content=note&utm_medi ...
- Apache Kylin
"麒麟出没,必有祥瑞." -- 中国古谚语 Kylin思维导图 前言 随着移动互联网.物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临.但是海量数据 ...
- Apache Kylin | 麒麟出没,必有祥瑞
点击上方蓝色字体,选择"设为星标" 回复"资源"获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! ...
- 【Apache Kylin 】 大数据下的OLAP解决方案(原理篇)
前言 在现在的大数据时代,Hadoop已经成为大数据事实上的标准规范,一大批工具陆陆续续围绕Hadoop平台来构建,用来解决不同场景下的需求. 让我们来想想有哪些业务需求呢? 比如Hive是基于Had ...
- Apache Camel核心概念
1. Camel中的相关概念 1.1 ROUTING ENGINE(路由引擎) Camel的路由引擎是消息移动的实际执行者,但并未暴露给开发者:不过作为开发者,我们应该意识到它的存在:并且它做了所有繁 ...
- 探索Apache Hudi核心概念 (1) - File Layouts
在以往众多介绍Apcache Hudi的文章中,对核心概念的解读大多会引用官方文档中的概念图,像Timeline(时间线).File Layouts(文件布局)这类结构清晰,逻辑严谨的概念,图解是很好 ...
- 探索Apache Hudi核心概念 (2) - File Sizing
在本系列的上一篇文章中,我们通过Notebook探索了COW表和MOR表的文件布局,在数据的持续写入与更新过程中,Hudi严格控制着文件的大小,以确保它们始终处于合理的区间范围内,从而避免大量小文件的 ...
最新文章
- 【步态识别】基于深度学习的步态识别系统的MATLAB仿真,包括ALEXNET,改进CNN,GOOGLENET
- 十大经典数据挖掘算法:EM
- SVN中tag branch trunk用法详解
- 括号配对问题(C++栈)
- Java进阶之光!mysql安装包安装教程
- codeforces 116A-C语言解题报告
- Lync Server 2010的部署系列_第六章 安装配置拓扑生成器、前端Server、前端池
- Assembly generation failed Referenced assembly ‘xxx’ does not have a strong name
- VB创建超链接 打开指定网站的几种方法
- [转载] python 需求清单_Python清单操作摘要
- Flask入门 表单Flask-wtf form原生 Bootstrap渲染(七)
- 【冰点文库下载器.exe】
- 八:微服务调用组件Dubbo
- EXCELL XLToolbox科研作图插件
- c语言之数据结构学习心得
- chrome cookies cookie 解密 写入(80+版本)
- linux命令行下的tab键作用
- 2023计算机毕业设计SSM最新选题之java健身俱乐部5jz0z
- 近似查询mysql_近似查询处理简介
- Nelder-Mead(simplex,“单纯形”)算法
热门文章
- 微信小程序---setData
- ...python の 学习
- 性能测试培训:定位jvm耗时函数
- 运动目标检测、阴影检测及目标跟踪中用得到的标准测试视频下载(大量IBM提供视频)...
- Markdown 工程师也不简单:如何写一个高逼格 README
- .net core 微服务之API网关 开源中间件 Ocelot 笔记
- TIOBE 7 月编程语言榜:TypeScript 进入前 50 名
- Spring容器与上下文理解
- RocketMQ性能压测分析(转载)
- 04-老马jQuery教程-DOM节点操作及位置和大小