不多说,直接上干货!

1、表(table):This is definition of hive tables as source of cubes,在build cube 之前,必须同步在 kylin中。
2、模型(model):模型描述了一个星型模式的数据结构,它定义了一个事实表(Fact Table)和多个查找表(Lookup Table)的连接和过滤关系。
3、 Cube 描述:描述一个Cube实例的定义和配置选项,包括使用了哪个数据模型、包含哪些维度和度量、如何将数据进行分区、如何处理自动合并等等。
4、Cube实例:通过Cube描述Build得到,包含一个或者多个Cube Segment。
5、分区(Partition):用户可以在Cube描述中使用一个DATA/STRING的列作为分区的列,从而将一个Cube按照日期分割成多个segment。
6、立方体段(cube segmetn):它是立方体构建(build)后的数据载体,一个 segment 映射hbase中的一张表,立方体实例构建(build)后,会产生一个新的segment,一旦某个已经构建的立方体的原始数据发生变化,只需刷新(fresh)变化的时间段所关联的segment即可。
7、聚合组:每一个聚合组是一个维度的子集,在内部通过组合构建cuboid。
8、作业(job):对立方体实例发出构建(build)请求后,会产生一个作业。该作业记录了立方体实例build时的每一步任务信息。作业的状态信息反映构建立方体实例的结果信息。如作业执行的状态信息为RUNNING 时,表明立方体实例正在被构建;若作业状态信息为FINISHED ,表明立方体实例构建成功;若作业状态信息为ERROR ,表明立方体实例构建失败!

DIMENSION & MEASURE的种类

  • Mandotary:强制维度,所有cuboid必须包含的维度。
  • Hierarchy:层次关系维度,维度之间具有层次关系性,只需要保留一定层次关系的cuboid即可。
  • Derived:衍生维度,在lookup 表中,有一些维度可以通过它的主键衍生得到,所以这些维度将不参加cuboid的构建。
  • Count Distinct(HyperLogLog) :直接进行count distinct是很难去计算的,一个近似的算法HyperLogLog可以保持错误率在一个很低的范围内。
  • Count Distinct(Precise):将基于RoaringBitMap进行计算,目前只支持int和BigInt。

Cube Action种类

  • BUILD:给定一个分区列指定的时间间隔,对Cube进行Build,创建一个新的cube Segment。
  • REFRESH:这个操作,将在一些分期周期内对cube Segment进行重新build。
  • MERGE:这个操作将合并多个cube segments。这个操作可以在构建cube时,设置为自动完成。
  • PURGE:清理一个Cube实例下的segment,但是不会删除HBase表中的Tables。

Job状态

  NEW:表示一个job已经被创建。 PENDING:表示一个job已经被job Scheduler提交,等待执行资源。
  RUNNING:表示一个job正在运行。 FINISHED:表示一个job成功完成。
  ERROR:表示一个job因为错误退出。 DISCARDED:表示一个job被用户取消。

Job执行

  RESUME:这个操作将从失败的Job的最后一个成功点继续执行该Job。 DISCARD:无论工作的状态,用户可以结束它和释放资源。

转载于:https://www.cnblogs.com/zlslch/p/7404416.html

Apache Kylin的核心概念相关推荐

  1. Apache kylin学习笔记

    一.Apache kylin的核心概念 表(Table ):表定义在hive中,是数据立方体(Data cube)的数据源,在build cube 之前,必须同步在 kylin中. 模型(model) ...

  2. 一文读懂Apache Kylin(麒麟)

    "麒麟出没,必有祥瑞." -- 中国古谚语 Kylin思维导图 前言 随着移动互联网.物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临.但是海量数据 ...

  3. 一文读懂Apache Kylin

    感谢分享. http://www.jianshu.com/p/abd5e90ab051?utm_campaign=maleskine&utm_content=note&utm_medi ...

  4. Apache Kylin

    "麒麟出没,必有祥瑞." -- 中国古谚语 Kylin思维导图 前言 随着移动互联网.物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临.但是海量数据 ...

  5. Apache Kylin | 麒麟出没,必有祥瑞

    点击上方蓝色字体,选择"设为星标" 回复"资源"获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! ...

  6. 【Apache Kylin 】 大数据下的OLAP解决方案(原理篇)

    前言 在现在的大数据时代,Hadoop已经成为大数据事实上的标准规范,一大批工具陆陆续续围绕Hadoop平台来构建,用来解决不同场景下的需求. 让我们来想想有哪些业务需求呢? 比如Hive是基于Had ...

  7. Apache Camel核心概念

    1. Camel中的相关概念 1.1 ROUTING ENGINE(路由引擎) Camel的路由引擎是消息移动的实际执行者,但并未暴露给开发者:不过作为开发者,我们应该意识到它的存在:并且它做了所有繁 ...

  8. 探索Apache Hudi核心概念 (1) - File Layouts

    在以往众多介绍Apcache Hudi的文章中,对核心概念的解读大多会引用官方文档中的概念图,像Timeline(时间线).File Layouts(文件布局)这类结构清晰,逻辑严谨的概念,图解是很好 ...

  9. 探索Apache Hudi核心概念 (2) - File Sizing

    在本系列的上一篇文章中,我们通过Notebook探索了COW表和MOR表的文件布局,在数据的持续写入与更新过程中,Hudi严格控制着文件的大小,以确保它们始终处于合理的区间范围内,从而避免大量小文件的 ...

最新文章

  1. 【步态识别】基于深度学习的步态识别系统的MATLAB仿真,包括ALEXNET,改进CNN,GOOGLENET
  2. 十大经典数据挖掘算法:EM
  3. SVN中tag branch trunk用法详解
  4. 括号配对问题(C++栈)
  5. Java进阶之光!mysql安装包安装教程
  6. codeforces 116A-C语言解题报告
  7. Lync Server 2010的部署系列_第六章 安装配置拓扑生成器、前端Server、前端池
  8. Assembly generation failed Referenced assembly ‘xxx’ does not have a strong name
  9. VB创建超链接 打开指定网站的几种方法
  10. [转载] python 需求清单_Python清单操作摘要
  11. Flask入门 表单Flask-wtf form原生 Bootstrap渲染(七)
  12. 【冰点文库下载器.exe】
  13. 八:微服务调用组件Dubbo
  14. EXCELL XLToolbox科研作图插件
  15. c语言之数据结构学习心得
  16. chrome cookies cookie 解密 写入(80+版本)
  17. linux命令行下的tab键作用
  18. 2023计算机毕业设计SSM最新选题之java健身俱乐部5jz0z
  19. 近似查询mysql_近似查询处理简介
  20. Nelder-Mead(simplex,“单纯形”)算法

热门文章

  1. 微信小程序---setData
  2. ...python の 学习
  3. 性能测试培训:定位jvm耗时函数
  4. 运动目标检测、阴影检测及目标跟踪中用得到的标准测试视频下载(大量IBM提供视频)...
  5. Markdown 工程师也不简单:如何写一个高逼格 README
  6. .net core 微服务之API网关 开源中间件 Ocelot 笔记
  7. TIOBE 7 月编程语言榜:TypeScript 进入前 50 名
  8. Spring容器与上下文理解
  9. RocketMQ性能压测分析(转载)
  10. 04-老马jQuery教程-DOM节点操作及位置和大小