题记:想了解Kylin、首先需要了解一下什么是OLAP、OLTP

一、OLAP:( OnLine Analytical Processing )

一般查询延迟在秒级或者毫秒级,可以实现交互式查询、OLAP的查询一般需要Scan大量数据,大多时候只访问部分列,聚合的需求(Sum、Count、Max、Min、排序、减等)多于明细的需求、查询原始明细数据。

OLAP应用:
在年底或者发布会上的大数据分析和统计应用,如:豆瓣读书报告,网易云音乐听歌报告,蚂蚁金服的支付账单等等。OLAP最重要的应用BI分析、类型TOP5 或者TOP10 排行榜、或者统计标签的人物画像哪类人最多等等,热点问题排行榜并不是。

OLAP优点:
专门用来做决策支持
历史的、总结的、统一的数据,进行比较或者归纳。
侧重与查询
查询吞吐量和相应时间是关键性能指标

二、OLTP:(Online Transaction Processing)

一般只会访问少量的记录,且大多时候都会利用索引。

OLTP应用:
在线的面向终端用户直接使用的 Web 应用:金融,博客,评论,电商等系统的查询都是 OLTP 查询,比如最常见的基于主键的 CRUD 操作。

OLTP优点:
专门用来做日常的,基本的操作
任务由短的,原子的,隔离的事务组成
处理的数据量在 G 级别
重视一致性和可恢复性
事务的吞吐量是关键性能指标
最小化并发冲突

总结:
OLTP 需要解决数据的增、删、改、查的问题,OLAP 需要解决数据聚合的问题。

扩展:
OLAP实现方式:根据存储数据的方式不同可以分为 ROLAP、MOLAP。

ROLAP:
ROLAP 主要通过数据引擎强大的计算能力,瞬间聚合数据得到 OLAP 结果。

MOLAP:
MOLAP 则是提前计算聚合好数据模型,查询的时候只需要返回已经聚合好的数据结果。

三、Kylin理论

核心思想:空间换时间

四、Kylin 架构


Kylin 自身的组件只有两个:**JobServer 和 QueryServer **。 Kylin 的 JobServer 主要负责将数据源(Hive,Kafka)的数据通过计算引擎(MapReduce,Spark)生成 Cube 存储到存储引擎(HBase)中。

QueryServer 主要负责 SQL 的解析,逻辑计划的生成和优化,向 HBase 的多个 Region 发起请求,并对多个 Region 的结果进行汇总,生成最终的结果集。

在架构设计上,Kylin 的数据源,构建 Cube 的计算引擎,存储引擎都是可插拔的。Kylin 的核心就是这套可插拔架构,Cube 数据模型和 Cuboid 的算法。

五、Kylin 数据模型

Kylin 将表中的列分为维度列和指标列。在数据导入和查询时相同维度列中的指标会按照对应的聚合函数 (Sum, Count, Min, Max, 精确去重,近似去重,百分位数,TOPN) 进行聚合。

六、插件架构

参考:http://kylin.apache.org/cn/blog/
参考: RangeYan

Kylin作用是什么?相关推荐

  1. 进程上下文与线程上下文

    查看全文 http://www.taodudu.cc/news/show-4548065.html 相关文章: 东方通电子政务平台 智慧服务型政务平台规划方案(ppt) 东大22春电子政务X<电 ...

  2. Apache Kylin在绿城客户画像系统中的实践

    前言 \\ 作为国内知名的房地产开发商,绿城经过24年的发展,已为全国25万户.80万人营造了美丽家园,并将以"理想生活综合服务提供商"为目标,持续为客户营造高品质的房产品和生活服 ...

  3. Apache Kylin v2.5.0正式发布,开源分布式分析引擎

    文章转载自开源中国,作者 Apache Kylin 社区 日前,Apache Kylin 社区宣布,Apache Kylin v2.5.0 正式发布. Apache Kylin 是一个开源的分布式分析 ...

  4. 小米大数据:借助Apache Kylin打造高效、易用的一站式OLAP解决方案

    如今的小米不仅是一家手机公司,更是一家大数据与人工智能公司.随着小米公司各项业务的快速发展,数据中的商业价值也愈发突显.而与此同时,各业务团队在数据查询.分析等方面的压力同样正在剧增.因此,为帮助公司 ...

  5. 如何为Apache Kylin快速开发新数据源?

    2019独角兽企业重金招聘Python工程师标准>>> 在近期的Apache Kylin Innovation Meetup 上,Kyligence的技术合伙人兼生态合作技术总监李栋 ...

  6. Azkaban任务调度(使用带有依赖的任务调度)【mapreduce数据清洗,数据入hive库,kylin预编译、数据分析】

    1 Azkaban任务调度管理 1.1 执行任务的脚本编写和说明 在做任务调度的过程中,要编写相应的脚本. -rwxrwxrwx 1 root root 809 6月 12 19:52 auto-ex ...

  7. 融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

    简介:本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍 Flink.Kylin 和 Hudi 湖仓一体的大数据生态体系以及在 T3 的相关应用场景. 本文由 T3 出行大数据 ...

  8. kylin如何支持flink_如何使用 JuiceFS 在云上优化 Kylin 4.0 的存储性能?

    Apache Kylin 4.0 采用 Spark 作为构建引擎以及 Parquet 作为存储,让云上部署和伸缩变得更容易,然而使用云上的对象存储相较于使用本地磁盘的 HDFS,可能存在部分兼容性和性 ...

  9. Apache Kylin VS Apache Doris

    作者: 康凯森 日期: 2018-04-17 分类: OLAP 1 系统架构 1.1 What is Kylin 1.2 What is Doris 2 数据模型 2.1 Kylin的聚合模型 2.2 ...

最新文章

  1. springboot RestTemplate httpclient
  2. Django 框架入门篇(安装与创建项目)
  3. 2018年春阅读计划---阅读笔记5
  4. “逃离”互联网:蚂蚁金服原副总裁离职,重返学术界
  5. 读“ModSecurity配置关键字说明”之摘抄
  6. itstime后面跟什么_被父母当成摇钱树是种什么体验?
  7. 云栖大会展出两款一体机,搭载新一代无影融合架构
  8. MacBookPro外接显示器开启HiDPI
  9. java–转换文件编码
  10. S3接口访问华为云OBS
  11. shiro安全性框架
  12. Nessus访问报错(Corrupt Database A corrupt database has been detected which prevents Nessus from........)
  13. 《音乐达人秀:Adobe Audition实战200例》——实例6 麦克风说话和音乐播放等所有声音都混合录制...
  14. 1.1 Linux内核代码下载、编译
  15. 翻译: Github Copilot 可以创作艺术吗?
  16. python——字符串练习:句子反转
  17. #数据挖掘--第3章:建模调参之支持向量机SVM初体验
  18. ddt python_python——ddt问题总结
  19. 文本标注平台doccano的搭建
  20. 从3K到30K,23岁的年纪我到底经历了什么

热门文章

  1. Netty高级进阶之Netty解码器
  2. Hadoop回收站trash
  3. 我知道眼泪多余,笑变得好不容易
  4. tomcat 启用https协议
  5. 容器化技术(十一):Kubernetes中Pod的调度策略-标签与污点实战
  6. python之父是( )_Python之父加入微软,一开口就知道是老“凡学家”了
  7. 什么是分布式_什么是分布式存储?分布式云存储有什么优势?
  8. el-select如何选择整个对象item
  9. springcloud微服务项目解析与服务拆分
  10. 【JavaSE】02-变量、数据类型和运算符