Kylin多维分析引擎(一):Kylin概述
1.定义:
Apache Kylin(Extreme OLAP Engine for BigData)是一个开源的分布式分析引擎,为Hadoop等大型分布式数据平台之上的超大规模数据集提供标准SQL查询及多维分析(OLAP)能力,并提供亚秒级的交互式分析功能。它最初由eBay开发并贡献给开源社区。
核心特性:
为Hadoop提供标准SQL支持(大部分)
支持超大数据集(预计算)
亚秒级交互式查询(预计算)
可伸缩高吞吐(MR、Spark、HBase)
BI工具无缝集成
特点:
开源MOLAP利器
Apache金牌项目
源自Ebay内部大数据
利用Hbase,加速可以加速Hbase
目前腾讯、美团都有在使用,经过实际使用检验
解决的问题:
解决了大数据多维度查询速度慢,多维查询数据返回不及时的问题
Apache Kylin是目前唯一由中国人主导的Apache顶级项目,核心开发者及贡献者都是中国人。
官网:http://kylin.apache.org/
2.谁在用Kylin
当前已经有超过100多家国内国外的公司正式使用Kylin作为其大数据分析平台的核心。包括eBay、Glispa、微软、Expedia、百度、美团、网易、京东、唯品会、中国移动、中国电信、国泰君安、华泰证券、联想、〇PP〇、魅族、去哪儿等等。ApacheKylin被用到了诸多如数据仓库,用户行为分析,流量(日志)分析,自助分析平台,电商分析,广告效果分析,实时分析,数据服务平台等各种场景。
3.Kylin使用场景
- 大规模数据集下亚秒级查询
- 维度不超过20个,最好在10个以内
- 可接受T+1(天、小时、分钟级别)
- 不需要分析明细数据(可变相解决)
4.Kylin主要特点
Kylin的主要特点包括支持SQL接口、支持超大规模数据集、亚秒级响应、可伸缩性、高吞吐率、BI工具集成等。
1)标准SQL接口:Kylin是以标准的SQL作为对外服务的接口。
2)支持超大数据集:Kylin对于大数据的支撑能力可能是目前所有技术中最为领先的。早在2015年eBay的生产环境中就能支持百亿记录的秒级查询,之后在移动的应用场景中又有了千亿记录秒级查询的案例。
3)亚秒级响应:Kylin拥有优异的查询相应速度,这点得益于预计算,很多复杂的计算,比如连接、聚合,在离线的预计算过程中就已经完成,这大大降低了查询时刻所需的计算量,提高了响应速度。
4)可伸缩性和高吞吐率:单节点Kylin可实现每秒70个查询,还可以搭建Kylin的集群。
5)BI工具集成。
5.Kylin相关术语
5.1.数据仓库与商业智能
数据仓库(Data Warehouse):数据仓库是一个各种数据的中心存储系统(包括历史数据和当前数据),是BI的核心组件。这里所说的数据包括来自企业内部的各种业务数据,例如订单、库存、交易流、账目、客户、供应商等,同时也包括从外部获取的各种数据,例如爬虫通过合法手段爬取得数据。
商业智能(Business Intelligence):商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出合理的、明智的经营决策的工具,是企业数字化转型的关键系统。为了将数据转化为知识,需要利用数据仓库、联机事务处理(OLAP)工具和数据挖掘等技术。
5.2.OLTP vs OLAP
OLTP(Online Transaction Process)-事务驱动:联机事务处理,侧重于数据库的增删查改等常用业务操作,强调事物和并发。
OLAP(Online Analytical Process)-分析驱动:联机分析处理,即以多维的方式分析数据,强调磁盘IO吞吐,一般采用分区技术、并行处理技术。OLAP是一种软件技术,它使分析人员能够迅速、一致、交互式的从各方面观察数据,以达到深入理解数据的
目的。从各方面观察数据,也就是从不同纬度分析数据,因此也成为多维分析。
5.3.OLAP分类
参考:https://blog.csdn.net/Yuan_CSDF/article/details/117934281
ROLAP:基于关系型数据库,不需要预计算
MOLAP:基于多维数据集,需要预计算
5.4.维度和度量
维度:分析数据的角度
- 维度和度量是数据分析领域最常见的两个概念
- 维度:简单来讲就是观察数据的角度。例如从时间的角度来观察分析电商订单数据,那么时间就是维度。多个维度还可以组合
- 通常把纬度值相同的记录聚合在一起(groupBy),然后应用聚合函数(avg,max,min,等等)
- 维度一般是离散的值
度量:被分析的指标
- 聚合之后的统计值,即聚合运算的结果,一般为连续值
5.5.Cube & Cuboid & Cube Segment
Cube 和 Cuboid:
- MOLAP基于多维数据集,一个多维数据集成为一个Cube。
- 有了数据模型,接下来就可以把模型中的字段按照维度和度量来分类了(根据场景)
- 如果选择了N个维度,那么维度的组合可能性就有2^
Kylin多维分析引擎(一):Kylin概述相关推荐
- 分布式大数据多维分析引擎:Kylin 在百度地图的实践
2019独角兽企业重金招聘Python工程师标准>>> 1. 前言 百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提 ...
- 分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例
原文地址:http://lxw1234.com/archives/2016/04/643.htm Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(O ...
- 分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例【转】
Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap.Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的 ...
- Saiku + Kylin 多维分析平台探索
作者:lxWei 背景 为了应对各种数据需求,通常,我们的做法是这样的: 对于临时性的数据需求:写HQL到Hive里去查一遍,然后将结果转为excel发送给需求人员. 对于周期性的.长期性的数据需求: ...
- 美团点评:基于Druid的Kylin存储引擎实践
作者:康凯森 作者简介:美团大数据工程师,Apache Kylin Committer,目前主要负责美团 OLAP 系统(Kylin & Druid & Palo)的平台化建设. 8月 ...
- 《走近OLAP引擎--Apache Kylin》
1.OLAP简介 联机分析处理 Molap百度百科 tableau Mondrian 2.Kylin非常好的学习博客 OLAP引擎--Kylin介绍 3.Kylin基本常识 Kylin百度百科 Kyl ...
- 链家大数据多维分析引擎实践
前言 大数据背景下,传统关系型多维分析 ROLAP 引擎遇到极大挑战,因而链家转向基于 Hadoop 生态的 MOLAP(Kylin)及 HOLAP (多引擎).在架构师实践日北京站中,链家大数据集群 ...
- 【大数据与云计算】大数据多维分析引擎在魅族公司的实践
" Apache Kylin是首个完全由中国团队设计开发,并贡献到Apache软件基金会(ASF)的顶级项目,开源一年左右的时间,已经在国内国际多个公司被采用作为大数据分析平台的关键组成部分 ...
- mondrain多维分析引擎+saiku web展现层的演示环境搭建
为什么80%的码农都做不了架构师?>>> mondrain多维分析引擎+saiku web展现层的演示环境搭建 找了很久,官网git提供的源码下载搭建起来很麻烦,buildal ...
最新文章
- Spark集群搭建+基于zookeeper实现高可用HA
- unity 使用tile_如何使用Tile从网上查找电话
- JEECG前后端分离UI框架实战抢先体验(ng2-admin+Angular4+AdminLTE+WebStorm)
- 一个 WordPress 安装,多个博客
- 进程间通信(IPC)之内存映射mmap和共享内存shm
- 全新第二代至强,凌动 P5900……英特尔四款 5G 新利器开启 2020 开门红!
- vscode中文_VS Code 中文社区正式成立啦!VS Code Day 圆满落幕!
- SSO单点登录之同域登录的实现
- python基础语法加爬虫精进_从Python安装到语法基础,这才是初学者都能懂的爬虫教程...
- 架构设计之Spring-Session分布式集群会话管理
- websocket.onmessage回调没反应_Java笔记:反应器模式的简单运用
- linux系统expdp按表空间导出,expdp导出是全库吗
- Linux下Tomcat使用80端口
- 拥塞控制,图文并茂(挺丰富,借鉴较多大佬的思想)
- 小白spss学习笔记(一)
- 计算机其它离的360云盘,win7系统将360云盘文件快速转移到百度云盘的方法
- window服务器cpu过高的排查_生产服务器CPU占用率过高排查过程
- 西瓜书与蓝皮书 思维导图(转)
- uni-app开发安卓APP运行到真机,未检测到手机或模拟器
- Fabled Rooks UVA - 11134
热门文章
- 分布式大数据多维分析引擎:Kylin 在百度地图的实践