CC00023.kylin——|HadoopOLAP_Kylin.V23|——|Kylin.v23|Kylin构建Cube|流式构建.V1|

一、流式构建

### --- 流式构建~~~     实时数据更新是一种普遍的需求，快速分析变化趋势才能做出正确的决策。
~~~     Kylin V1.6 发布了可扩展的 streaming cubing 功能，
~~~     它利用 Hadoop 消费 Kafka 数据的方式构建 cube。
~~~     这种方式构建的Cube能满足分钟级的更新需求。

### --- 构建流程~~~     步骤：项目 => 定义数据源(Kafka) => 定义Model
~~~     => 定义Cube => Build Cube => 作业调度(频率高)

二、准备数据源

### --- 准备数据源~~~     从Kafka消费消息，每条消息都需要包含：维度信息、度量信息、业务时间戳。
~~~     每条消息的数据结构都应该相同，
~~~     并且可以用同一个分析器将每条消息中的维度、度量和时间戳信息提取出来。
~~~     目前默认的分析器为：org.apache.kylin.source.kafka.TimedJsonStreamParser

### --- 在kafka中准备数据源~~~     # 启动kafka服务
[root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/yanqi/servers/kafka_2.12/config/server.properties
~~~     # 创建名为kylin_streaming_topic的topic，有三个分区，1个副本
[root@hadoop01 ~]# kafka-topics.sh --create --zookeeper hadoop01:2181/myKafka --replication-factor 1 --partitions 3 --topic kylin_streaming_topic1

~~~     # 使用工具，每秒会向以上topic每秒发送100条记录
[root@hadoop02 ~]# kylin.sh org.apache.kylin.source.kafka.util.KafkaSampleProducer --topic kylin_streaming_topic1 --broker hadoop01:9092,hadoop02:9092~~~     # 检查消息是否成功发送
[root@hadoop02 ~]# kafka-console-consumer.sh --bootstrap-server hadoop01:9092,hadoop02:9092 --topic kylin_streaming_topic1 --from-beginning

### --- 查看通过kylin.sh加载的数据~~~     # 提取到一条，是json格式的数据，已进行格式化了
{"country": "AUSTRALIA","amount": 54.081247423872725,"qty": 9,"currency": "USD","order_time": 1637319955203,"category": "CLOTH","device": "iOS","user": {"gender": "Male","id": "5d1a9877-37e1-07e0-8103-8a2804f6fa6b","first_name": "unknown","age": 21}
}

三、定义流式数据源

### --- 定义流式数据源~~~     # 1、定义流式数据源：Add Streaming Table
~~~     # 2、定义Schema
~~~     # 3、定义kafka信息
~~~     # 4、查看定义的流式数据源

CC00023.kylin——|HadoopOLAP_Kylin.V23|——|Kylin.v23|Kylin构建Cube|流式构建.V1|相关推荐

kylin版本_Kylin配置Spark并构建Cube
每一个成功人士的背后,必定曾经做出过勇敢而又孤独的决定. 放弃不难,但坚持很酷~ HDP 版本:2.6.4.0 Kylin 版本:2.5.1 机器说明:三台 CentOS-7,8G 内存 Kylin ...
“流式”前端构建工具——gulp.js 简介
Grunt 一直是前端领域构建工具(任务运行器或许更准确一些,因为前端构建只是此类工具的一部分用途)的王者,然而它也不是毫无缺陷的,近期风头正劲的 gulp.js 隐隐有取而代之的态势.那么,究竟是什 ...
【Spark深入学习 -10】基于spark构建企业级流处理系统
----本节内容------- 1.流式处理系统背景 1.1 技术背景 1.2 Spark技术很火 2.流式处理技术介绍 2.1流式处理技术概念 2.2流式处理应用场景 2.3流式处理系统分类 3.流 ...
CC00027.kylin——|HadoopOLAP_Kylin.V27|——|Kylin.v27|Kylin构建Cube|实时OLAP.V3|
一.定义数据源 ### --- 定义数据源~~~ # 1.创建数据源 ~~~ # 2.填写kafka集群信息 ~~~ # 3.通过kylin加载的json字段:创建流表维表格式 ~~~ # 4.查看加 ...
kylin如何支持flink_大数据集群运维（28） Kylin 配置使用 flink 构建 Cube
用 Flink 构建 Cube Kylin v3.1 引入了 Flink cube engine,在 build cube 步骤中使用 Apache Flink 代替 MapReduce:您可以查看 ...
大数据Kylin（六）：Kylin构建Cube算法
文章目录 Kylin构建Cube算法一.layered cubing
Kylin快速入门系列(1) | Kylin的简单介绍及安装部署
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
Kylin快速入门系列(2) | Kylin的快速入门
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
kylin版本_如何在 Kylin 中优雅地使用 Spark
前言 Kylin 用户在使用 Spark的过程中,经常会遇到任务提交缓慢.构建节点不稳定的问题.为了更方便地向 Spark 提交.管理和监控任务,有些用户会使用 Livy 作为 Spark 的交互接口 ...

CC00023.kylin——|HadoopOLAP_Kylin.V23|——|Kylin.v23|Kylin构建Cube|流式构建.V1|

CC00023.kylin——|HadoopOLAP_Kylin.V23|——|Kylin.v23|Kylin构建Cube|流式构建.V1|相关推荐

最新文章

热门文章