CC00023.kylin——|HadoopOLAP_Kylin.V23|——|Kylin.v23|Kylin构建Cube|流式构建.V1|
### --- 流式构建~~~ 实时数据更新是一种普遍的需求,快速分析变化趋势才能做出正确的决策。
~~~ Kylin V1.6 发布了可扩展的 streaming cubing 功能,
~~~ 它利用 Hadoop 消费 Kafka 数据的方式构建 cube。
~~~ 这种方式构建的Cube能满足分钟级的更新需求。
### --- 构建流程~~~ 步骤:项目 => 定义数据源(Kafka) => 定义Model
~~~ => 定义Cube => Build Cube => 作业调度(频率高)
### --- 准备数据源~~~ 从Kafka消费消息,每条消息都需要包含:维度信息、度量信息、业务时间戳。
~~~ 每条消息的数据结构都应该相同,
~~~ 并且可以用同一个分析器将每条消息中的维度、度量和时间戳信息提取出来。
~~~ 目前默认的分析器为:org.apache.kylin.source.kafka.TimedJsonStreamParser
### --- 在kafka中准备数据源~~~ # 启动kafka服务
[root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/yanqi/servers/kafka_2.12/config/server.properties
~~~ # 创建名为kylin_streaming_topic的topic,有三个分区,1个副本
[root@hadoop01 ~]# kafka-topics.sh --create --zookeeper hadoop01:2181/myKafka --replication-factor 1 --partitions 3 --topic kylin_streaming_topic1
~~~ # 使用工具,每秒会向以上topic每秒发送100条记录
[root@hadoop02 ~]# kylin.sh org.apache.kylin.source.kafka.util.KafkaSampleProducer --topic kylin_streaming_topic1 --broker hadoop01:9092,hadoop02:9092~~~ # 检查消息是否成功发送
[root@hadoop02 ~]# kafka-console-consumer.sh --bootstrap-server hadoop01:9092,hadoop02:9092 --topic kylin_streaming_topic1 --from-beginning
### --- 查看通过kylin.sh加载的数据~~~ # 提取到一条,是json格式的数据,已进行格式化了
{"country": "AUSTRALIA","amount": 54.081247423872725,"qty": 9,"currency": "USD","order_time": 1637319955203,"category": "CLOTH","device": "iOS","user": {"gender": "Male","id": "5d1a9877-37e1-07e0-8103-8a2804f6fa6b","first_name": "unknown","age": 21}
}
### --- 定义流式数据源~~~ # 1、定义流式数据源:Add Streaming Table
~~~ # 2、定义Schema
~~~ # 3、定义kafka信息
~~~ # 4、查看定义的流式数据源
CC00023.kylin——|HadoopOLAP_Kylin.V23|——|Kylin.v23|Kylin构建Cube|流式构建.V1|相关推荐
- kylin版本_Kylin配置Spark并构建Cube
每一个成功人士的背后,必定曾经做出过勇敢而又孤独的决定. 放弃不难,但坚持很酷~ HDP 版本:2.6.4.0 Kylin 版本:2.5.1 机器说明:三台 CentOS-7,8G 内存 Kylin ...
- “流式”前端构建工具——gulp.js 简介
Grunt 一直是前端领域构建工具(任务运行器或许更准确一些,因为前端构建只是此类工具的一部分用途)的王者,然而它也不是毫无缺陷的,近期风头正劲的 gulp.js 隐隐有取而代之的态势.那么,究竟是什 ...
- 【Spark深入学习 -10】基于spark构建企业级流处理系统
----本节内容------- 1.流式处理系统背景 1.1 技术背景 1.2 Spark技术很火 2.流式处理技术介绍 2.1流式处理技术概念 2.2流式处理应用场景 2.3流式处理系统分类 3.流 ...
- CC00027.kylin——|HadoopOLAP_Kylin.V27|——|Kylin.v27|Kylin构建Cube|实时OLAP.V3|
一.定义数据源 ### --- 定义数据源~~~ # 1.创建数据源 ~~~ # 2.填写kafka集群信息 ~~~ # 3.通过kylin加载的json字段:创建流表维表格式 ~~~ # 4.查看加 ...
- kylin如何支持flink_大数据集群运维(28) Kylin 配置使用 flink 构建 Cube
用 Flink 构建 Cube Kylin v3.1 引入了 Flink cube engine,在 build cube 步骤中使用 Apache Flink 代替 MapReduce:您可以查看 ...
- 大数据Kylin(六):Kylin构建Cube算法
文章目录 Kylin构建Cube算法 一.layered cubing
- Kylin快速入门系列(1) | Kylin的简单介绍及安装部署
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
- Kylin快速入门系列(2) | Kylin的快速入门
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
- kylin版本_如何在 Kylin 中优雅地使用 Spark
前言 Kylin 用户在使用 Spark的过程中,经常会遇到任务提交缓慢.构建节点不稳定的问题.为了更方便地向 Spark 提交.管理和监控任务,有些用户会使用 Livy 作为 Spark 的交互接口 ...
最新文章
- Keil5简介、下载及安装(NB-IoT专栏—基础篇2)
- Mozilla新特性只支持https网站
- linux查看CPU信息
- IOS上传图片旋转90度问题出现原因及解决方案
- MariaDB数据库介绍三、MHA(Master HA)实现主节点故障转移
- python的薪资待遇-Python的就业薪资具体多少?发展前景到底如何?
- ASP.NET的SEO:HTTP报头状态码---内容重定向
- 一个可供中小团队参考的微服务架构技术栈
- springboot整合redis集群master宕机后连接超时
- 计算机驱动伺服的程序,伺服调试软件V-ASSISTANT始终找不到驱动-工业支持中心-西门子中国...
- [转载] Python基础:什么是字符串?字符串是用来做什么的?
- 开发中常用正则表达式
- LayUI_03 前端框架 内置模块
- 国家示范性高职院校名单(109所)
- less模块——math函数
- 经济型EtherCAT运动控制器(六):数据储存
- 继昨天的猜拳游戏,升级为老虎机版
- 如何给PDF中的内容添加下划线
- uni-appの发展和应用
- 自用 Java 学习(JDBC)