基于Apache Kylin的分析案例

基于Apache Kylin的分析案例

· 案例4测试成功

o 1、准备kafka数据

o 2、从streaming定义一个表

o 3、定义模型

o 4、定义cube

o 5、构建cube

o 6、查询数据

o 7、定时自动构建cube

· 案例5测试成功

o 1、数据准备

o 2、数据导入hive

o 3、构建kylin model

o 4、构建kylin cube

o 5、构建Schema

o 6、在saiku中查询数据

目前找到下面一些案例，还没有在我们的环境进行测试，主要问题是案例中的数据源找不到。

1、在github上找到一个项目，一样的

https://github.com/albertoRamon/Kylin/tree/master/KylinAmazon

2、基于 Apache Kylin 的航班准点率分析

http://cn.kyligence.io/2016/11/18/%E5%9F%BA%E4%BA%8E-apache-kylin-%E7%9A%84%E8%88%AA%E7%8F%AD%E5%87%86%E7%82%B9%E7%8E%87%E5%88%86%E6%9E%90/

3、基于Apache Kylin 的销售分析示例

http://cn.kyligence.io/2016/10/27/%E5%9F%BA%E4%BA%8Eapache-kylin-%E7%9A%84%E9%94%80%E5%94%AE%E5%88%86%E6%9E%90%E7%A4%BA%E4%BE%8B/

4、Twitter热词分析：基于Apache Kylin的Streaming建模示例

http://cn.kyligence.io/2016/11/24/kylin-twitter-streaming/

5、Apache Kylin1.5.2.1之订单案例详细构建流程

http://www.cnblogs.com/sh425/p/5778992.html

6、kylin mondrian saiku interaction

http://gree2.github.io/bi/2016/01/20/kylin-mondrian-saiku-interaction

案例4测试成功

这个例子是kylin与kafka的stream数据对接，构建cube的过程。目前不支持Lookup 表，在定义模型时，只能选择fact表。因此不能通过 Mondrian 制作schema再与saiku集成。

案例中用到的Twitter数据获取不到，就参考官网给的例子进行测试（ http://kylin.apache.org/docs20/tutorial/cube_streaming.html）。

1、准备kafka数据

a）新建一个 topic “kylindemo”，指定3个partitions

export KAFKA_HOME=/usr/hdp/2.6.0.3-8/kafka

export KYLIN_HOME=/home/hdfs/raw/apache-kylin-2.2.0-SNAPSHOT-bin

cd $KAFKA_HOME

bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 3 --topic kylindemo

b）放数据到新建的topic中; Kylin有一个工具类可以完成

cd $KYLIN_HOME

/bin/kylin.sh org.apache.kylin.source.kafka.util.KafkaSampleProducer --topic kylindemo --broker master:6667

c）这个工具每秒发送100条数据到kafka，在进行下面的操作过程中保持工具类是运行状态。你可以使用 kafka-console-consumer.sh 查看样例数据

cd $KAFKA_HOME

bin/kafka-console-consumer.sh --zookeeper master:2181 --topic kylindemo --from-beginning

2、从streaming定义一个表

a）选择添加streaming表

b）在弹出框左侧输入一个样例数据，点击中间的按钮，kylin会解析样例数据中的属性，输入表名后点下一步

c）设置kafka配置信息

d）加载成功后查看表

3、定义模型

a）只能选择fact表

b）模型维度

c）模型度量

d）模型分区

4、定义cube

a）选择cube维度

b）cube度量

c）cube聚合

5、构建cube

a）直接在界面上build

b）使用命令build

curl -X PUT --user ADMIN:KYLIN -H "Content-Type: application/json;charset=utf-8" -d '

{ "sourceOffsetStart": 0, "sourceOffsetEnd": 9223372036854775807, "buildType": "BUILD"}' http://master:7070/kylin/api/cubes/kylindemo/build2

6、查询数据

a）在insight界面查询

b）查询结果

7、定时自动构建cube

使用Linux自带的cron定时用命令构建cube

crontab -e

*/5 * * * * curl -X PUT --user ADMIN:KYLIN -H "Content-Type: application/json;charset=utf-8" -d '

{ "sourceOffsetStart": 0, "sourceOffsetEnd": 9223372036854775807, "buildType": "BUILD"}' http://master:7070/kylin/api/cubes/kylindemo/build2

案例5测试成功

1、数据准备

拷贝文档中的每张表的数据，放到master主机上的hive用户目录下，/home/hive/kylinsample

fact_order.txt

dim_custom.txt

dim_day.txt

dim_product.txt

dim_salesperson.txt

2、数据导入hive

Expand source

create table default.fact_order (

time_key string,

product_key string,

salesperson_key string,

custom_key string,

quantity_ordered bigint,

order_dollars bigint,

cost_dollars bigint

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

load data local inpath 'kylinsample/fact_order.txt' into table default.fact_order;

DROP TABLE IF EXISTS default.dim_day ;

create table default.dim_day (

day_key string,

full_day string,

month_name string,

quarter string,

year string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

load data local inpath 'kylinsample/dim_day.txt' overwrite into table default.dim_day;

create table default.dim_salesperson (

salesperson_key string,

salesperson string,

salesperson_id string,

region string,

region_code string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

load data local inpath 'kylinsample/dim_salesperson.txt' overwrite into table default.dim_salesperson;

create table default.dim_custom (

custom_key string,

custom_name string,

custorm_id string,

headquarter_states string,

billing_address string,

billing_city string,

billing_state string,

industry_name string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

load data local inpath 'kylinsample/dim_custom.txt' overwrite into table default.dim_custom;

create table default.dim_product (

product_key string,

product_name string,

product_id string,

product_desc string,

sku string,

brand string,

brand_code string,

brand_manager string,

category string,

category_code string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

load data local inpath 'kylinsample/dim_product.txt' overwrite into table default.dim_product;

3、构建kylin model

名称为 WareHouse_01_Model

详细构建过程参考Kylin cube创建

a）模型结构

b) 维度

c）度量

4、构建kylin cube

a）维度

b）度量

c）聚合

构建成功之后，可以在insight界面查询数据。

5、构建Schema

使用Mondrian Schema Workbench来做，详细步骤参考schema-workbench使用说明

做成之后的结果为warehouse.xml

6、在saiku中查询数据

使用saiku界面来查看图表和图形展示效果，详细步骤参考saiku-kylin集成测试

效果图-1

效果图-2

效果图-3

基于Apache Kylin的分析案例相关推荐

python 情感分析实例_基于Python的情感分析案例
**情感分析 **又称为倾向性分析和意见挖掘它是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程其中情感分析还可以细分为情感极性倾向分析情感程度分析主客观分析等. 情感极性分析的 ...
基于 Apache Kylin 的微博舆情实时分析（内含 Demo）
通过 Real-time OLAP,Kylin v3.0 能够对接 Kafka 数据源,并且实现秒级的数据查询延迟.从 v3.0.0-alpha 发布到现在,世界范围内已有一些社区用户试用该特性并且提 ...
基于PP-Human的来客分析案例教程
1 项目概括来客分析可以广泛的运用于展馆.商超.饭店等日常场景中.通过对来店客人的属性识别.行为预警.时长和轨迹记录等数据进行统计分析,可以应用于相关场所的客流通统计.用户画像.客户留存分析等功能, ...
ArcGIS实验教程——实验三十七：基于ArcGIS的太阳辐射分析案例教程
ArcGIS实验视频教程合集:<ArcGIS实验教程从入门到精通>(附配套实验数据)> 文章目录一.太阳辐射的基本概念 1. 视域 2. 太阳图 3. 星空图二.太阳辐射ArcG ...
基于python的情感分析案例-python自然语言处理情感分析案例
产品价值自然语言处理是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,已经广泛应用在电商.文化娱乐.金融.物流等行业客户的多项业务中.自然语言处理API可帮助用户搭建内容搜索.内容推荐.舆情识 ...
基于python的情感分析案例-基于情感词典的python情感分析
Python Python开发 Python语言基于情感词典的python情感分析近期老师给我们安排了一个大作业,要求根据情感词典对微博语料进行情感分析.于是在网上狂找资料,看相关书籍,终于搞出了 ...
基于python的情感分析案例-用python实现文本情感分析
注:本文转载自知乎专栏情感分析就是分析一句话说得是很主观还是客观描述,分析这句话表达的是积极的情绪还是消极的情绪. 原理比如这么一句话:"这手机的画面极好,操作也比较流畅.不过拍照真的太 ...
基于python的情感分析案例-python snownlp情感分析简易demo(分享)
SnowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和T ...
大数据分析神兽麒麟(Apache Kylin)
1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以 ...
实践：在运维大数据这事上，Apache Kylin比ELK更擅长？
题图: from Zoommy 记得十年前,我曾问过一名应用运维工程师,如何用两个关键词描述下自己的日常工作? 他居然不假思索,略带调侃的回答我, "背锅" 与 "惊醒& ...

基于Apache Kylin的分析案例

基于Apache Kylin的分析案例相关推荐

最新文章

热门文章