基于Apache Kylin的分析案例

· 案例4测试成功

1、准备kafka数据

2、从streaming定义一个表

3、定义模型

4、定义cube

5、构建cube

6、查询数据

7、定时自动构建cube

· 案例5测试成功

1、数据准备

2、数据导入hive

3、构建kylin model

4、构建kylin cube

5、构建Schema

6、在saiku中查询数据

目前找到下面一些案例,还没有在我们的环境进行测试,主要问题是案例中的数据源找不到。

1、在github上找到一个项目,一样的

https://github.com/albertoRamon/Kylin/tree/master/KylinAmazon

2、基于 Apache Kylin 的航班准点率分析

http://cn.kyligence.io/2016/11/18/%E5%9F%BA%E4%BA%8E-apache-kylin-%E7%9A%84%E8%88%AA%E7%8F%AD%E5%87%86%E7%82%B9%E7%8E%87%E5%88%86%E6%9E%90/

3、基于Apache Kylin 的销售分析示例

http://cn.kyligence.io/2016/10/27/%E5%9F%BA%E4%BA%8Eapache-kylin-%E7%9A%84%E9%94%80%E5%94%AE%E5%88%86%E6%9E%90%E7%A4%BA%E4%BE%8B/

4、Twitter热词分析:基于Apache Kylin的Streaming建模示例

http://cn.kyligence.io/2016/11/24/kylin-twitter-streaming/

5、Apache Kylin1.5.2.1之订单案例详细构建流程

http://www.cnblogs.com/sh425/p/5778992.html

6、kylin mondrian saiku interaction

http://gree2.github.io/bi/2016/01/20/kylin-mondrian-saiku-interaction

案例4测试成功

这个例子是kylin与kafka的stream数据对接,构建cube的过程。目前不支持Lookup 表,在定义模型时,只能选择fact表。因此不能通过  Mondrian 制作schema再与saiku集成。

案例中用到的Twitter数据获取不到,就参考官网给的例子进行测试( http://kylin.apache.org/docs20/tutorial/cube_streaming.html)。

1、准备kafka数据

a) 新建一个 topic “kylindemo”,指定3个partitions

export KAFKA_HOME=/usr/hdp/2.6.0.3-8/kafka

export KYLIN_HOME=/home/hdfs/raw/apache-kylin-2.2.0-SNAPSHOT-bin

cd $KAFKA_HOME

bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 3 --topic kylindemo

b)放数据到新建的topic中; Kylin有一个工具类可以完成

cd $KYLIN_HOME

/bin/kylin.sh org.apache.kylin.source.kafka.util.KafkaSampleProducer --topic kylindemo --broker master:6667

c)这个工具每秒发送100条数据到kafka,在进行下面的操作过程中保持工具类是运行状态。你可以使用 kafka-console-consumer.sh 查看样例数据

cd $KAFKA_HOME

bin/kafka-console-consumer.sh --zookeeper master:2181 --topic kylindemo --from-beginning

2、从streaming定义一个表

a)选择添加streaming表

b)在弹出框左侧输入一个样例数据,点击中间的按钮,kylin会解析样例数据中的属性,输入表名后点下一步

c)设置kafka配置信息

d)加载成功后查看表

3、定义模型

a)只能选择fact表

b)模型维度

c)模型度量

d)模型分区

4、定义cube

a)选择cube维度

b)cube度量

c)cube聚合

5、构建cube

a)直接在界面上build

b)使用命令build

curl -X PUT --user ADMIN:KYLIN -H "Content-Type: application/json;charset=utf-8" -d '

{ "sourceOffsetStart": 0, "sourceOffsetEnd": 9223372036854775807, "buildType": "BUILD"}' http://master:7070/kylin/api/cubes/kylindemo/build2

6、查询数据

a)在insight界面查询

b)查询结果

7、定时自动构建cube

使用Linux自带的cron定时用命令构建cube

crontab -e

*/5 * * * * curl -X PUT --user ADMIN:KYLIN -H "Content-Type: application/json;charset=utf-8" -d '

{ "sourceOffsetStart": 0, "sourceOffsetEnd": 9223372036854775807, "buildType": "BUILD"}' http://master:7070/kylin/api/cubes/kylindemo/build2

案例5测试成功

1、数据准备

拷贝文档中的每张表的数据,放到master主机上的hive用户目录下,/home/hive/kylinsample

fact_order.txt

dim_custom.txt

dim_day.txt

dim_product.txt

dim_salesperson.txt

2、数据导入hive

Expand source

create table default.fact_order (

time_key string,

product_key string,

salesperson_key string,

custom_key string,

quantity_ordered bigint,

order_dollars bigint,

cost_dollars bigint

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

load data local inpath 'kylinsample/fact_order.txt' into table default.fact_order;

DROP TABLE IF EXISTS default.dim_day ;

create table default.dim_day (

day_key string,

full_day string,

month_name string,

quarter string,

year string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

load data local inpath 'kylinsample/dim_day.txt' overwrite into table default.dim_day;

create table default.dim_salesperson (

salesperson_key string,

salesperson string,

salesperson_id string,

region string,

region_code string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

load data local inpath 'kylinsample/dim_salesperson.txt' overwrite into table default.dim_salesperson;

create table default.dim_custom (

custom_key string,

custom_name string,

custorm_id string,

headquarter_states string,

billing_address string,

billing_city string,

billing_state string,

industry_name string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

load data local inpath 'kylinsample/dim_custom.txt' overwrite into table default.dim_custom;

create table default.dim_product (

product_key string,

product_name string,

product_id string,

product_desc string,

sku string,

brand string,

brand_code string,

brand_manager string,

category string,

category_code string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

load data local inpath 'kylinsample/dim_product.txt' overwrite into table default.dim_product;

3、构建kylin model

名称为 WareHouse_01_Model

详细构建过程参考Kylin cube创建

a)模型结构

b) 维度

c)度量

4、构建kylin cube

a)维度

b)度量

c)聚合

构建成功之后,可以在insight界面查询数据。

5、构建Schema

使用Mondrian Schema Workbench来做,详细步骤参考schema-workbench使用说明

做成之后的结果为warehouse.xml

6、在saiku中查询数据

使用saiku界面来查看图表和图形展示效果,详细步骤参考saiku-kylin集成测试

效果图-1

效果图-2

效果图-3

基于Apache Kylin的分析案例相关推荐

  1. python 情感分析实例_基于Python的情感分析案例

    **情感分析 **又称为倾向性分析和意见挖掘 它是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程 其中情感分析还可以细分为情感极性 倾向 分析 情感程度分析 主客观分析等. 情感极性分析的 ...

  2. 基于 Apache Kylin 的微博舆情实时分析(内含 Demo)

    通过 Real-time OLAP,Kylin v3.0 能够对接 Kafka 数据源,并且实现秒级的数据查询延迟.从 v3.0.0-alpha 发布到现在,世界范围内已有一些社区用户试用该特性并且提 ...

  3. 基于PP-Human的来客分析案例教程

    1 项目概括 来客分析可以广泛的运用于展馆.商超.饭店等日常场景中.通过对来店客人的属性识别.行为预警.时长和轨迹记录等数据进行统计分析,可以应用于相关场所的客流通统计.用户画像.客户留存分析等功能, ...

  4. ArcGIS实验教程——实验三十七:基于ArcGIS的太阳辐射分析案例教程

    ArcGIS实验视频教程合集:<ArcGIS实验教程从入门到精通>(附配套实验数据)> 文章目录 一.太阳辐射的基本概念 1. 视域 2. 太阳图 3. 星空图 二.太阳辐射ArcG ...

  5. 基于python的情感分析案例-python自然语言处理情感分析案例

    产品价值 自然语言处理是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,已经广泛应用在电商.文化娱乐.金融.物流等行业客户的多项业务中.自然语言处理API可帮助用户搭建内容搜索.内容推荐.舆情识 ...

  6. 基于python的情感分析案例-基于情感词典的python情感分析

    Python Python开发 Python语言 基于情感词典的python情感分析 近期老师给我们安排了一个大作业,要求根据情感词典对微博语料进行情感分析.于是在网上狂找资料,看相关书籍,终于搞出了 ...

  7. 基于python的情感分析案例-用python实现文本情感分析

    注:本文转载自知乎专栏 情感分析就是分析一句话说得是很主观还是客观描述,分析这句话表达的是积极的情绪还是消极的情绪. 原理 比如这么一句话:"这手机的画面极好,操作也比较流畅.不过拍照真的太 ...

  8. 基于python的情感分析案例-python snownlp情感分析简易demo(分享)

    SnowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和T ...

  9. 大数据分析神兽麒麟(Apache Kylin)

    1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以 ...

  10. 实践:在运维大数据这事上,Apache Kylin比ELK更擅长?

    题图: from Zoommy 记得十年前,我曾问过一名应用运维工程师,如何用两个关键词描述下自己的日常工作? 他居然不假思索,略带调侃的回答我, "背锅" 与 "惊醒& ...

最新文章

  1. 计算机二级find,Excel函数-find、if和iferror-计算机二级Office
  2. 计算机基础课程教学创新,计算机基础课程教学学生创新能力的培养-计算机基础论文-计算机论文(12页)-原创力文档...
  3. 北京全年天气状况分析
  4. 关于sendinput() inserted only 0 out of 2 python程序问题的解决
  5. 自动添加html结束标志,HTML:包含或排除可选的结束标记?
  6. ninja: error: 'LIBSOUNDIO_LIB-NOTFOUND', needed by 'bin/k4aviewer', missing and no known rule to mak
  7. js的隐含参数(arguments,callee,caller)使用方法
  8. repo sync代码断点续传
  9. Discuz! X3.0/X3.1/X3.2通用 Apache伪静态规则
  10. Python制作翻译软件(中英文互译)
  11. java毕业设计开题报告javaweb户籍管理系统|户口
  12. 基于javaweb+JSP+Servlet宿舍管理系统(超级管理员、宿舍管理员、学生)
  13. 网络安全-MS17-010漏洞-永恒之蓝
  14. 设计虚拟现实用户体验的深刻见解
  15. 【题目泛做】哲学题(DFS序)(Splay)
  16. 危险漫步一个月赚多少钱?
  17. C语言数据的输入输出
  18. Android ley hash的生成
  19. Windows2008开启telnet命令的方法
  20. Unity UGUI基础 之 Scroll View/Scroll Rect 的简单使用,并取消拖拽(滑动内容)效果,拖拽只在Scrollbar 上起作用

热门文章

  1. 使用python基于git log统计开发代码量
  2. 外汇EA之马丁格尔EA
  3. HTML的路径和链接、注释、特殊字符
  4. [美国]《霍比特人:意外之旅》[BD-RMVB.720p.中英双字][2012年奇幻动作]
  5. 《如何有效阅读一本书-超实用笔记读书法》
  6. 【存储知识】RAID(磁盘冗余阵列)与 LVM(逻辑卷管理器)
  7. SpringCloud的注册中心
  8. echart 三维可视化地图_Echarts三维坐标系
  9. java Eclipse 如何打开bin文件目录视图
  10. 计算机专业书读后感300字,读一本书读后感300字(精选9篇)