Druid 大数据分析之快速应用(单机模式)
2. Linux, Mac OS X, or other Unix-like OS (Windows不支持)
3. VMware
4. 2CPU ++; 内存2G ++
- curl http://www.gtlib.gatech.edu/pub/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz -o zookeeper-3.4.6.tar.gz
- tar -xzf zookeeper-3.4.6.tar.gz
- cd zookeeper-3.4.6
- cp conf/zoo_sample.cfg conf/zoo.cfg
- ./bin/zkServer.sh start
zookeeper 安装验证
- cd zookeeper-3.4.6 // 切换至Zookeeper根目录
- bin/zkCli.sh // 启动Zookeeper客户端
- ls / // 查看根节点
- curl -O http://static.druid.io/artifacts/releases/druid-0.9.1.1-bin.tar.gz
- tar -xzf druid-0.9.1.1-bin.tar.gz
- cd druid-0.9.1.1
LICENSE
- 许可证文件。bin/
- 快速启动脚本。conf/*
- 集群安装配置(包括Hadoop)。conf-quickstart/*
- 快速启动相关配置。extensions/*
- Druid扩展。hadoop-dependencies/*
- Druid hadoop依赖。lib/*
- Druid核心软件包。quickstart/*
- 快速启动示例文件及数据。
1. 启动Zookeeper
2. 切换到Druid根目录,执行 bin/init
切换至Druid安装目录,在不同远程终端窗口依次执行以命令
- java `cat conf-quickstart/druid/historical/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/historical:lib/*" io.druid.cli.Main server historical
- java `cat conf-quickstart/druid/broker/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/broker:lib/*" io.druid.cli.Main server broker
- java `cat conf-quickstart/druid/coordinator/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/coordinator:lib/*" io.druid.cli.Main server coordinator
- java `cat conf-quickstart/druid/overlord/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/overlord:lib/*" io.druid.cli.Main server overlord
- java `cat conf-quickstart/druid/middleManager/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/middleManager:lib/*" io.druid.cli.Main server middleManager
1. 访问http://localhost:8090/console.html 可以查看数据批量导入Druid的任务执情况,间隔一段时间刷新一下控制台,如果看到SUCCESS任务状态,说明任务执行成功,如下图所示:
2. 访问http://localhost:8081/ 查看任完成进度、数据分片情况、索引创建等
Linux环境下加载数据文件,执行方式如下:
- {"gcxh":"430000002745468976","license":"测AZ6LUL","licenseType":"02","hpys":"5","csys":null,"cllx":"0","clpp":null,"gateId":"430186000347","fxlx":"8","cdbh":"1","passTime":"2016-07-03T20:23:17.000Z","carPassDate":"2016-07-04","carPassTime":"04:23:17","carLoc":"测A","province":"43","city":"4301","region":"430186"}
- {
- "type" : "index_hadoop",
- "spec" : {
- "ioConfig" : {
- "type" : "hadoop",
- "inputSpec" : {
- "type" : "static",
- "paths" : "/opt/data/pass.json" /**指定数据*/
- }
- },
- "dataSchema" : {
- "dataSource" : "kakou", /**数据源名,类似表名*/
- "granularitySpec" : {
- "type" : "uniform",
- "segmentGranularity" : "day", /**数据分片粒度,按天*/
- "queryGranularity" : "none",
- "intervals" : ["2016-07-04/2016-07-05"] /**时间跨度*/
- },
- "parser" : {
- "type" : "string",
- "parseSpec" : {
- "format" : "json", /**数据文件类型*/
- "dimensionsSpec" : {
- "dimensions" : [ /**数据列*/
- "license",
- "carLoc",
- "licenseType",
- "hpys",
- "cllx",
- "clpp",
- "gateId",
- "fxlx",
- "passTime",
- "carPassDate",
- "carPassTime",
- "province",
- "city",
- "region"
- ]
- },
- "timestampSpec" : {
- "format" : "auto",
- "column" : "passTime" /**指定时间分段*/
- }
- }
- },
- "metricsSpec" : [
- {
- "name" : "count",
- "type" : "count" /**按count聚合*/
- }
- ]
- },
- "tuningConfig" : {
- "type" : "hadoop",
- "partitionsSpec" : {
- "type" : "hashed",
- "targetPartitionSize" : 5000000
- },
- "maxRowsInMemory":500000,
- "jobProperties" : {}
- }
- }
- }
- /**执行如下命令进行导入操作*/
- curl -X 'POST' -H 'Content-Type:application/json' -d @/opt/data/pass-index.json 192.168.121.200:8090/druid/indexer/v1/task
2. 时间序列值:Druid按时间进序列值进行数据分片,按时间字段进行数据分片的字段值需要标准化(UTC)处理。
3. 任务挂起或等待:Druid将任务提交给Hadoop中的Map-Reduce执行,导入时任务可会因为某种原因导致任务挂起或停止。
中文乱码解决办法:
- try{
- OutputStream out = new FileOutputStream(new File("E:\\study\\druid\\rpass_20150801.json"),true);
- Writer write = new OutputStreamWriter(out,"utf-8");
- write.write(json.toString()+"\n");
- write.flush();
- write.close();
- out.close();
- }catch(){
- e.printStackTrace();
- }
时间序列值UTC标准化:
- /**引用Joda类库*/
- DateTimeFormatter dtFormatter=DateTimeFormat.forPattern("yyyy-MM-dd hh:mm:ss");
- /**输出结果 2016-08-29T22:58:20.000Z*/
- String result = dtFormatter.parseDateTime('2016-08-29 22:58:20').withZone(DateTimeZone.UTC).toString();
任务挂起或停止解决办法:可以通过下述命将挂起任务删除,重新执行导入。
- /**taskId可以从控制台获取或在执行Curl导入命令时返回值*/
- http://<OVERLORD_IP>:<port>/druid/indexer/v1/task/{taskId}/shutdown
2. 数据导入接口对应Indexing,默认8090端口 http://<OVERLORD_IP>:<port>/druid/indexer/v1/task
转载于:https://www.cnblogs.com/collin-xm/p/8384273.html
Druid 大数据分析之快速应用(单机模式)相关推荐
- 【转载】DRuid 大数据分析之查询
转载自http://yangyangmyself.iteye.com/blog/2321759 1.Druid 查询概述 上一节完成数据导入后,接下来讲讲Druid如何查询及统计分析导入的数据. ...
- 基于大数据分析的安全管理平台技术研究及应用
http://www.venustech.com.cn/NewsInfo/531/25566.Html [内容摘要]本文首先通过介绍大数据的起因,给出了大数据的定义和特征描述,并简要说明了当前大数据的 ...
- 图文详解 DBMS 数据库管理系统三层架构体系(三级模式)《ClickHouse 实战:企业级大数据分析引擎》...
引文 计算机科学领域的所有问题,都可以通过添加一层中间层来解决.通过在用户和计算机中间添加一层逻辑层(概念模型层),于是就有了"数据库的三级模式":数据库在三个级别 (层次)上进行 ...
- Spark快速大数据分析——Scala语言基础(壹)
Spark快速大数据分析--Scala语言基础(壹) 文章目录 Spark快速大数据分析--Scala语言基础(壹) 前记 Scala的历史 环境搭建: 1.SBT构建工具和REPL: 2.使用IDE ...
- 高性能计算系统——大数据与快速数据分析对高性能分析的需求
大数据与快速数据分析对高性能分析的需求 智能家居的设备的产生必然使下一代家居服务概念化,社交网站和知识社区的日益普及,科学实验和技术计算的激增,高度可编程以及软件定义IT基础设施(服务器.存储装置.网 ...
- DBMS 数据库管理系统的三级模式架构《ClickHouse 实战:企业级大数据分析引擎》...
引文 计算机科学领域的所有问题,都可以通过添加一层中间层来解决.通过在用户和计算机中间添加一层逻辑层(概念模型层),于是就有了"数据库的三级模式":数据库在三个级别 (层次)上进行 ...
- Spark快速大数据分析——读书笔记
--8.16开始整理 Spark快速大数据分析 推荐序: 一套大数据解决方案通常包含多个组件,从存储.计算和网络硬件层,到数据处理引擎,再到利用改良的统计和计算算法.数据可视化来获得商业洞见的分析层, ...
- 《Spark快速大数据分析》—— 第三章 RDD编程
本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第三章 RDD编程,如需转载请自行联系原博主.
- spark任务shell运行_《Spark快速大数据分析》- 根据简单例子理解RDD
1. RDD简介 RDD,弹性分布式数据集(Resiliennt Distributed Datasets),是Spark中最重要的核心概念,是Spark应用中存储数据的数据结构. RDD 其实就是分 ...
最新文章
- Android Retrofit+RxJava 优雅的处理服务器返回异常、错误
- 解决[[NSFileManager defaultManager] contentsOfDirectoryAtPath 方法获取不到数据的bug
- 文巾解题 679. 24 点游戏
- 数据结构实验之排序六:希尔排序
- vim emmet插件
- wms地图绘制工具_【工具】奇幻风世界地图绘制工具Inkarnate
- 中国农业大学计算机研究生专业课,中国农业大学2019计算机考研纯干货分享
- 如何从seo的维度来选择网站的关键词
- Mysql数据库规范(阿里巴巴嵩山版java开发手册)
- 2022年全球与中国飞秒光纤激光器市场现状及未来发展趋势
- windows7内部版本7601副本不是正版的解决方案
- ctfshow-WEB-web2
- 信息学奥赛一本通:1156:求π的值
- Google招聘需求分析
- Java按照word模板导出、下载文档
- 源代码安全加密解决方案
- 对“动态多重网络”建模与目标选择方法的介绍
- H3 BPM嵌入式流程解决方案 (文末附H3 BPM软件下载地址)
- ad中按钮开关的符号_基础3:按钮开关,图文秒懂!
- 两个向量夹角的cos值
热门文章
- tf.expand_dims() 的用法
- Pycharm 和 vscode 多光标、折叠代码和代码格式化快捷键
- 十七、生产者消费者问题
- 决策树算法详解(3)
- 重温目标检测--YOLO v2 -- YOLO9000
- 多视角图像生成--Multi-View Image Generation from a Single-View
- java使用Maven加载JDBC:mysql-connector连接MySQL/MariaDB
- matlab极大值点个数,求一组数的极大值个数
- Docker创建自己的github(Gitea)
- 清华学长手把手带你做UI自动化测试