一、Shark简单介绍

Shark是基于Spark与Hive之上的一种SQL查询引擎,官网的架构图及性能測试图例如以下:(Ps:本人也做了一个性能測试见Shark性能測试报告)

我们涉及到了2个依赖组件,1是Apache Spark, 另外一个是AMPLAB的Hive0.11.

这里注意版本号的选择。一定要选择官方的推荐版本号:

Spark0.91 + AMPLAB Hive0.11 + Shark0.91

一定要自己编译好它们,适用于自己的集群。

二、Shark集群搭建

1. 搭建Spark集群。这个能够參照:Spark集群搭建。

2. 编译AMPLAB的Hive0.11, 进入到根文件夹下直接 ant package.

3.编译Shark,这个步骤和编译Spark是一样的。和HDFS的版本号记得兼容即可,改动project以下的SharkBuild.scala里面的Hadoop版本号号。然后sbt/sbt assembly.

三、启动Spark + Shark

首先。启动Spark,这里要改动spark的配置文件,在Spark-env.sh里面配置:

HADOOP_CONF_DIR=/home/hadoop/src/hadoop/conf
SPARK_CLASSPATH=/home/hadoop/src/hadoop/lib/:/app/hadoop/shengli/sharklib/*
SPARK_LOCAL_DIRS=/app/hadoop/shengli/spark/data
SPARK_MASTER_IP=10.1.8.210
SPARK_MASTER_WEBUI_PORT=7078

接着,配置Spark的spark-defaults.conf

spark.master            spark://10.1.8.210:7077
spark.executor.memory   32g
spark.shuffle.spill  true
java.library.path    /usr/local/lib
spark.shuffle.consolidateFiles true# spark.eventLog.enabled  true
# spark.eventLog.dir      hdfs://namenode:8021/directory
# spark.serializer        org.apache.spark.serializer.KryoSerializer

接着配置slaves:

10.1.8.210  #这里master节点不会做cache
10.1.8.211
10.1.8.212
10.1.8.213

最后启动集群,sbin/start-all.sh,至此Spark集群配置完成。

Shark有依赖的Jar包。我们集中将其复制到一个目录内:

#!/bin/bash
for jar in `find /home/hadoop/shengli/shark/lib -name '*jar'`; docp $jar /home/hadoop/shengli/sharklib/
done
for jar in `find /home/hadoop/shengli/shark/lib_managed/jars -name '*jar'`; docp $jar /home/hadoop/shengli/sharklib/
done
for jar in `find /home/hadoop/shengli/shark/lib_managed/bundles -name '*jar'`; docp $jar /home/hadoop/shengli/sharklib/
done

配置Shark,在shark/conf/shark-env.sh中配置

# format as the JVM's -Xmx option, e.g. 300m or 1g.
export JAVA_HOME=/usr/java/jdk1.7.0_25
# (Required) Set the master program's memory
#export SHARK_MASTER_MEM=1g# (Optional) Specify the location of Hive's configuration directory. By default,
# Shark run scripts will point it to $SHARK_HOME/conf
#export HIVE_CONF_DIR=""
export HADOOP_HOME=/home/hadoop/src/hadoop
# For running Shark in distributed mode, set the following:
export SHARK_MASTER_MEM=1g
export HADOOP_HOME=$HADOOP_HOME
export SPARK_HOME=/app/hadoop/shengli/spark
export SPARK_MASTER_IP=10.1.8.210
export MASTER=spark://10.1.8.210:7077# Only required if using Mesos:
#export MESOS_NATIVE_LIBRARY=/usr/local/lib/libmesos.so# Only required if run shark with spark on yarn
#export SHARK_EXEC_MODE=yarn
#export SPARK_ASSEMBLY_JAR=
#export SHARK_ASSEMBLY_JAR=# (Optional) Extra classpath
#export SPARK_LIBRARY_PATH=""# Java options
# On EC2, change the local.dir to /mnt/tmp# (Optional) Tachyon Related Configuration
#export TACHYON_MASTER=""                     # e.g. "localhost:19998"
#export TACHYON_WAREHOUSE_PATH=/sharktables   # Could be any valid path name
#export HIVE_HOME=/home/hadoop/shengli/hive/build/dest
export HIVE_CONF_DIR=/app/hadoop/shengli/hive/conf
export CLASSPATH=$CLASSPATH:/home/hadoop/src/hadoop/lib:home/hadoop/src/hadoop/lib/native:/app/hadoop/shengli/sharklib/*export SCALA_HOME=/app/hadoop/shengli/scala-2.10.3#export SPARK_LIBRARY_PATH=/home/hadoop/src/hadoop/lib/native/Linux-amd64-64#export LD_LIBRARY_PATH=/home/hadoop/src/hadoop/lib/native/Linux-amd64-64#spark conf copy hereSPARK_JAVA_OPTS=" -Dspark.cores.max=8 -Dspark.local.dir=/app/hadoop/shengli/spark/data -Dspark.deploy.defaultCores=2 -Dspark.executor.memory=24g -Dspark.shuffle.spill=true -Djava.library.path=/usr/local/lib "
SPARK_JAVA_OPTS+="-Xmx4g -Xms4g -verbose:gc -XX:-PrintGCDetails -XX:+PrintGCTimeStamps -XX:+UseCompressedOops "
export SPARK_JAVA_OPTS

接下来配置Shark的集群了,我们要将编译好的Spark,Shark。Hive所有都分发到各个节点。保持同步更新rsync。

rsync --update -pav --progress /app/hadoop/shengli/spark/ root@10.1.8.211:/app/hadoop/shengli/spark/
......
rsync --update -pav --progress /app/hadoop/shengli/shark/ root@10.1.8.211:/app/hadoop/shengli/shark/
......
rsync --update -pav --progress /app/hadoop/shengli/hive/ root@10.1.8.211:/app/hadoop/shengli/hive/
......
rsync --update -pav --progress /app/hadoop/shengli/sharklib/ root@10.1.8.211:/app/hadoop/shengli/sharklib/
......
rsync --update -pav --progress /usr/java/jdk1.7.0_25/ root@10.1.8.211:/usr/java/jdk1.7.0_25/
......

启动Shark,能够在WEBUI上查看集群状态(上面配置的是WEB UI PORT 7078)

进入到SHARK_HOME/bin

drwxr-xr-x  4 hadoop games 4.0K Jun 12 10:01 .
drwxr-xr-x 13 hadoop games 4.0K Jun 16 16:59 ..
-rwxr-xr-x  1 hadoop games  882 Apr 10 19:18 beeline
drwxr-xr-x  2 hadoop games 4.0K Jun 12 10:01 dev
drwxr-xr-x  2 hadoop games 4.0K Jun 12 10:01 ext
-rwxr-xr-x  1 hadoop games 1.4K Apr 10 19:18 shark
-rwxr-xr-x  1 hadoop games  730 Apr 10 19:18 shark-shell
-rwxr-xr-x  1 hadoop games  840 Apr 10 19:18 shark-withdebug
-rwxr-xr-x  1 hadoop games  838 Apr 10 19:18 shark-withinfo

这里shark是直接执行shark

shark-shell类似spark-shell

shark-withdebug是在执行中以DEBUG的log4J模式进入,适合排查错误和理解执行。

shark-withinfo同上。

shark还提供了一种shark-server共享Application中Cacahed RDD概念。

bin/shark -h 10.1.8.210 -p 7100
-h 10.1.8.210 -p 7100
Starting the Shark Command Line ClientLogging initialized using configuration in jar:file:/app/hadoop/shengli/sharklib/hive-common-0.11.0-shark-0.9.1.jar!/hive-log4j.properties
Hive history file=/tmp/root/hive_job_log_root_25876@wh-8-210_201406171640_1172020906.txt
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/app/hadoop/shengli/sharklib/slf4j-log4j12-1.7.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/app/hadoop/shengli/sharklib/shark-assembly-0.9.1-hadoop0.20.2-cdh3u5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/app/hadoop/shengli/shark/lib_managed/jars/org.slf4j/slf4j-log4j12/slf4j-log4j12-1.7.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
2.870: [GC 262208K->21869K(1004928K), 0.0274310 secs]
[10.1.8.210:7100] shark>

这样就能够用多个client连接这个port了。

bin/shark -h 10.1.8.210 -p 7100
-h 10.1.8.210 -p 7100
Starting the Shark Command Line ClientLogging initialized using configuration in jar:file:/app/hadoop/shengli/sharklib/hive-common-0.11.0-shark-0.9.1.jar!/hive-log4j.properties
Hive history file=/tmp/hadoop/hive_job_log_hadoop_28486@wh-8-210_201406171719_457245737.txt
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/app/hadoop/shengli/sharklib/slf4j-log4j12-1.7.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/app/hadoop/shengli/sharklib/shark-assembly-0.9.1-hadoop0.20.2-cdh3u5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/app/hadoop/shengli/shark/lib_managed/jars/org.slf4j/slf4j-log4j12/slf4j-log4j12-1.7.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
show ta3.050: [GC 262208K->22324K(1004928K), 0.0240010 secs]
ble[10.1.8.210:7100] shark> show tables;
Time taken (including network latency): 0.072 seconds

至此,shark启动完成。

3、測试

来做一个简单的測试,看是否可用,处理一个21g的文件。

[hadoop@wh-8-210 shark]$ hadoop dfs -ls /user/hive/warehouse/log/
Found 1 items
-rw-r--r--   3 hadoop supergroup 22499035249 2014-06-16 18:32 /user/hive/warehouse/log/21gfile
create table log
(c1 string,c2 string,c3 string,c4 string,c5 string,c6 string,c7 string,c8 string,c9 string,c10 string,c11 string,c12 string,c13 string
) row format delimited fields terminated by '\t' stored as textfile; 
load data inpath '/user/hive/warehouse/log/21gfile' into table log;

count一下log表:

[10.1.8.210:7100] shark> select count(1) from log > ;
171802086
Time taken (including network latency): 33.753 seconds

用时33秒。

将log表所有装在至内存,count一下log_cached:

CREATE TABLE log_cached TBLPROPERTIES ("shark.cache" = "true") AS SELECT * from log;
Time taken (including network latency): 481.96 seconds
shark> select count(1) from log_cached;
171802086
Time taken (including network latency): 6.051 seconds

用时6秒,速度提升了至少5倍。

查看Executor以及Task存储状况:

查看存储状况Storage:

至此,Shark集群搭建和简单的測试已完毕。

兴许我会写篇环境搭建中常见的问题,以及更具体的Shark測试结论。

注: 原创文章。转载请注明出处。出自:http://blog.csdn.net/oopsoom/article/details/30513929

-EOF-

Shark集群搭建配置相关推荐

  1. redis安装、持久化、数据类型、常用操作、操作键值、安全设置、慢查询日志、存储session、主从配置、集群介绍、集群搭建配置、集群操作,php安装redis扩展...

    21.9 redis介绍 21.10 redis安装 21.11 redis持久化 21.12 redis数据类型 21.13/21.14/21.15 redis常用操作 21.16 redis操作键 ...

  2. Hadoop集群搭建配置教程

    Hadoop3.1.3集群搭建 前言 集群规划 集群搭建具体步骤 1.下载`hadoop-3.1.3.tar.gz` 2.上传并解压 3.配置`path`变量 4.修改配置文件 4.1 修改文件`ha ...

  3. Redis 3.0集群搭建/配置/FAQ

    ·声明 1,已官网中文教程为基础,边看边学,结合环境现状搭建. 2,哥对Ruby不热爱.不熟悉.不感冒,所述内容如有疑义请谅解. 3,3.0官说集群还在测试中,其实用用也还算马马虎虎,对外集群API真 ...

  4. zookeeper集群搭建配置zoo.cnf

    在3888端口进行投票,选出leader节点,然后都去连leader节点的2888端口进行通信.所以要设置两个端口号

  5. 第二节HDFS完全分布式集群搭建与配置及常见问题总结

    提示:此文章内容超级全面和详细 文章目录 前言 一.HDFS完全分布式集群是什么? 二.HDFS完全分布式集群搭建与配置 1.HDFS完全分布式集群搭建库 2.HDFS完全分布式集群搭建配置 HDFS ...

  6. Linux 搭建zookpeer集群和配置

    zookpeer和JDK1.8下载地址 下载地址:zookpeer和jdk1.8 提取码:w189 解压以及配置zookpeer tar -zxvf zookeeper-3.4.6.tar.gz ta ...

  7. Eureka集群搭建

    Eureka集群搭建 配置映射 修改hosts对Eureka节点进行区分,因为我这里是单机模拟集群,实际情况这三个节点应该放在不同机器上. 127.0.0.1 eureka1.com 127.0.0. ...

  8. 转:Redis 集群搭建详细指南

    转自: https://www.cnblogs.com/mafly/p/redis_cluster.html [README] 非常棒的一篇文章,感谢作者的分享: 先有鸡还是先有蛋? 最近有朋友问了一 ...

  9. 【❤️万字长文总结❤️】一篇学会Redis高可用✔集群✔搭建详细教程

    大家好,我是Lex 喜欢欺负超人那个Lex 擅长领域:python开发.网络安全渗透.Windows域控Exchange架构 今日重点:今天总结一下Redis集群高可用的搭建流程 [惊喜推荐+优质资源 ...

最新文章

  1. ping -c3 baidu.com  ping过去是这样,代表网络畅通
  2. I2C,485,232,spi区别以半双工,全双工
  3. 转:C# 线程同步技术 Monitor 和Lock
  4. Apache PDFBox命令行工具:无需Java编码
  5. HTML+CSS+JS实现 ❤️3D建筑结构旋转特效❤️
  6. NLP中的预训练方法总结 word2vec、ELMO、GPT、BERT、XLNET
  7. VSTS强制删除死锁项
  8. 遗传算法python
  9. Python 二次开发 AutoCAD 简介
  10. 计算机专业有必要考软考吗,软考初级程序员有用吗_有必要考吗_上学吧
  11. docker安装gamit_Ubuntu 14.04下Gamit10.5安装
  12. 线性代数在计算机中的应用论文,论线性代数在现实生活中的应用(结课论文)
  13. BUUCTF 打卡 21/9/1 Many-Time-Pad
  14. ubuntu无法清空回收站解决办法
  15. P5167 xtq的神笔
  16. C语言编译器开发之旅(二):解析器
  17. 12.6学习笔记 HTML5表单元素/嵌入图片/视频(未完)
  18. 【ESP32_02】【DAC输出正弦波】
  19. 树莓派wifi探针_树莓派重新开始|搭建博客、网盘、流媒体与离线下载服务
  20. fire温度压力测试软件,3Dmark

热门文章

  1. 机器人学习--George Mason University 自主机器人学课程
  2. java xheditor 上传图片_xhEditor粘贴图片自动上传到服务器(Java版)
  3. nginx 如何调用php文件,nginx php-fpm问题无法调用文件夹中的其他php文件
  4. python stringvar函数_Tkinter 求助,怎么获取StringVar() 的值
  5. mysql里面integer默认宽度_MySQL中关于数据类型指定宽度之后的情况
  6. html的左侧菜单栏,HTML 之 左侧菜单
  7. 第三届山东大数据-威海赛区-民宿空置预测-排行榜
  8. 【深度学习】陶大程等人编写!最新41页深度学习理论综述
  9. 原创:机器学习代码练习(一、回归)
  10. 首发:适合初学者入门人工智能的路线及资料下载