Spark-Unit1-spark概述与安装部署

一、Spark概述

　　spark官网：spark.apache.org

　　Spark是用的大规模数据处理的统一计算引擎，它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校AMP实验室。

　　mapreduce（MR）与spark的对比：

　　　　1.MR在计算中产生的结果存储在磁盘上，spark存储在内存中；

　　　　2.磁盘运行spark的速度是MR的10倍，内存运行spark是MR的100多倍；

　　　　3.spark并不是为了替代Hadoop，而是为了补充Hadoop；

　　　　4.spark没有存储，但他可以继承HDFS。

　　Spark启用的是内存分布式数据集，而Scala语言可以轻松的处理分布式数据集，Scala语言可以说是为Spark而生的，而Spark 的出现推动了Scala语言的发展。

二、Spark特点

　　1.速度快

　　　　磁盘运行spark的速度是MR的10倍，内存运行spark是MR的100多倍；

　　　　Spark使用最先进的DAG调度程序，查询优化器和物理执行引擎，实现批处理和流处理的高性能。

　　　　注释：DAG：有向无环图，上一个RDD的计算结果作为下一个RDD计算的初始值，可以迭代成千上万次。

　　　　　　查询优化器：指的是spark sql

　　　　　　　批处理：spark sql

　　　　　　　流处理：spark streaming

　　2.便于使用

　　　　支持Java/Scala/python/R/SQL编写应用程序

　　3.通用性高

　　　　不仅支持批处理、流处理，

　　　　还支持机器学习（MLlib:machine learning library）和图形计算（GraphX）

　　4.兼容性高

　　　　Spark运行在Hadoop，Apache Mesos。Kubernetes，独立或云端。它可以访问各种数据源。

　　　　Spark实现了Standalone模式作为内置的资源管理和调度框架。

三、Spark的安装部署

　　1.准备工作：

　　　　新建三台虚拟机（建议2G内存，1G也可以）/使用远程连接工具连接 / 关闭防火墙 / 修改主机名

　　　　/ 修改映射文件 / 设置免密登陆 / 安装jdk（1.8以上版本）

　　2.在官网下载spark 安装包（我是2.2.0版本）

　　　　然后上传到Linux系统，解压，删包，重命名

　　3.修改spark部分配置文件

　　　　进入spark->conf

　　　　1）重命名spark-env.sh.template 为 spark-env.sh，进入该文件

　　　　添加配置信息：

　　　　export JAVA_HOME=/root/sk/jdk1.8.0_132　　　　//jdk安装路径

　　　　export SPARK_MASTER_HOST=spark-01　　　　//spark主节点机器名

　　　　export SPARK_MASTER_PORT=7077　　　　　 //spark主机点端口号

　　　　2）重命名slaves.template(好像是这个)为slaves，进入该文件

　　　　删除最后一行“localhost”

　　　　添加:spark-02

　　　　　　 spark-03　　　　//其他两台从节点worker，便于一键启动

　　4.发送修改好的spark解压文件夹到其他两台机器

　　　　scp -r sprk sprk-02:$PWD

　　5.启动spark，访问web页面

　　　　在spark 的sbin目录下输入命令：

　　　　./start-all.sh

　　　　然后通过ip:端口号访问UI界面，如：

　　　　192.168.50.186:8080

四、Spark的UI界面详解
　　 URL：统一资源定位符，spark-master的访问地址
　　REST URL：可以通过rest的方式访问集群
　　Alive Workers：存活的worker数量
　　cores in use：可以使用的核心数量
　　 Memory in use：可以使用的内存大小
　　Applications：正在运行和已经完成的应用程序
　　Driver：通过driver提交的任务情况
　　Status：节点的状态

转载于:https://www.cnblogs.com/HelloBigTable/p/10261420.html

Spark-Unit1-spark概述与安装部署相关推荐

Spark集群完全分布式安装部署
Spark集群完全分布式安装部署下载安装配置Spark 1spark-envsh配置 2slaves配置 3profile配置复制到其他节点测试总结 Spark集群完全分布式安装部署本文中 ...
Flink1.12 - 概述、安装部署及快速入门
1. Flink概述 1.1 Flink官方介绍 flink官网地址 1.2 Flink组件栈一个计算框架要有长远的发展,必须打造一个完整的 Stack.只有上层有了具体的应用,并能很好的发挥计算 ...
Docker概述和安装部署
概述 Docker产生的背景一款产品从开发到上线,从操作系统,到运行环境,再到应用配置.作为开发+运维之间的协作我们需要关心很多东西,这也是很多互联网公司都不得不面对的问题,特别是各种版本的迭代之后 ...
Spark On YARN 集群安装部署
2019独角兽企业重金招聘Python工程师标准>>> 最近毕设需要用到 Spark 集群,所以就记录下了部署的过程.我们知道 Spark 官方提供了三种集群部署方案: Standa ...
2021年最新最全Flink系列教程_Flink快速入门(概述,安装部署)(一)(JianYi收藏)
文章目录引言相关教程直通车: day01_Flink概述.安装部署和入门案例今日目标 Flink概述什么是批处理和流处理为什么需要流计算 Flink的发展史 Flink的官方介绍 Flink ...
spark 安装部署与介绍
spark spark 概述一. spark和hadoop 二. 应用常景和解决生态系统组件应用场景 Spark执行任务流程图三. Spark安装四. Spark部署模式 1.单机本地模式( ...
使用docker安装部署Spark集群来训练CNN（含Python实例）
使用docker安装部署Spark集群来训练CNN(含Python实例) 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需 ...
Spark 简介与安装部署
本教程为实验楼原创,转载请注明课程链接:https://www.shiyanlou.com/courses/456 1. 课程说明本教程是实验楼Spark大数据动手实验训练营第一节,登录实验楼官网可 ...
spark之3：安装部署
spark之3:安装部署 @(SPARK)[spark, 大数据] spark之3安装部署一单机安装 1环境准备 2安装scala 3安装spark 4验证安装情况一.单机安装本文介绍安装spa ...

Spark-Unit1-spark概述与安装部署

Spark-Unit1-spark概述与安装部署相关推荐

最新文章

热门文章