Spark-Unit1-spark概述与安装部署
一、Spark概述
spark官网:spark.apache.org
Spark是用的大规模数据处理的统一计算引擎,它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校AMP实验室。
mapreduce(MR)与spark的对比:
1.MR在计算中产生的结果存储在磁盘上,spark存储在内存中;
2.磁盘运行spark的速度是MR的10倍,内存运行spark是MR的100多倍;
3.spark并不是为了替代Hadoop,而是为了补充Hadoop;
4.spark没有存储,但他可以继承HDFS。
Spark启用的是内存分布式数据集,而Scala语言可以轻松的处理分布式数据集,Scala语言可以说是为Spark而生的,而Spark 的出现推动了Scala语言的发展。
二、Spark特点
1.速度快
磁盘运行spark的速度是MR的10倍,内存运行spark是MR的100多倍;
Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,实现批处理和流处理的高性能。
注释:DAG:有向无环图,上一个RDD的计算结果作为下一个RDD计算的初始值,可以迭代成千上万次。
查询优化器:指的是spark sql
批处理:spark sql
流处理:spark streaming
2.便于使用
支持Java/Scala/python/R/SQL编写应用程序
3.通用性高
不仅支持批处理、流处理,
还支持机器学习(MLlib:machine learning library)和图形计算(GraphX)
4.兼容性高
Spark运行在Hadoop,Apache Mesos。Kubernetes,独立或云端。它可以访问各种数据源。
Spark实现了Standalone模式作为内置的资源管理和调度框架。
三、Spark的安装部署
1.准备工作:
新建三台虚拟机(建议2G内存,1G也可以)/使用远程连接工具连接 / 关闭防火墙 / 修改主机名
/ 修改映射文件 / 设置免密登陆 / 安装jdk(1.8以上版本)
2.在官网下载spark 安装包(我是2.2.0版本)
然后上传到Linux系统,解压,删包,重命名
3.修改spark部分配置文件
进入spark->conf
1)重命名spark-env.sh.template 为 spark-env.sh,进入该文件
添加配置信息:
export JAVA_HOME=/root/sk/jdk1.8.0_132 //jdk安装路径
export SPARK_MASTER_HOST=spark-01 //spark主节点机器名
export SPARK_MASTER_PORT=7077 //spark主机点端口号
2)重命名slaves.template(好像是这个)为slaves,进入该文件
删除最后一行“localhost”
添加:spark-02
spark-03 //其他两台从节点worker,便于一键启动
4.发送修改好的spark解压文件夹到其他两台机器
scp -r sprk sprk-02:$PWD
5.启动spark,访问web页面
在spark 的sbin目录下输入命令:
./start-all.sh
然后通过ip:端口号访问UI界面,如:
192.168.50.186:8080
四、Spark的UI界面详解
URL:统一资源定位符,spark-master的访问地址
REST URL:可以通过rest的方式访问集群
Alive Workers:存活的worker数量
cores in use:可以使用的核心数量
Memory in use:可以使用的内存大小
Applications:正在运行和已经完成的应用程序
Driver:通过driver提交的任务情况
Status:节点的状态
转载于:https://www.cnblogs.com/HelloBigTable/p/10261420.html
Spark-Unit1-spark概述与安装部署相关推荐
- Spark集群完全分布式安装部署
Spark集群完全分布式安装部署 下载安装 配置Spark 1spark-envsh配置 2slaves配置 3profile配置 复制到其他节点 测试 总结 Spark集群完全分布式安装部署 本文中 ...
- Flink1.12 - 概述、安装部署及快速入门
1. Flink概述 1.1 Flink官方介绍 flink官网地址 1.2 Flink组件栈 一个计算框架要有长远的发展,必须打造一个完整的 Stack.只有上层有了具体的应用,并能很好的发挥计算 ...
- Docker概述和安装部署
概述 Docker产生的背景 一款产品从开发到上线,从操作系统,到运行环境,再到应用配置.作为开发+运维之间的协作我们需要关心很多东西,这也是很多互联网公司都不得不面对的问题,特别是各种版本的迭代之后 ...
- Spark On YARN 集群安装部署
2019独角兽企业重金招聘Python工程师标准>>> 最近毕设需要用到 Spark 集群,所以就记录下了部署的过程.我们知道 Spark 官方提供了三种集群部署方案: Standa ...
- 2021年最新最全Flink系列教程_Flink快速入门(概述,安装部署)(一)(JianYi收藏)
文章目录 引言 相关教程直通车: day01_Flink概述.安装部署和入门案例 今日目标 Flink概述 什么是批处理和流处理 为什么需要流计算 Flink的发展史 Flink的官方介绍 Flink ...
- spark 安装部署与介绍
spark spark 概述 一. spark和hadoop 二. 应用常景和解决 生态系统组件 应用场景 Spark执行任务流程图 三. Spark安装 四. Spark部署模式 1.单机本地模式( ...
- 使用docker安装部署Spark集群来训练CNN(含Python实例)
使用docker安装部署Spark集群来训练CNN(含Python实例) 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需 ...
- Spark 简介与安装部署
本教程为实验楼原创,转载请注明课程链接:https://www.shiyanlou.com/courses/456 1. 课程说明 本教程是实验楼Spark大数据动手实验训练营第一节,登录实验楼官网可 ...
- spark之3:安装部署
spark之3:安装部署 @(SPARK)[spark, 大数据] spark之3安装部署 一单机安装 1环境准备 2安装scala 3安装spark 4验证安装情况 一.单机安装 本文介绍安装spa ...
最新文章
- C# Socket 入门5 UPD 结构体 与 C++ 通信
- mysql有没有单机版?
- mysql-plus多数据库_Springboot+mybatisplus+mysql配置多数据源(注解版)
- STM32F4设置系统时钟源为内部HSI
- javascript 框架_我们仍然需要JavaScript框架吗?
- JavaScript 概述
- ajax then jquery,使用Jquery.ajax()。then()时无法.catch()错误
- oracle无法重命名服务器名字,重命名Oracle数据库服务器
- Android 屏幕刷新机制
- use texstudio with chinese on ubuntu
- js 倒计时 php,2种简单的js倒计时实现方法
- opencv移植到ubuntu
- html圆圈里面有数字,HTML + CSS:编号列表与数字圆圈
- 高中计算机高考时vb试题,高中信息技术vb试题及答案
- Spring AOP切面的执行顺序
- 高通modem log分析基础
- Error response from daemon: driver failed programming external connectivity on endpoint xenodochial_
- 计算机毕业设计python基于django的学生考试成绩数据分析与可视化系统
- Excel里如何显示“开发工具”?
- 名帖344 怀素 草书《佛说四十二章经》
热门文章
- python1到100偶数求和_python1-100怎样偶数求和?_后端开发
- 生物聚集细胞生物化学反应的组织者Biomolecular condensates: organizers of cellular biochemistry
- 中南大学 科学计算和MATLAB 初级语言学习
- JAVA偏向锁的什么时候释放_​java偏向锁,你还没上车,它就要被去掉了
- guido发布python版本的年份_Guido van Rossum
- 文字识别(五)--自然场景文本检测技术综述(CTPN, SegLink, EAST)
- Hadoop SequenceFile存储格式入门
- 大数据各组件默认端口
- ubnutu更换合适源(阿里源)
- HTTP协议请求中返回的各个状态码对应的状态信息