一、Spark概述

  spark官网:spark.apache.org

  Spark是用的大规模数据处理的统一计算引擎,它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校AMP实验室。

  mapreduce(MR)与spark的对比:

    1.MR在计算中产生的结果存储在磁盘上,spark存储在内存中;

    2.磁盘运行spark的速度是MR的10倍,内存运行spark是MR的100多倍;

    3.spark并不是为了替代Hadoop,而是为了补充Hadoop;

    4.spark没有存储,但他可以继承HDFS。

  Spark启用的是内存分布式数据集,而Scala语言可以轻松的处理分布式数据集,Scala语言可以说是为Spark而生的,而Spark 的出现推动了Scala语言的发展。

二、Spark特点

  1.速度快

    磁盘运行spark的速度是MR的10倍,内存运行spark是MR的100多倍;

    Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,实现批处理和流处理的高性能。

    注释:DAG:有向无环图,上一个RDD的计算结果作为下一个RDD计算的初始值,可以迭代成千上万次。

          查询优化器:指的是spark sql

       批处理:spark sql

       流处理:spark streaming

  2.便于使用

    支持Java/Scala/python/R/SQL编写应用程序

  3.通用性高

    不仅支持批处理、流处理,

    还支持机器学习(MLlib:machine learning library)和图形计算(GraphX)

  4.兼容性高

    Spark运行在Hadoop,Apache Mesos。Kubernetes,独立或云端。它可以访问各种数据源。

    Spark实现了Standalone模式作为内置的资源管理和调度框架。

三、Spark的安装部署

  1.准备工作:

    新建三台虚拟机(建议2G内存,1G也可以)/使用远程连接工具连接 / 关闭防火墙 / 修改主机名

    / 修改映射文件 / 设置免密登陆 / 安装jdk(1.8以上版本)

  2.在官网下载spark 安装包(我是2.2.0版本)

    然后上传到Linux系统,解压,删包,重命名

  3.修改spark部分配置文件

    进入spark->conf

    1)重命名spark-env.sh.template 为 spark-env.sh,进入该文件

    添加配置信息:

    export JAVA_HOME=/root/sk/jdk1.8.0_132    //jdk安装路径

    export SPARK_MASTER_HOST=spark-01    //spark主节点机器名

    export SPARK_MASTER_PORT=7077       //spark主机点端口号

    2)重命名slaves.template(好像是这个)为slaves,进入该文件

    删除最后一行“localhost”

    添加:spark-02

       spark-03    //其他两台从节点worker,便于一键启动

  4.发送修改好的spark解压文件夹到其他两台机器

    scp -r sprk sprk-02:$PWD

  5.启动spark,访问web页面

    在spark 的sbin目录下输入命令:

    ./start-all.sh

    然后通过ip:端口号访问UI界面,如:

    192.168.50.186:8080

四、Spark的UI界面详解
   URL:统一资源定位符,spark-master的访问地址
   REST URL:可以通过rest的方式访问集群
   Alive Workers:存活的worker数量
   cores in use:可以使用的核心数量
   Memory in use:可以使用的内存大小
   Applications:正在运行和已经完成的应用程序
   Driver:通过driver提交的任务情况
   Status:节点的状态

转载于:https://www.cnblogs.com/HelloBigTable/p/10261420.html

Spark-Unit1-spark概述与安装部署相关推荐

  1. Spark集群完全分布式安装部署

    Spark集群完全分布式安装部署 下载安装 配置Spark 1spark-envsh配置 2slaves配置 3profile配置 复制到其他节点 测试 总结 Spark集群完全分布式安装部署 本文中 ...

  2. Flink1.12 - 概述、安装部署及快速入门

    1. Flink概述 1.1 Flink官方介绍 flink官网地址 1.2 Flink组件栈  一个计算框架要有长远的发展,必须打造一个完整的 Stack.只有上层有了具体的应用,并能很好的发挥计算 ...

  3. Docker概述和安装部署

    概述 Docker产生的背景 一款产品从开发到上线,从操作系统,到运行环境,再到应用配置.作为开发+运维之间的协作我们需要关心很多东西,这也是很多互联网公司都不得不面对的问题,特别是各种版本的迭代之后 ...

  4. Spark On YARN 集群安装部署

    2019独角兽企业重金招聘Python工程师标准>>> 最近毕设需要用到 Spark 集群,所以就记录下了部署的过程.我们知道 Spark 官方提供了三种集群部署方案: Standa ...

  5. 2021年最新最全Flink系列教程_Flink快速入门(概述,安装部署)(一)(JianYi收藏)

    文章目录 引言 相关教程直通车: day01_Flink概述.安装部署和入门案例 今日目标 Flink概述 什么是批处理和流处理 为什么需要流计算 Flink的发展史 Flink的官方介绍 Flink ...

  6. spark 安装部署与介绍

    spark spark 概述 一. spark和hadoop 二. 应用常景和解决 生态系统组件 应用场景 Spark执行任务流程图 三. Spark安装 四. Spark部署模式 1.单机本地模式( ...

  7. 使用docker安装部署Spark集群来训练CNN(含Python实例)

    使用docker安装部署Spark集群来训练CNN(含Python实例) 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需 ...

  8. Spark 简介与安装部署

    本教程为实验楼原创,转载请注明课程链接:https://www.shiyanlou.com/courses/456 1. 课程说明 本教程是实验楼Spark大数据动手实验训练营第一节,登录实验楼官网可 ...

  9. spark之3:安装部署

    spark之3:安装部署 @(SPARK)[spark, 大数据] spark之3安装部署 一单机安装 1环境准备 2安装scala 3安装spark 4验证安装情况 一.单机安装 本文介绍安装spa ...

最新文章

  1. C# Socket 入门5 UPD 结构体 与 C++ 通信
  2. mysql有没有单机版?
  3. mysql-plus多数据库_Springboot+mybatisplus+mysql配置多数据源(注解版)
  4. STM32F4设置系统时钟源为内部HSI
  5. javascript 框架_我们仍然需要JavaScript框架吗?
  6. JavaScript 概述
  7. ajax then jquery,使用Jquery.ajax()。then()时无法.catch()错误
  8. oracle无法重命名服务器名字,重命名Oracle数据库服务器
  9. Android 屏幕刷新机制
  10. use texstudio with chinese on ubuntu
  11. js 倒计时 php,2种简单的js倒计时实现方法
  12. opencv移植到ubuntu
  13. html圆圈里面有数字,HTML + CSS:编号列表与数字圆圈
  14. 高中计算机高考时vb试题,高中信息技术vb试题及答案
  15. Spring AOP切面的执行顺序
  16. 高通modem log分析基础
  17. Error response from daemon: driver failed programming external connectivity on endpoint xenodochial_
  18. 计算机毕业设计python基于django的学生考试成绩数据分析与可视化系统
  19. Excel里如何显示“开发工具”?
  20. 名帖344 怀素 草书《佛说四十二章经》

热门文章

  1. python1到100偶数求和_python1-100怎样偶数求和?_后端开发
  2. 生物聚集细胞生物化学反应的组织者Biomolecular condensates: organizers of cellular biochemistry
  3. 中南大学 科学计算和MATLAB 初级语言学习
  4. JAVA偏向锁的什么时候释放_​java偏向锁,你还没上车,它就要被去掉了
  5. guido发布python版本的年份_Guido van Rossum
  6. 文字识别(五)--自然场景文本检测技术综述(CTPN, SegLink, EAST)
  7. Hadoop SequenceFile存储格式入门
  8. 大数据各组件默认端口
  9. ubnutu更换合适源(阿里源)
  10. HTTP协议请求中返回的各个状态码对应的状态信息