目的要求

  1. 搭建Spark集群环境;
  2. Spark集群的启动、浏览与关闭;
  3. 使用Eclipse编写Spark应用程序包;
  4. 如何运行Spark任务;

实验环境

  1. Java jdk 1.7;
  2. apache-maven-3.6.0;
  3. Eclipse;
  4. Apache_Hadoop集群;
  5. 安装配置Spark
  6. 具体规划:

主机名

IP地址

服务描述

Cluster-01

192.168.10.111

master节点

Cluster-03

192.168.10.113

Slave01节点

Cluster-04

192.168.10.114

Slave01节点

练习内容

任务一: Spark集群环境部署;

1、下载地址;http://spark.apache.org/downloads.html

2、将Spark软件上传至集群中;

3、将软件压缩包进行解压;

4、移动解压文件,并重新命名;

5、配置环境变量,使其生效;

6、配置修改spark的相关文件;

6.1、配置spark文件;

6.2、配置slaves文件;

7、配置完以上文件后,将Master主机的/home/admin/spark文件发送至其他两台主机;

任务二:启动Spark集群并进行验证;

1、启动hadoop集群;

1.1、启动Zookeeper服务;

指令:$zkServer.sh start

1.2、启动Hadoop服务;

指令:$start-all.sh

1.3查看进程:

指令:$jps

2、启动Master节点;

指令:$sbin/start-master.sh

3、启动所有的Slave节点;

指令:$sbin/start-slaves.sh

4、在浏览器上查看Spark集群的管理信息;

5、启动Spark-shell;

任务三:关闭Spark集群

1、首先管理spark的master节点,然后关闭spark的slaves节点,最后关闭Hadoop集群;

任务四:编写Spark应用程序

1、准备测试数据:hdfs: //Cluster-01:9000/user/input/hello.txt;

2、启动Spark-shell。运行WordCount词频统计程序;

Spark的基础应用相关推荐

  1. 学习笔记Spark(七)—— Spark SQL应用(2)—— Spark DataFrame基础操作

    二.Spark DataFrame基础操作 2.1.DataFrame DataFrame是一种不可变的分布式数据集,这种数据集被组织成指定的列,类似于关系数据库中的表. 数据集的每一列都带有名称和类 ...

  2. spark学习基础篇1--spark概述与入门

    spark总结 一: spark 概述 1. Spark 是 分布式内存计算框架 Apache Spark 是一个快速的, 多用途的集群计算系统, 相对于 Hadoop MapReduce 将中间结果 ...

  3. 第12期:Spark零基础学习路线

    大家好,我是你们的老朋友老王随聊,今天和大家讨论的话题--Spark零基础应该怎么学? 通过这段时间和群里同学们交流,发现很多大学生甚至职场小白对Spark学习路线不是很清晰,所以我花了一些时间给大家 ...

  4. spark编程基础python版 pdf_Spark编程基础Python版-第5章-Spark-SQL.pdf

    <Spark编程基础(Python版)> 教材官网:/post/spark-python/ 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 第5章Spark SQL (P ...

  5. 学习笔记Spark(四)—— Spark编程基础(创建RDD、RDD算子、文件读取与存储)

    文章目录 一.创建RDD 1.1.启动Spark shell 1.2.创建RDD 1.2.1.从集合中创建RDD 1.2.2.从外部存储中创建RDD 任务1: 二.RDD算子 2.1.map与flat ...

  6. spark编程基础python版实验报告_Spark编程基础(Python版)

    章 大数据技术概述 1.1 大数据概念与关键技术 1.1.1 大数据的概念 1.1.2 大数据关键技术 1.2 代表性大数据技术 1.2.1 Hadoop 1.2.2 Spark 1.2.3 Flin ...

  7. 生产系统搭建spark,基础环境注意事项

    一.硬件环境 硬件如何搭配,能做到比较高的性价比,不存在短板.合理的硬件搭配,对系统的稳定性也很关键. 1.CPU不是核数越高越好,性价比才是关键. 经常遇到很多的企业级客户,他们机器配置非常高,CP ...

  8. Spark编程基础-(二)Scala语言基础

    1. Scala语言概述 1.1 计算机的起源 阿隆佐邱奇设计了演算的系统,形式系统. 阿兰图灵提出图灵机. 冯诺依曼是计算机体系结构的奠基者.1945年提出计算机体系结构. 图1 冯诺依曼体系结构 ...

  9. spark编程基础--6.DataFrame

    使用spark安装时自带的样例数据people.json文件,生成DataFrame: 下面从示例文件people.json中创建一个DataFrame,然后保存成csv格式文件,代码如下: scal ...

  10. spark编程基础--5.4综合实例

    操作指令如下: cd /usr/local/hadoop./sbin/start-dfs.sh./bin/hdfs dfs -mkdir -p spark/mycode/rdd/TopN./bin/h ...

最新文章

  1. match_parent和fill_parent的区别
  2. Java随笔--分布式
  3. Android存储之SQLiteDatbase
  4. 系统架构设计师 - 软件架构设计 - 架构评估
  5. BugkuCTF-MISC题FileStoragedat
  6. java jtable defaulttablemodel_java – JTable和DefaultTableModel
  7. 细说Activity与Task(任务栈)
  8. 面经——嵌入式芯片底层
  9. 黑苹果uhd630黑屏_UHD630核显驱动方法及驱动后闪屏严重问题解决记录
  10. 网络上各种指数 总结 收集
  11. Github没有Download Zip(下载zip)的绿色选项是因为所在的是一个子目录
  12. MacBook Air M1 + MacTex + VS Code的LaTex教程
  13. 教你把ElementTable单元格的四个角变圆/自定义特定单元格样式
  14. Kafka consumer多线程下not safe for multi-threaded access问题
  15. 从问题描述到电子运转 思维导图 《计算机系统概论》
  16. 两台电脑互传文件你还可以这么做
  17. Python 截取图片识别文字并翻译
  18. 秒杀年费258的同款APP,微软、联想、Adobe、腾讯的这些良心产品太香了
  19. 实战linux内核精简
  20. 2019第二届中国智慧零售终端大会

热门文章

  1. mac tomcat https
  2. python怎么查看代码错误_python中的错误如何查看
  3. iOS KVO 的实现原理
  4. iOS通过CAShapeLayer和UIBezierPath画环形进度条
  5. 《重构-改善既有代码的设计》读书笔记(二)
  6. sharepoint 备份还原
  7. [转载]ESFramework 4.0 快速上手(15) -- 客户端登录验证
  8. 使用Word2010灵活掌握文档结构
  9. SpringBoot+Docker+Git+Jenkins实现简易的持续集成和持续部署
  10. ansible组件-playbook学习笔记