前言

基于Hadoop的Spark超快安装

一、Spark的安装

待Hadoop安装好之后，我们再开始安装Spark。

我选择的是Spark 2.4.8 版本，选择package type为"Pre-built with user-provided Apache Hadoop"，这个包类型，简单配置后可以应用到任意Hadoop版本。

复制链接到迅雷下载。

官网下载链接：https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.8/spark-2.4.8-bin-without-hadoop.tgz

把下载好的Spark拖进虚拟机。（安装了Vmware Tools可以直接从主机拖进虚拟机，上一篇博客有说明）

解压安装包至路径 /usr/local，执行如下命令：

sudo tar -zxf ~/Desktop/spark-2.4.8-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.4.8-bin-without-hadoop/ ./spark   #更改文件夹名
sudo chown -R hadoop ./spark               #此处的hadoop为系统用户名

注意：此处-R后面是自己的系统用户名，我的用户名是smallsa。

配置Spark的classpath。

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh  #拷贝配置文件

编辑该配置文件，在文件最后面加上如下一行内容：

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

保存配置文件后，就可以启动、运行Spark了。

若需要使用HDFS中的文件，则在使用Spark前需要启动Hadoop。

执行如下命令配置路径：

sudo vi ~/.bashrc

在文件最上面加上下面的内容：

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:
$PYTHONPATH
export PYSPARK_PYTHON=python3

执行如下命令更新以下：

source ~/.bashrc

因为是基于Hadoop，所以我们先启动Hadoop，再启动Spark。可以看到Hadoop和Spark都启动成功了。

运行pyspark

总结

基于Hadoop的Spark超快安装相关推荐

基于Hadoop和Spark体系的大数据分析平台构建
谢谢分享! 转载:http://www.sohu.com/a/249271561_481409 随着大数据.人工智能等技术的快速发展,企业对大数据平台的需求越来越强烈,通过大数据分析技术为企业提供经营 ...
《大数据基础——基于Hadoop与Spark》课后习题——第一章部分答案
仅用于我个人的学习.书籍为人民邮电出版社的<大数据技术基础--基于Hadoop与Spark>.课后习题选择是我个人认为有用的.记录下来是为了督促我学习:) 共好 1.请指出以下术语的基本含 ...
基于hadoop搭建Spark环境
基于hadoop搭建Spark环境需要准备的东西 1. 准备一个配置好的hadoop,master虚拟机 2. 下载下面的三个文件 3. jdk-8u181-linux-x64.tar.gz 4. ...
Python中WordCloud库超快安装方法
大家好我是冈坂日川,今天和大家分享一下怎么快速安装wordcloud库,我也是为了它吃了不少苦呀,因此写成笔记,希望不要有人和我一样踩坑,希望今天的分享能给你带来帮助. 安装wordcloud的几种方 ...
linux spark单节点环境搭建,Linux下基于Hadoop的Spark1.2单机安装
一,安装环境硬件:虚拟机操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root Hadoop:Hadoop2.6,Hadoop2. ...
量化派基于Hadoop、Spark、Storm的大数据风控架构--转
原文地址:http://www.csdn.net/article/2015-10-06/2825849 量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品"信用钱包 ...
win10下基于wsl-Ubuntu 的LAMMPS超便捷安装
前言本文为学习过程中第一次进行总结和编撰,诸多问题详略不当还望谅解.如此拙见,若有幸相助,那必是荣幸之至. 简介本次安装是基于Manual,使用win10下Ubuntu子系统中,apt应用商店的扩 ...
基于Hadoop安装spark集群
基于Hadoop的spark环境搭建已有环境情况 Hadoop HA Java 软件版本 Hadoop 2.7.2 Java 1.8.0_301 Scala 2.11.8 Spark 2.1.0 下 ...
产品迭代更新 | 阿列夫科技基于Linkis+DataSphere Studio的单机安装部署实战
作者:萧寒 GitHub ID :hx23840 阿列夫科技原来的技术平台是基于 Hadoop,Spark 平台搭建的,为了充分的满足业务需求,做了大量接口封装.但是随着业务发展,现有技术平台日渐满足 ...

基于Hadoop的Spark超快安装

文章目录

前言

一、Spark的安装

总结

基于Hadoop的Spark超快安装相关推荐

最新文章

热门文章