参考:http://ihoge.cn/2018/anacondaPyspark.html

前言

首次安装的环境搭配是这样的:
jdk8
hadoop2.6.5
spark2.1
scala2.12.4
Anaconda3-5.1.0
一连串的报错让人惊喜无限,尽管反复调整配置始终无法解决。

坑了一整天后最后最终发现是版本不兼容!!再次提醒自己一定要重视各组件版本的问题。这里最主要的是spark和Anaconda版本的兼容问题,为了兼容python3尽量用新版的spark。最终解决方案的版本搭配如下:
jdk8
hadoop2.7.5
spark2.3.0
scala2.11.12
Anaconda3-5.1.0

一、VM安装Ubuntu16.04虚拟机

sudo apt-get update
sudo apt-get install vim
sudo apt-get install openssh-server# 配置ssh免密登陆
ssh localhost
ssh-keygen -t rsa //一路回车
cat id_rsa.pub >> authorized_keyssudo vi /etc/hosts //添加各个节点ip
192.168.221.132 master
192.168.221.133 slave1
192.168.221.134 slave2# sudo vi /etc/hostname
master

二、配置profile环境变量

#Java
export JAVA_HOME=/home/hadoop/jdk1.8.0_161
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jar
#Hadoop
export HADOOP_HOME=/home/hadoop/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
#Scala
export SCALA_HOME=/home/hadoop/scala
export PATH=$PATH:$SCALA_HOME/bin
#Anaconda
export PATH=/home/hadoop/anaconda3/bin:$PATH
export PYSPARK_DRIVER_PYTHON=/home/hadoop/anaconda3/bin/jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PYSPARK_PYTHON=/home/hadoop/anaconda3/bin/python
#Spark
export SPARK_HOME=/home/hadoop/spark
export PATH=$PATH:$SPARK_HOME/bin

三、hadoop 六个配置文件

# hadoop-env.sh
export JAVA_HOME=/home/hadoop/hadoop/jdk1.8.0_161# core-site.xml
<configuration><property><name>hadoop.tmp.dir</name><value>file:/home/hadoop/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property>
</configuration># hdfs-site.xml
<configuration><property><name>dfs.namenode.secondary.http-address</name><value>master:50090</value></property><property><name>dfs.replication</name><value>3</value></property><property><name>dfs.namenode.name.dir</name><value>file:/home/hadoop/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/home/hadoop/hadoop/tmp/dfs/data</value></property>
</configuration># mapred-site.xml
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>master:19888</value></property>
</configuration># yarn-site.xml
<configuration><property><name>yarn.resourcemanager.hostname</name><value>master</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration># slaves
slave1
slave2

三、spark两个配置文件

# spark-env.sh
#java
export JAVA_HOME=/home/hadoop/jdk1.8.0_161
#scala
export SCALA_HOME=/home/hadoop/scala
#hadoop
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_CONF_DIR=/home/hadoop/hadoop/etc/hadoop
export YARN_CONF_DIR=/home/hadoop/hadoop/etc/hadoop
#spark
export SPARK_HOME=/home/hadoop/spark
export SPARK_LOCAL_DIRS=/home/hadoop/spark
export SPARK_DIST_CLASSPATH=$(/home/hadoop/hadoop/bin/hadoop classpath)
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=1g
export SPARK_MASTER_IP=master
export SPARK_LIBRARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native# slaves
slave1
slave2

四、解压缩文件

scp jdk-8u161-linux-x64.tar hadoop@master:~
scp Anaconda3-5.1.0-Linux-x86_64.sh hadoop@master:~
scp -r hadoop/ hadoop@master:~
scp -r scala/ hadoop@master:~
scp -r spark/ hadoop@master:~tar -xvf jdk-8u161-linux-x64.tar -C ./source ~/.profile
分别查看jdk版本、hadoop版本、scala版本# 集群模式启动spark查看jps
spark-shell --master spark://master:7077 --executor-memory 512m --total-executor-cores 2

五、安装Anaconda

bash Anaconda3-5.1.0-Linux-x86_64.sh -b# 创建配置jupyter_notebook_config.py
jupyter notebook --generate-config
vim ~/.jupyter/jupyter_notebook_config.pyc = get_config()
c.IPKernelApp.pylab = 'inline'
c.NotebookApp.ip = '*'
c.NotebookApp.open.browser = False
c.NotebookApp.password = u''
c.NotebookApp.port = 8888

六、关机后克隆出两个新节点并配置相关内容

sudo vi /etc/hostnamesudo vi /etc/hosts

七、远程测试pyspark集群

# 服务器端启动集群
start-all.sh
spark/sbin/start-all.sh# hadoop和spark的进程都显示正常后开始启动pyspark
1、local模式运行
pyspark2、Stand Alone运行模式
MASTER=spark://master:7077 pyspark --num-executors 1 --total-executor-cores 3 --executor-memory 512m

然后在远程Web端输入192.168.221.132:8888
页面打开后需要输入验证信息(第一次验证即可):
输入上图token后面的字符串和用户密码

输入sc测试

至此,aconda3-5.1.0(Python3.6.4) 搭建pyspark远程服务器部署成功。

参考:http://ihoge.cn/2018/anacondaPyspark.html

使用aconda3-5.1.0(Python3.6.4) 搭建pyspark远程部署相关推荐

  1. Djang1.8+Python2.0迁移到Django2.0+Python3.6注意事项(转)

    Djang1.8+Python2.0迁移到Django2.0+Python3.6注意事项 参考:https://blog.csdn.net/weixin_40475396/article/detail ...

  2. python3.0与2.0,python3.0与python2.0有哪些不同

    Djang1.8+Python2.0迁移到Django2.0+Python3.6注意事项(转) Djang1.8+Python2.0迁移到Django2.0+Python3.6注意事项 参考:http ...

  3. CUDA10.0+python3.6+pytorch1.2.0+torchvision0.4.0

    Windows pycharm配合 pip+CUDA10.0+python3.6安装pytorch 超详细超详细超详细_清酒学者的博客-CSDN博客 还需要安装torchvision-0.4.0-cp ...

  4. django2.0用python_blog: 利用6天下班业余时间使用django2.0+python3.6搭建属于自己的个人博客...

    jun_blog 介绍 django2.0+python3.6搭建属于自己的个人博客 软件架构 python3.6+django2.0+xadmin2.0.1 安装教程 backports.csv== ...

  5. Anaconda3环境安装tensorflow2.0 python3.7使用spyder

    Anaconda3环境安装tensorflow2.0 python3.6使用spyder 搞了近两天,终于弄好了!!!!太激动了 Anaconda的下载就不在赘述了,直接从创建虚拟环境开始 注意:te ...

  6. 深度学习环境 Ubuntu16.04 LTS + GTX750Ti + CUDA9.0 + cudnn7.0 + python3.6.5 + tensorflow1.6搭建

    从0搭建Ubuntu深度学习环境 Ubuntu16.04 LTS + GTX750Ti + CUDA9.0 + cudnn7.0 + python3.6.5 + tensorflow1.6 之前仅仅在 ...

  7. WIN10搭建深度学习环境 GTX1080+CUDA9.0+cuDNN7.0+Python3.6+Tensorflow1.6.0

    GTX1080在WIN10系统上搭建深度学习环境.在搭建环境中遇到了一些坑,于是想将搭建环境流程记录下来,方便以后重新搭建环境.话不多说,直接进入正题.注:我自己是在重装完系统后进行的环境配置. 一. ...

  8. Win7 + tensorflow-gpu1.8.0 + cuda9.0 + cuDNN 7.0 + Python3.5.2 + vs2013安装教程

    #Win7 + tensorflow-gpu1.8.0 + cuda9.0 + cuDNN 7.0 + Python3.5.2 + vs2013安装教程 如需转载请标明出处:http://blog.c ...

  9. 我的NVIDIA开发者之旅——利用NVIDIA TAO工具包3.0和Deepstream快速搭建车辆信息识别系统

    利用NVIDIA TAO工具包3.0和Deepstream快速搭建车辆信息识别系统 实现目标 部署工具:NVIDIA DeepStream SDK 简单设置参数 工作流程 注意事项 GPU深度学习推理 ...

最新文章

  1. [bzoj2243][SDOI2011]染色
  2. python图形化编程实例,python交互式图形编程实例(三)
  3. Delphi中的操作二进制文件的两个重要函数
  4. IE css HACK
  5. 新概念英语(1-29)Come in, Amy.
  6. 新汽车行业的中台实践
  7. 分形、混沌理论、集异璧之大成
  8. (二十一)美萍酒店管理系统:系统维护_系统设置_房间类型_房间费打折
  9. 关于si4438以往犯的一些错误
  10. 【爱加密】防止签名破解
  11. 看懂Oracle执行计划
  12. Linux Bridge实现
  13. 皇图中原青豫大战打到服务器维护,【九州皇图】青、豫国砸再现激情
  14. 敏捷迭代开发——Time-Boxing时间盒
  15. 又一次回归,再一次记录
  16. Ubuntu 16.04 使用校园网客户端上网
  17. 伽罗瓦死了,可是数学还活着
  18. 如何下载台湾的硕博论文--大陆的论文不给力呀
  19. 0x00007FF6DF5D6BD8 处有未经处理的异常(在 Ray tracer.exe 中): 0xC00000FD: Stack overflow
  20. stm8 IAR 编译错误atal Error[Pe035]: #error directive: quot;Please select first the target STM8L device

热门文章

  1. asp.net mvc 自定义 pager 封装与优化
  2. netcore 中的动态代理与RPC实现(微服务专题)
  3. 程序员修仙之路--优雅快速的统计千万级别uv
  4. .Netcore 2.0 Ocelot Api网关教程(番外篇)- Ocelot v13.x升级
  5. 开源硬件论坛,燃烧你的创造力
  6. 剑英的区块链学习手记(二)
  7. 在Visual Studio中使用任何C++编译器
  8. 开箱即用 - jwt 无状态分布式授权
  9. django09: ORM以及CSRF(旧笔记)
  10. 02-1.CSS边框,边界,布局相关笔记