window安装python3后怎么用pyspark_pyspark：连接spark集群Windows环境搭建

软件

1、anaconda(python3.6)

2、spark-2.4.3-bin-hadoop2.7(spark版本要和集群上的一样)

3、JDK1.8

python环境配置

pip install pyspark

这里如果遇到安装超时的情况采用以下命令

pip --default-timeout=100 install pyspark

或

pip --default-timeout=100 install -U pyspark

超时或者发生no matching distribution found for XXX 错误可以试着更换国内镜像源

pip install pyspark --default-timeout=100 -i https://pypi.tuna.tsinghua.edu.cn/simple

国内一些镜像源：

阿里云 http://mirrors.aliyun.com/pypi/simple/

中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

豆瓣(douban) http://pypi.douban.com/simple/

清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/

中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

没有py4j也得装下

pip install py4j

spark环境配置

1、下载。spark下载地址：http://spark.apache.org/downloads.html

2、解压。下载好后解压，注意安装路径不能有空格。

3、配置环境变量。添加环境变量SPARK_HOME=spark安装路径(比如我的是D:\Application\spark-2.4.3-bin-hadoop2.7)，在Path中添加%SPARK_HOME%\bin;

4、验证。cmd到spark的bin目录下输入命令：spark-submit.cmd --help，出现以下内容说明spark安装成功

注意：spark集群默认是安装python2环境，需要python3环境还得装并且默认环境切到python3

java环境配置

1、下载并安装好jdk1.8

2、添加环境变量JAVA_HOME=D:\Application\Java\jdk1.8.0_172，在Path中添加%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar;

pyspark连接本地集群代码测试

from pyspark import SparkConf

from pyspark.sql import SparkSession

import traceback

appname = "test"#任务名称

master ="local"#单机模式设置

'''

local: 所有计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式。

local[K]: 指定使用几个线程来运行计算，比如local[4]就是运行4个worker线程。通常我们的cpu有几个core，就指定几个线程，最大化利用cpu的计算能力

local[*]: 这种模式直接帮你按照cpu最多cores来设置线程数了。

'''

try:

conf = SparkConf().setAppName(appname).setMaster(master)#spark资源配置

spark=SparkSession.builder.config(conf=conf).getOrCreate()

sc=spark.sparkContext

words = sc.parallelize(

["scala",

"java",

"hadoop",

"spark",

"akka",

"spark vs hadoop",

"pyspark",

"pyspark and spark"

])

counts = words.count()

print("Number of elements in RDD is %i" % counts)

sc.stop()

print('计算成功！')

except:

sc.stop()

traceback.print_exc()#返回出错信息

print('连接出错！')

运行结果：

pyspark连接远程集群代码测试

from pyspark import SparkConf

from pyspark.sql import SparkSession

import traceback

import os

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"#集群上pyspark的python版本指向python3

appname = "test"#任务名称

master ="spark://XXX.XXX.XX.XX:XXXX" #"spark://host:port"

'''

standalone模式:spark://host:port,Spark会自己负责资源的管理调度

mesos模式:mesos://host:port

yarn模式:由于很多时候我们需要和mapreduce使用同一个集群，所以都采用Yarn来管理资源调度，这也是生产环境大多采用yarn模式的原因。yarn模式又分为yarn cluster模式和yarn client模式：

yarn cluster: 这个就是生产环境常用的模式，所有的资源调度和计算都在集群环境上运行。

yarn client: 这个是说Spark Driver和ApplicationMaster进程均在本机运行，而计算任务在cluster上。

'''

spark_driver_host="XXX.XXX.XX.XX"#本地主机ip

try:

conf = SparkConf().setAppName(appname).setMaster(master).set("spark.driver.host",spark_driver_host )

spark=SparkSession.builder.config(conf=conf).getOrCreate()

sc=spark.sparkContext

words = sc.parallelize(

["scala",

"java",

"hadoop",

"spark",

"akka",

"spark vs hadoop",

"pyspark",

"pyspark and spark"

])

counts = words.count()

print("Number of elements in RDD is %i" % counts)

sc.stop()

print('计算成功！')

except:

sc.stop()

traceback.print_exc()#返回出错信息

print('连接出错！')

结果一样

如果对你有帮助，请点下赞，予人玫瑰手有余香！

window安装python3后怎么用pyspark_pyspark：连接spark集群Windows环境搭建相关推荐

window安装python3后怎么用pyspark_window10搭建pyspark（超级详细）
一.组件版本说明 Java JDK:1.8.0_144 spark-2.4.3-bin-hadoop2.7 hadoop-2.7.7 scala-2.12.8 hadooponwindows-mast ...
window安装python3后怎么用pyspark_在windows上面安装并用jupyter运行pyspark-阿里云开发者社区...
intro 首先,这里介绍的方法很基本,大牛可以绕过了. 由于个人的测试需要,打算在自己的pc上面安pyspark,来熟悉MLlib. 翻了一下bing和狗,方法不少,试了linux虚拟机安装,vmw ...
Intellij IDEA连接Spark集群
1. 首先安装Scala插件,File->Settings->Plugins,搜索出Scla插件,点击Install安装: 2. File->New Project->mave ...
Spark集群完全分布式安装部署
Spark集群完全分布式安装部署下载安装配置Spark 1spark-envsh配置 2slaves配置 3profile配置复制到其他节点测试总结 Spark集群完全分布式安装部署本文中 ...
Spark集群安装介绍
(1)初学者对于spark的几个疑问 http://aperise.iteye.com/blog/2302481 (2)spark开发环境搭建 http://aperise.iteye.com/blo ...
ubuntu python3.7修改默认pip版本_详解Ubuntu16.04安装Python3.7及其pip3并切换为默认版本安装python3后使用pip和pip3的区别...
Python3.4已经默认安装了pip为什么执行不了我的谁说过,念念不忘就该放.但我也记得你说过,爱一个人不是一天两天的事. 如何升级到python3版本并且安装pip3 确保你的系统上已经安装好了 ...
安装hisuite后，依然无法连接华为手机，驱动无法正确安装
安装hisuite后,依然无法连接手机.在设备管理器中HDB interface依旧有叹号, 设备状态提示注册中有问题说明驱动依旧没有正确安装解决办法开始运行 regedit 依次展开 HKE ...
windows下eclipse远程连接hadoop集群开发mapreduce
转载请注明出处,谢谢 2017-10-22 17:14:09 之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在此 ...
Eclipse连接Hadoop集群（详细版）
颜子之不较,孟子之自反,是贤人处横逆之方子贡之无谄,原思之坐弦,是贤人守贫穷之法相关连接 HDFS相关知识 Hadoop分布式文件系统(HDFS)快速入门 Hadoop分布式文件系统(HDFS)知 ...

window安装python3后怎么用pyspark_pyspark：连接spark集群Windows环境搭建

window安装python3后怎么用pyspark_pyspark：连接spark集群Windows环境搭建相关推荐

最新文章

热门文章