软件

1、anaconda(python3.6)

2、spark-2.4.3-bin-hadoop2.7(spark版本要和集群上的一样)

3、JDK1.8

python环境配置

pip install pyspark

这里如果遇到安装超时的情况采用以下命令

pip --default-timeout=100 install pyspark

pip --default-timeout=100 install -U pyspark

超时或者发生no matching distribution found for XXX 错误可以试着更换国内镜像源

pip install pyspark --default-timeout=100 -i https://pypi.tuna.tsinghua.edu.cn/simple

国内一些镜像源:

阿里云 http://mirrors.aliyun.com/pypi/simple/

中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

豆瓣(douban) http://pypi.douban.com/simple/

清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/

中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

没有py4j也得装下

pip install py4j

spark环境配置

1、下载。spark下载地址:http://spark.apache.org/downloads.html

2、解压。下载好后解压 ,注意安装路径不能有空格。

3、配置环境变量。添加环境变量SPARK_HOME=spark安装路径(比如我的是D:\Application\spark-2.4.3-bin-hadoop2.7),在Path中添加%SPARK_HOME%\bin;

4、验证。cmd到spark的bin目录下输入命令:spark-submit.cmd --help,出现以下内容说明spark安装成功

注意:spark集群默认是安装python2环境,需要python3环境还得装 并且默认环境切到python3

java环境配置

1、下载并安装好jdk1.8

2、添加环境变量JAVA_HOME=D:\Application\Java\jdk1.8.0_172,在Path中添加%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar;

pyspark连接本地集群代码测试

from pyspark import SparkConf

from pyspark.sql import SparkSession

import traceback

appname = "test"#任务名称

master ="local"#单机模式设置

'''

local: 所有计算都运行在一个线程当中,没有任何并行计算,通常我们在本机执行一些测试代码,或者练手,就用这种模式。

local[K]: 指定使用几个线程来运行计算,比如local[4]就是运行4个worker线程。通常我们的cpu有几个core,就指定几个线程,最大化利用cpu的计算能力

local[*]: 这种模式直接帮你按照cpu最多cores来设置线程数了。

'''

try:

conf = SparkConf().setAppName(appname).setMaster(master)#spark资源配置

spark=SparkSession.builder.config(conf=conf).getOrCreate()

sc=spark.sparkContext

words = sc.parallelize(

["scala",

"java",

"hadoop",

"spark",

"akka",

"spark vs hadoop",

"pyspark",

"pyspark and spark"

])

counts = words.count()

print("Number of elements in RDD is %i" % counts)

sc.stop()

print('计算成功!')

except:

sc.stop()

traceback.print_exc()#返回出错信息

print('连接出错!')

运行结果:

pyspark连接远程集群代码测试

from pyspark import SparkConf

from pyspark.sql import SparkSession

import traceback

import os

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"#集群上pyspark的python版本指向python3

appname = "test"#任务名称

master ="spark://XXX.XXX.XX.XX:XXXX" #"spark://host:port"

'''

standalone模式:spark://host:port,Spark会自己负责资源的管理调度

mesos模式:mesos://host:port

yarn模式:由于很多时候我们需要和mapreduce使用同一个集群,所以都采用Yarn来管理资源调度,这也是生产环境大多采用yarn模式的原因。yarn模式又分为yarn cluster模式和yarn client模式:

yarn cluster: 这个就是生产环境常用的模式,所有的资源调度和计算都在集群环境上运行。

yarn client: 这个是说Spark Driver和ApplicationMaster进程均在本机运行,而计算任务在cluster上。

'''

spark_driver_host="XXX.XXX.XX.XX"#本地主机ip

try:

conf = SparkConf().setAppName(appname).setMaster(master).set("spark.driver.host",spark_driver_host )

spark=SparkSession.builder.config(conf=conf).getOrCreate()

sc=spark.sparkContext

words = sc.parallelize(

["scala",

"java",

"hadoop",

"spark",

"akka",

"spark vs hadoop",

"pyspark",

"pyspark and spark"

])

counts = words.count()

print("Number of elements in RDD is %i" % counts)

sc.stop()

print('计算成功!')

except:

sc.stop()

traceback.print_exc()#返回出错信息

print('连接出错!')

结果一样

如果对你有帮助,请点下赞,予人玫瑰手有余香!

window安装python3后怎么用pyspark_pyspark:连接spark集群Windows环境搭建相关推荐

  1. window安装python3后怎么用pyspark_window10搭建pyspark(超级详细)

    一.组件版本说明 Java JDK:1.8.0_144 spark-2.4.3-bin-hadoop2.7 hadoop-2.7.7 scala-2.12.8 hadooponwindows-mast ...

  2. window安装python3后怎么用pyspark_在windows上面安装并用jupyter运行pyspark-阿里云开发者社区...

    intro 首先,这里介绍的方法很基本,大牛可以绕过了. 由于个人的测试需要,打算在自己的pc上面安pyspark,来熟悉MLlib. 翻了一下bing和狗,方法不少,试了linux虚拟机安装,vmw ...

  3. Intellij IDEA连接Spark集群

    1. 首先安装Scala插件,File->Settings->Plugins,搜索出Scla插件,点击Install安装: 2. File->New Project->mave ...

  4. Spark集群完全分布式安装部署

    Spark集群完全分布式安装部署 下载安装 配置Spark 1spark-envsh配置 2slaves配置 3profile配置 复制到其他节点 测试 总结 Spark集群完全分布式安装部署 本文中 ...

  5. Spark集群安装介绍

    (1)初学者对于spark的几个疑问 http://aperise.iteye.com/blog/2302481 (2)spark开发环境搭建 http://aperise.iteye.com/blo ...

  6. ubuntu python3.7修改默认pip版本_详解Ubuntu16.04安装Python3.7及其pip3并切换为默认版本 安装python3后使用pip和pip3的区别...

    Python3.4已经默认安装了pip为什么执行不了我的谁说过,念念不忘就该放.但我也记得你说过,爱一个人不是一天两天的事. 如何升级到python3版本并且安装pip3 确保你的系统上已经安装好了 ...

  7. 安装hisuite后,依然无法连接华为手机,驱动无法正确安装

    安装hisuite后,依然无法连接手机.在设备管理器中HDB interface依旧有叹号, 设备状态提示注册中有问题 说明驱动依旧没有正确安装 解决办法 开始 运行 regedit 依次展开 HKE ...

  8. windows下eclipse远程连接hadoop集群开发mapreduce

    转载请注明出处,谢谢 2017-10-22 17:14:09 之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在此 ...

  9. Eclipse连接Hadoop集群(详细版)

    颜子之不较,孟子之自反,是贤人处横逆之方 子贡之无谄,原思之坐弦,是贤人守贫穷之法 相关连接 HDFS相关知识 Hadoop分布式文件系统(HDFS)快速入门 Hadoop分布式文件系统(HDFS)知 ...

最新文章

  1. 容器中的JVM资源该如何被安全的限制?
  2. Kali Linux软件更新日报20190623
  3. 删除windows换行符^M
  4. 在深度神经网络中你有多吸引人?
  5. 三次握手,四次挥手的过程??为什么三握??
  6. Gradle task
  7. java实现分布式redis锁_使用redis实现分布式锁
  8. C++中的三种继承public,protected,private(转)
  9. 创建失败_号称人人都可编辑的百科词条,创建之路为何屡屡失败?
  10. [HTTP] 跨域资源共享
  11. 随想录(编写简单资源管理代码)
  12. Teamcenter(Enterprise 2007) Admin 手法之 -- 移除relation
  13. 移动端html头部meta标签的含义
  14. word把选择答案弄到题目里_怎样将word中后面的答案和题目合并到一起 - 卡饭网...
  15. 【病毒分析】——熊猫烧香 专杀工具C源码
  16. Linux双系统安装指南
  17. voip|网络电话,软件实现电信座机
  18. 图形化硬件编程 ——数码管时钟——之米思齐篇
  19. win10 服务(本机)在哪里打开? 怎么样打开系统服务窗口?
  20. 前端练习——弹窗、判断语句 (星座测试)

热门文章

  1. js实现css、addClass、removeClass和toggleClass
  2. 程序编译过程与软件启动过程
  3. C# 反射/映射学习
  4. 网页广告拦截神器 -- Adblock Plus
  5. Android/Linux性能分析工具推荐
  6. 分贝、声功率级、声强级和声压级
  7. Android Studio禁止混淆JNI代码
  8. 树莓派之Ubuntu安装远程桌面
  9. 深度学习自学(二十六):人脸数据集
  10. Vue项目中使用浏览器同步测试工具 browersync