window安装python3后怎么用pyspark_pyspark:连接spark集群Windows环境搭建
软件
1、anaconda(python3.6)
2、spark-2.4.3-bin-hadoop2.7(spark版本要和集群上的一样)
3、JDK1.8
python环境配置
pip install pyspark
这里如果遇到安装超时的情况采用以下命令
pip --default-timeout=100 install pyspark
或
pip --default-timeout=100 install -U pyspark
超时或者发生no matching distribution found for XXX 错误可以试着更换国内镜像源
pip install pyspark --default-timeout=100 -i https://pypi.tuna.tsinghua.edu.cn/simple
国内一些镜像源:
阿里云 http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
豆瓣(douban) http://pypi.douban.com/simple/
清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/
没有py4j也得装下
pip install py4j
spark环境配置
1、下载。spark下载地址:http://spark.apache.org/downloads.html
2、解压。下载好后解压 ,注意安装路径不能有空格。
3、配置环境变量。添加环境变量SPARK_HOME=spark安装路径(比如我的是D:\Application\spark-2.4.3-bin-hadoop2.7),在Path中添加%SPARK_HOME%\bin;
4、验证。cmd到spark的bin目录下输入命令:spark-submit.cmd --help,出现以下内容说明spark安装成功
注意:spark集群默认是安装python2环境,需要python3环境还得装 并且默认环境切到python3
java环境配置
1、下载并安装好jdk1.8
2、添加环境变量JAVA_HOME=D:\Application\Java\jdk1.8.0_172,在Path中添加%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar;
pyspark连接本地集群代码测试
from pyspark import SparkConf
from pyspark.sql import SparkSession
import traceback
appname = "test"#任务名称
master ="local"#单机模式设置
'''
local: 所有计算都运行在一个线程当中,没有任何并行计算,通常我们在本机执行一些测试代码,或者练手,就用这种模式。
local[K]: 指定使用几个线程来运行计算,比如local[4]就是运行4个worker线程。通常我们的cpu有几个core,就指定几个线程,最大化利用cpu的计算能力
local[*]: 这种模式直接帮你按照cpu最多cores来设置线程数了。
'''
try:
conf = SparkConf().setAppName(appname).setMaster(master)#spark资源配置
spark=SparkSession.builder.config(conf=conf).getOrCreate()
sc=spark.sparkContext
words = sc.parallelize(
["scala",
"java",
"hadoop",
"spark",
"akka",
"spark vs hadoop",
"pyspark",
"pyspark and spark"
])
counts = words.count()
print("Number of elements in RDD is %i" % counts)
sc.stop()
print('计算成功!')
except:
sc.stop()
traceback.print_exc()#返回出错信息
print('连接出错!')
运行结果:
pyspark连接远程集群代码测试
from pyspark import SparkConf
from pyspark.sql import SparkSession
import traceback
import os
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"#集群上pyspark的python版本指向python3
appname = "test"#任务名称
master ="spark://XXX.XXX.XX.XX:XXXX" #"spark://host:port"
'''
standalone模式:spark://host:port,Spark会自己负责资源的管理调度
mesos模式:mesos://host:port
yarn模式:由于很多时候我们需要和mapreduce使用同一个集群,所以都采用Yarn来管理资源调度,这也是生产环境大多采用yarn模式的原因。yarn模式又分为yarn cluster模式和yarn client模式:
yarn cluster: 这个就是生产环境常用的模式,所有的资源调度和计算都在集群环境上运行。
yarn client: 这个是说Spark Driver和ApplicationMaster进程均在本机运行,而计算任务在cluster上。
'''
spark_driver_host="XXX.XXX.XX.XX"#本地主机ip
try:
conf = SparkConf().setAppName(appname).setMaster(master).set("spark.driver.host",spark_driver_host )
spark=SparkSession.builder.config(conf=conf).getOrCreate()
sc=spark.sparkContext
words = sc.parallelize(
["scala",
"java",
"hadoop",
"spark",
"akka",
"spark vs hadoop",
"pyspark",
"pyspark and spark"
])
counts = words.count()
print("Number of elements in RDD is %i" % counts)
sc.stop()
print('计算成功!')
except:
sc.stop()
traceback.print_exc()#返回出错信息
print('连接出错!')
结果一样
如果对你有帮助,请点下赞,予人玫瑰手有余香!
window安装python3后怎么用pyspark_pyspark:连接spark集群Windows环境搭建相关推荐
- window安装python3后怎么用pyspark_window10搭建pyspark(超级详细)
一.组件版本说明 Java JDK:1.8.0_144 spark-2.4.3-bin-hadoop2.7 hadoop-2.7.7 scala-2.12.8 hadooponwindows-mast ...
- window安装python3后怎么用pyspark_在windows上面安装并用jupyter运行pyspark-阿里云开发者社区...
intro 首先,这里介绍的方法很基本,大牛可以绕过了. 由于个人的测试需要,打算在自己的pc上面安pyspark,来熟悉MLlib. 翻了一下bing和狗,方法不少,试了linux虚拟机安装,vmw ...
- Intellij IDEA连接Spark集群
1. 首先安装Scala插件,File->Settings->Plugins,搜索出Scla插件,点击Install安装: 2. File->New Project->mave ...
- Spark集群完全分布式安装部署
Spark集群完全分布式安装部署 下载安装 配置Spark 1spark-envsh配置 2slaves配置 3profile配置 复制到其他节点 测试 总结 Spark集群完全分布式安装部署 本文中 ...
- Spark集群安装介绍
(1)初学者对于spark的几个疑问 http://aperise.iteye.com/blog/2302481 (2)spark开发环境搭建 http://aperise.iteye.com/blo ...
- ubuntu python3.7修改默认pip版本_详解Ubuntu16.04安装Python3.7及其pip3并切换为默认版本 安装python3后使用pip和pip3的区别...
Python3.4已经默认安装了pip为什么执行不了我的谁说过,念念不忘就该放.但我也记得你说过,爱一个人不是一天两天的事. 如何升级到python3版本并且安装pip3 确保你的系统上已经安装好了 ...
- 安装hisuite后,依然无法连接华为手机,驱动无法正确安装
安装hisuite后,依然无法连接手机.在设备管理器中HDB interface依旧有叹号, 设备状态提示注册中有问题 说明驱动依旧没有正确安装 解决办法 开始 运行 regedit 依次展开 HKE ...
- windows下eclipse远程连接hadoop集群开发mapreduce
转载请注明出处,谢谢 2017-10-22 17:14:09 之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在此 ...
- Eclipse连接Hadoop集群(详细版)
颜子之不较,孟子之自反,是贤人处横逆之方 子贡之无谄,原思之坐弦,是贤人守贫穷之法 相关连接 HDFS相关知识 Hadoop分布式文件系统(HDFS)快速入门 Hadoop分布式文件系统(HDFS)知 ...
最新文章
- 容器中的JVM资源该如何被安全的限制?
- Kali Linux软件更新日报20190623
- 删除windows换行符^M
- 在深度神经网络中你有多吸引人?
- 三次握手,四次挥手的过程??为什么三握??
- Gradle task
- java实现分布式redis锁_使用redis实现分布式锁
- C++中的三种继承public,protected,private(转)
- 创建失败_号称人人都可编辑的百科词条,创建之路为何屡屡失败?
- [HTTP] 跨域资源共享
- 随想录(编写简单资源管理代码)
- Teamcenter(Enterprise 2007) Admin 手法之 -- 移除relation
- 移动端html头部meta标签的含义
- word把选择答案弄到题目里_怎样将word中后面的答案和题目合并到一起 - 卡饭网...
- 【病毒分析】——熊猫烧香 专杀工具C源码
- Linux双系统安装指南
- voip|网络电话,软件实现电信座机
- 图形化硬件编程 ——数码管时钟——之米思齐篇
- win10 服务(本机)在哪里打开? 怎么样打开系统服务窗口?
- 前端练习——弹窗、判断语句 (星座测试)