Windows下搭建PySpark环境

文章目录

  • Windows下搭建PySpark环境
    • 前言
    • 方法一
      • 安装单机版Hadoop
      • 安装单机版Spark
      • PySpark环境整合
    • 方法二
    • 测试PySpark
    • PySpark运行简单实例
    • 参考文章

前言

现阶段的实验需要用到 PySpark 来搭建机器学习模型,正常情况下应该是在 Linux 系统上是进行搭建。然而在虚拟机的 Linux 上运行起来又实在是太慢,所以只能将就着在 Windows 系统上搭建 PySpark 的环境先使用着。

这里介绍两种搭建 PySpark 环境的方法:

  1. 常规法(安装Hadoop、Spark)
  2. pip安装法

在以下的操作中用到命令行的时候,按 Win+R 键,输入 cmd 然后回车,就可以进入命令行了。每个阶段的命令行每次使用完毕之后,正常关闭命令行窗口即可。

方法一

常规安装 Pyspark 的方法是先安装 JDK,接着是 Hadoop,然后安装 Spark,最后配置一下 PySpark 的环境就可以了。

和方法二相比,方法一的整个过程显得漫长且比较繁琐,请一定要保持耐心,不要输错任何一行命令。

安装单机版Hadoop

Hadoop的底层语言是 Java,在使用 Hadoop 之前,得先把 JDK 配置一下,可以参考这篇博客的第一部分,把 JDK 配置好。 Windows下配置IDEA开发环境

配置完 JDK 之后,就可以开始配置 Hadoop 了。Windows 安装 Hadoop 的流程可以参考我的另一篇博客 Windows下配置单机Hadoop环境

去年写博客的时候对 Hadoop 还不太熟悉,博客名字是单机环境,实际上配置的是伪分布式环境。

这里我们只需要配置单机版 Hadoop 就可以了,我们只需要完成前三步,下载 Hadoop,下载配置文件,配置环境变量。

前三步完成后,单机版 Hadoop 就配置完成了。我们在命令行界面输入“hadoop version”,能正常提示出 Hadoop 的版本信息,这一步就确认完成了。

安装单机版Spark

Spark的安装大致上和 Hadoop 差不多,不过我们最后只需要用到 Spark 的 PySpark 包,所以我们不需要去配置 Scala 这些东西,严格意义上说我们只需要单机版 Spark,配置个环境变量就可以了。

同样地,我们去北理工的镜像站下载 Spark Spark北理工镜像

镜像站提供了几个稳定版本,这里我们选择的是 spark-2.3.4,点击进入目录

因为我们上一步安装的 Hadoop 版本是 2.7.7,所以这里我们选择和 Hadoop-2.7.7 兼容的 版本。

镜像站的下载一般都很快,下载完成后,把 Spark 的压缩包解压到自己想要的安装位置,比如我的安装位置是“D:\Dpan\spark”,解压完成的界面如下。

解压完成后,直接去配置 spark 的环境变量,和 Hadoop 配置环境变量的方式是一样的。

  • 新建 SPARK_HOME 环境变量,变量的值就是 spark 包解压的地址。比如我的是“D:\Dpan\spark\spark-2.3.4-bin-hadoop2.7”
  • 向 path 变量中加入“%SPARK_HOME%\bin”。注意,这里的 %SPARK_HOME%\bin,是固定的短语,不要乱写。

配置完成之后,在命令行界面输入“spark-shell”,耐心等待两分钟。如果命令行正常出现了 spark 的 shell 信息,单机版 spark 环境就配置成功了。

如果出现类似缺少 winutil 或者 hivesession 等错误,请检查hadoop/bin文件夹是否替换成功。如果确实替换了 hadoop/bin,还出现错误,自行百度安装 cygwin,安装完 cygwin 就应该没有问题了

PySpark环境整合

整个 PySpark 的环境整合是比较简单的,不需要再去安装别的新东西了。

我们通过文件资源管理,进入之前 spark 的安装目录。将安装目录下的 python/lib 目录下的两个压缩包进行复制,pyspark.zip、py4j-0.10.7-src.zip。

然后进入 自己的 Python 安装目录/Lib/site-packages 目录下,粘贴,然后解压。解压完成后可以顺便把这两个压缩包删除了。

到这里,PySpark的环境就配置完成了。

方法二

pip 是一个 Python 包安装与管理工具,该工具提供了对Python 包的查找、下载、安装、卸载的功能。我们通过 pip 来进行 Python 包的安装绝对是十分便捷的。

pip的安装这里我们不做介绍,没有安装 pip 的请自行百度安装即可。

打开命令行窗口,在窗口内输入“pip --verison”,如果出现了 pip 的版本提示信息,那么你电脑上的 pip 就是成功安装了。

通过 pip 安装 PySpark 就像安装其他 Python 包一样简单。在命令行窗口内输入一下代码,回车即可安装。

pip install pyspark

当然,为了提高安装速度,我们可以使用清华源来进行安装

pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple

耐心等待安装完成,在最后出现‘Success’的字样,就表示安装成功了。

测试PySpark

前面介绍了两种方法配置 PySpark 的环境,配置完成后我们来进行检验。

在命令行输入“python”,进入 python 命令行。输入“import pyspark as py”,回车。没有报错,就证明 pyspark 的环境配置成功了,可以正常使用了。

PySpark运行简单实例

打开自己平时用来写 Python 代码的 IDE。比如我用的是 PyCharm2019。

在里面新建一个 Python 文件,输入以下代码。这段代码就是经典的 WordCount ,用 PySpark 来运行。

from pyspark import SparkConf, SparkContext# 创建 SparkConf 和 SparkContext
conf = SparkConf().setMaster("local").setAppName("lichao-wordcount")
sc = SparkContext(conf=conf).getOrCreate()# 输入的数据
data = ["hello", "world", "hello", "word", "count", "count", "hello"]# 将 Collection 的 data 转化为 spark 中的 rdd 并进行操作
rdd = sc.parallelize(data)
resultRdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)# rdd 转为 collecton 并打印
resultColl = resultRdd.collect()
for line in resultColl:print(line)# 结束
sc.stop()

运行代码,耐心等待,查看结果。

至此,Windows 下 PySpark的环境已经配置完毕了,我们还运行了一个实例。环境配置完毕,快快去学习 PySpark 的使用方法,把这个工具用起来把。

参考文章

Python学习—PySpark环境搭建

Windows下配置单机Hadoop环境

pycharm修改pip源为清华源-提高下载速度

Windows下搭建PySpark环境相关推荐

  1. Lisp语言: 在Windows下搭建CLisp环境

    有关Clisp环境的搭建,有人反映说在Ubuntu上搭建很麻烦,对于习惯使用Windows环境的同学们来讲不方便,所以在这里添加一篇Windows下搭建CLisp环境的文章. 其实在Windows下搭 ...

  2. 在Windows下搭建OpenCL环境

    在Windows下搭建OpenCL环境 一.AMD APP SDK介绍 二.安装AMD APP SDK 三.AMD APP SDK使用 一.AMD APP SDK介绍 AMD APP SDK是AMD提 ...

  3. 【VSCode】Windows 下搭建 Fortran 环境

    文章目录 Part.I 预备知识 Part.II 安装与配置 Chap.I 编译环境 Chap.II 插件 Part.III 测试 Chap.I 一个示例 Chap.II 注意事项 Part.I 预备 ...

  4. 针对前端初级学者,如何在windows下搭建react-native环境详细教程

    我也是自学react-native,当年到处找教程,然而最难的一步却是环境的搭建,虽然网上有很多关于环境配置的文章,但是都不够详细 所以我也是踩着坑过来的,毕竟我也只是个前端初级学者,所以我想写一篇让 ...

  5. Windows 下搭建Scratch环境

    可能是本人脸黑,为了搭建这个环境,前前后后入过很多坑. 现在做的平台已经商用了(服务器为Linux环境,现在搭建的是开发环境,也可以用WSL做开发环境),欢迎大家去踩踏: https://www.co ...

  6. vue.js+vscode+visual studio在windows下搭建开发环境

    第一步:准备工作 1.nodejs官网 http://nodejs.cn/ 下载安装包或镜像例如8.1.2版本:http://cdn.npm.taobao.org/dist/node/latest-v ...

  7. vue自学入门-1(Windows下搭建vue环境)

    本人是一个喜欢动手的程序员,先跑起来个HelloWorld,增加感性认识,这三篇入门文章,花了不到一个小时,从网上找资料,程序跑通后,整理出来的,有的新人可能去哪找资料,运行代码都不知道,分享出来,大 ...

  8. windows 下 搭建 ElasticSearch 环境

    elasticsearch-service.bat后面还可以执行这些命令 install: 安装Elasticsearch服务 remove: 删除已安装的Elasticsearch服务(如果启动则停 ...

  9. PyCharm搭建Spark开发环境windows下安装pyspark

    目录 windows下安装pyspark PyCharm搭建Spark开发环境 windows下安装pyspark spark和hadoop版本版本之间有对应关系 安装jdk 安装hadoop 下载 ...

最新文章

  1. Go对Python产生的冲击
  2. linux中各种文件的颜色表示是什么意思?
  3. Mysql错误1045解决方法
  4. Vue008_ Vue实例生命周期
  5. 【Go】Panic函数
  6. 【算法竞赛学习】气象海洋预测-Task2 数据分析
  7. idea pom依赖失败_IDEA中Maven依赖下载失败的完美解决方案
  8. Maven配置_01
  9. 右键添加新建剪切板文件夹 新建今天日期文件夹
  10. CUDA——Windows上CUDA的安装教程
  11. 数据结构(一)之线性表
  12. html中单双引号镶嵌
  13. 学习笔记之——LaTeX的使用
  14. python轮胎缺陷检测_基于深度学习的轮胎缺陷无损检测与分类技术研究
  15. 三菱PLC与欧姆龙PLC通讯
  16. xlsxwriter 简单用法
  17. 基于网易云信WebRTC的Web音视频实现
  18. 在vue项目中使用阿里云播放器
  19. 数据结构(七)高级排序算法——归并、快速排序
  20. matlab中求矩阵A的特征向量,matlab层次分析法求特征值及特征向量.doc

热门文章

  1. Flowable V5.x迁移至Flowable V6时需要注意的事项
  2. RESTful Web 服务 - Java (JAX-RS)
  3. 0.C++之RAII技术解析
  4. 中南大学计算机085403,What?这些个专业改考数一英一了!
  5. html的li浮动之后往下移动,多个li浮动后居中显示问题
  6. icmp报文格式_IPV6报文格式和IPV4有什么区别?
  7. oracle事务处理类型,Oracle EBS-SQL (OM-5):检查订单事务处理类型.sql
  8. mysql数据库试题下载_MYSQL数据库2013-2014学年考试试卷
  9. 一图解码数据中心数字化运维管理之道
  10. 惊艳!亚洲规模最大、标准最高的金融数据中心 |上证所金桥技术中心基地项目...