1.安装好JDK
下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量:

  • 新建系统变量JAVA_HOME,值为Java安装路径
  • 新建系统变量CLASSPATH,值为 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点)
  • 配置系统变量PATH,添加 %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin

在CMD中输入:java或者java -version,不显示不是内部命令等,说明安装成功。

2.安装Hadoop,并配置环境变量

  • 下载hadoop:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
  • 解压hadoop-2.7.7.tar.gz特定路径,如:D:\adasoftware\hadoop
  • 添加系统变量HADOOP_HOME:D:\adasoftware\hadoop
  • 在系统变量PATH中添加:D:\adasoftware\hadoop\bin
  • 安装组件winutils:将winutils中对应的hadoop版本中的bin替换自己hadoop安装目录下的bin

3.Spark环境变量配置

spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。

  • 下载对应hadoop版本的spark:http://spark.apache.org/downloads.html
  • 解压文件到:D:\adasoftware\spark-2.4.3-bin-hadoop2.7
  • 添加PATH值:D:\adasoftware\spark-2.4.3-bin-hadoop2.7\bin;
  • 新建系统变量SPARK_HOME:D:\adasoftware\spark-2.4.3-bin-hadoop2.7;

4.下载安装anaconda
anaconda集成了python解释器和大多数python库,安装anaconda 后不用再安装python和pandas numpy等这些组件了。下载地址。最后将python加到path环境变量中。

5.在CMD中运行pyspark,出现类似下图说明安装配置正常:
出现这种warning是因为JDK版本为12,太高了,但是不影响运行。没有影响。

6.在pycharm中配置spark

  • 打开PyCharm,创建一个Project。然后选择“Run” ->“Edit Configurations”–>点击+创建新的python Configurations

  • 选择 “Environment variables” 增加SPARK_HOME目录与PYTHONPATH目录。

    • SPARK_HOME:Spark安装目录
    • PYTHONPATH:Spark安装目录下的Python目录

  • 选择 File->setting->你的project->project structure
  • 右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python文件夹下)
  • 保存即可

7.测试是否配置成功,程序代码如下,创建一个python程序放进去就可以:

import os
import sys# Path for spark source folder
os.environ['SPARK_HOME'] = "D:\adasoftware\spark"# Append pyspark to Python Path
sys.path.append("D:\adasoftware\spark\python")try:from pyspark import SparkContextfrom pyspark import SparkConfprint("Successfully imported Spark Modules")
except ImportError as e:print("Can not import Spark Modules", e)sys.exit(1)

若程序正常输出: "Successfully imported Spark Modules"就说明环境已经可以正常执行。

PyCharm搭建Spark开发环境相关推荐

  1. PyCharm搭建Spark开发环境windows下安装pyspark

    目录 windows下安装pyspark PyCharm搭建Spark开发环境 windows下安装pyspark spark和hadoop版本版本之间有对应关系 安装jdk 安装hadoop 下载 ...

  2. Pycharm 搭建pyspark开发环境

    Pycharm 搭建pyspark开发环境 spark安装 spark下载 下载地址 http://spark.apache.org/downloads.html 本次是搭建环境使用的官网已编译的版本 ...

  3. 如何使用intellij搭建spark开发环境(下)

    本文转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%B ...

  4. 如何使用IntelliJ IDEA搭建spark开发环境(上)

    本文部分转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB ...

  5. Intellij搭建spark开发环境

    spark怎么学习呢?在一无所知的前提下,首先去官网快速了解一下spark是干什么的,官网在此.然后,安装开发环境,从wordcount开始学习.第三,上手以后可以学习其他算法了.最后,不要放弃,继续 ...

  6. idea搭建spark开发环境完整版(windows)

    利用intellij idea 搭建spark开发环境(windows) 本文配置所有环境 Win10 企业版2016长期服务版 Jdk1.8.0.131 Hadoop2.7.3 Spark2.2.0 ...

  7. 搭建Spark开发环境并完成wordcount示例

    一.搭建Spark开发环境流程 1.安装eclipse,我这里用的是集成环境,解压就能用.(包含了scala环境) 安装包传送门: 2.导入相关的jar包 Jar包传送门: 具体操作: (1)装上以上 ...

  8. Intellij IDEA使用Maven搭建spark开发环境(scala)

    如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例. 1.准备工作  首先需要在你电脑上安装jdk和scala ...

  9. PyCharm搭建Python开发环境

    PyCharm搭建Python开发环境 PyCharm搭建Python开发环境 Python安装 PyCharm下载 PyCharm安装 创建hello world示例进行环境测试 PyCharm搭建 ...

最新文章

  1. JQuery+ajax+jsonp 跨域访问
  2. BZOJ-1027 [JSOI2007]合金
  3. 什么是Nib文件?(Nib文件是一种特殊类型的资源文件,它用于保存iPhone OS或Mac OS X应用程序的用户接口)...
  4. MySQL创建数据表(CREATE TABLE语句)
  5. Windows10 编译 Open3D 时出现 error C2220: 以下警告被视为错误 (编译源文件
  6. LInux 下文件包的使用
  7. PostgreSQL 当月最后一天的工作日 , 计算日期是星期几
  8. 剑指offer面试题09. 用两个栈实现队列(队列、栈)
  9. 用Python 操作Web 前端 基础 1
  10. C语言之Error C2018: unknown character '0x60'
  11. geany配置python_Python 04 Geany的安装和配置
  12. linux-gcc 找不到命令,为什么显示gcc命令没有找到?
  13. 【python二级】红楼梦
  14. JDK1.8下载安装配置
  15. vue里面的model
  16. 《程序员的数学思维修炼》 读书笔记
  17. PayPal网络钓鱼电子邮件攻击案例分享
  18. [x98 air 3g平板]安装任意版本32位win10的方法
  19. 计算机基础----32位操作系统和64位操作系统的区别
  20. 端口映射不成功,如何找出问题原因

热门文章

  1. NYOJ 354 问当n个物品合成一个时,最小重量是多少?
  2. 闪耀暖暖总是显示服务器连接失败,闪耀暖暖服务器异常 连接不上服务器解决方法...
  3. 学习UE4动画蓝图:配置手部IK
  4. 面向对象分析与设计——GRASP原则
  5. mybatis一对多查询内层排序问题
  6. Python day 34 并发编程、PID/PPID、实现多进程得两种方式
  7. npm库v9介绍:对种子或磁力链截屏
  8. 解决:error: Libtool library used but 'LIBTOOL' is undefined
  9. Minecraft 1.12.2模组开发(十四) 建筑生成 (structure generation)
  10. 竞拍商城小程序系统现成开发模式介绍