PyCharm搭建Spark开发环境
1.安装好JDK
下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量:
- 新建系统变量JAVA_HOME,值为Java安装路径
- 新建系统变量CLASSPATH,值为
.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;
(注意最前面的圆点) - 配置系统变量PATH,添加
%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin
在CMD中输入:java或者java -version,不显示不是内部命令等,说明安装成功。
2.安装Hadoop,并配置环境变量
- 下载hadoop:
https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
- 解压hadoop-2.7.7.tar.gz特定路径,如:D:\adasoftware\hadoop
- 添加系统变量HADOOP_HOME:D:\adasoftware\hadoop
- 在系统变量PATH中添加:D:\adasoftware\hadoop\bin
- 安装组件winutils:将winutils中对应的hadoop版本中的bin替换自己hadoop安装目录下的bin
3.Spark环境变量配置
spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。
- 下载对应hadoop版本的spark:
http://spark.apache.org/downloads.html
- 解压文件到:
D:\adasoftware\spark-2.4.3-bin-hadoop2.7
- 添加PATH值:
D:\adasoftware\spark-2.4.3-bin-hadoop2.7\bin;
- 新建系统变量SPARK_HOME:
D:\adasoftware\spark-2.4.3-bin-hadoop2.7;
4.下载安装anaconda
anaconda集成了python解释器和大多数python库,安装anaconda 后不用再安装python和pandas numpy等这些组件了。下载地址。最后将python加到path环境变量中。
5.在CMD中运行pyspark,出现类似下图说明安装配置正常:
出现这种warning是因为JDK版本为12,太高了,但是不影响运行。没有影响。
6.在pycharm中配置spark
- 打开PyCharm,创建一个Project。然后选择“Run” ->“Edit Configurations”–>点击+创建新的python Configurations
选择 “Environment variables” 增加SPARK_HOME目录与PYTHONPATH目录。
- SPARK_HOME:Spark安装目录
- PYTHONPATH:Spark安装目录下的Python目录
- 选择 File->setting->你的project->project structure
- 右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python文件夹下)
- 保存即可
7.测试是否配置成功,程序代码如下,创建一个python程序放进去就可以:
import os
import sys# Path for spark source folder
os.environ['SPARK_HOME'] = "D:\adasoftware\spark"# Append pyspark to Python Path
sys.path.append("D:\adasoftware\spark\python")try:from pyspark import SparkContextfrom pyspark import SparkConfprint("Successfully imported Spark Modules")
except ImportError as e:print("Can not import Spark Modules", e)sys.exit(1)
若程序正常输出: "Successfully imported Spark Modules"就说明环境已经可以正常执行。
PyCharm搭建Spark开发环境相关推荐
- PyCharm搭建Spark开发环境windows下安装pyspark
目录 windows下安装pyspark PyCharm搭建Spark开发环境 windows下安装pyspark spark和hadoop版本版本之间有对应关系 安装jdk 安装hadoop 下载 ...
- Pycharm 搭建pyspark开发环境
Pycharm 搭建pyspark开发环境 spark安装 spark下载 下载地址 http://spark.apache.org/downloads.html 本次是搭建环境使用的官网已编译的版本 ...
- 如何使用intellij搭建spark开发环境(下)
本文转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%B ...
- 如何使用IntelliJ IDEA搭建spark开发环境(上)
本文部分转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB ...
- Intellij搭建spark开发环境
spark怎么学习呢?在一无所知的前提下,首先去官网快速了解一下spark是干什么的,官网在此.然后,安装开发环境,从wordcount开始学习.第三,上手以后可以学习其他算法了.最后,不要放弃,继续 ...
- idea搭建spark开发环境完整版(windows)
利用intellij idea 搭建spark开发环境(windows) 本文配置所有环境 Win10 企业版2016长期服务版 Jdk1.8.0.131 Hadoop2.7.3 Spark2.2.0 ...
- 搭建Spark开发环境并完成wordcount示例
一.搭建Spark开发环境流程 1.安装eclipse,我这里用的是集成环境,解压就能用.(包含了scala环境) 安装包传送门: 2.导入相关的jar包 Jar包传送门: 具体操作: (1)装上以上 ...
- Intellij IDEA使用Maven搭建spark开发环境(scala)
如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例. 1.准备工作 首先需要在你电脑上安装jdk和scala ...
- PyCharm搭建Python开发环境
PyCharm搭建Python开发环境 PyCharm搭建Python开发环境 Python安装 PyCharm下载 PyCharm安装 创建hello world示例进行环境测试 PyCharm搭建 ...
最新文章
- JQuery+ajax+jsonp 跨域访问
- BZOJ-1027 [JSOI2007]合金
- 什么是Nib文件?(Nib文件是一种特殊类型的资源文件,它用于保存iPhone OS或Mac OS X应用程序的用户接口)...
- MySQL创建数据表(CREATE TABLE语句)
- Windows10 编译 Open3D 时出现 error C2220: 以下警告被视为错误 (编译源文件
- LInux 下文件包的使用
- PostgreSQL 当月最后一天的工作日 , 计算日期是星期几
- 剑指offer面试题09. 用两个栈实现队列(队列、栈)
- 用Python 操作Web 前端 基础 1
- C语言之Error C2018: unknown character '0x60'
- geany配置python_Python 04 Geany的安装和配置
- linux-gcc 找不到命令,为什么显示gcc命令没有找到?
- 【python二级】红楼梦
- JDK1.8下载安装配置
- vue里面的model
- 《程序员的数学思维修炼》 读书笔记
- PayPal网络钓鱼电子邮件攻击案例分享
- [x98 air 3g平板]安装任意版本32位win10的方法
- 计算机基础----32位操作系统和64位操作系统的区别
- 端口映射不成功,如何找出问题原因
热门文章
- NYOJ 354 问当n个物品合成一个时,最小重量是多少?
- 闪耀暖暖总是显示服务器连接失败,闪耀暖暖服务器异常 连接不上服务器解决方法...
- 学习UE4动画蓝图:配置手部IK
- 面向对象分析与设计——GRASP原则
- mybatis一对多查询内层排序问题
- Python day 34 并发编程、PID/PPID、实现多进程得两种方式
- npm库v9介绍:对种子或磁力链截屏
- 解决:error: Libtool library used but 'LIBTOOL' is undefined
- Minecraft 1.12.2模组开发(十四) 建筑生成 (structure generation)
- 竞拍商城小程序系统现成开发模式介绍