安装lib

材料:spark : http://spark.apache.org/downloads.htmlhadoop : http://hadoop.apache.org/releases.htmljdk: http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html

hadoop-commin : https://github.com/srccodes/hadoop-common-2.2.0-bin/archive/master.zip (for windows7)

需要下载对应的版本

步骤:a. 安装jdk,默认步骤即可

b. 解压spark  (D:\spark-2.0.0-bin-hadoop2.7)

c. 解压hadoop  (D:\hadoop2.7)

d. 解压hadoop-commin (for w7)

e. copy hadoop-commin/bin to hadoop/bin (for w7)环境变量设置SPARK_HOME = D:\spark-2.0.0-bin-hadoop2.7

HADOOP_HOME = D:\hadoop2.7

PATH append = D:\spark-2.0.0-bin-hadoop2.7\bin;D:\hadoop2.7\binPython lib设置a. copy D:\spark-2.0.0-bin-hadoop2.7\python\pyspark to [Your-Python-Home]\Lib\site-packages

b. pip install py4j

c. pip install psutil

(for windows: http://www.lfd.uci.edu/~gohlke/pythonlibs/#psutil)Testing

cmd -> pyspark 不报错并且有相应的cmd

——————————————————————————————————

2018-5-11更新

目前spark 不兼容 Python3.6 ,因此通过anaconda创建虚拟环境变量python3.5

之后开启安装之路:

1.查看操作系统:

2.下载以下两个文件的压缩文件zip.之后解压如下,并分别配置环境变量

3.配置环境变量:

同时在path中添加如下:

%SPARK_HOME%\bin

%SPARK_HOME%\sbin

%HADOOP_HOME%\bin

4 配置日志显示级别(可省略)

选择…\spark\conf\目录下log4j.properties.template,复制为log4j.properties

将log4j.properties中,”INFO, console”改为”WARN, console”

5【将pyspark文件放到python文件夹下、使用winutils.exe修改权限】

1,将spark所在目录下(比如我的是D:\Software\spark-2.2.0-bin-hadoop2.7\python)的pyspark文件夹拷贝到python文件夹下(我的是D:\Program Files\python3.5.3\Lib\site-packages)

具体目录要看大家自己安装的时候是放在哪的!

2,安装py4j库

一般的在cmd命令行下 pip install py4j 就可以。若是没有将pip路径添加到path中,就将路径切换到python的Scripts中,然后再 pip install py4j 来安装库。

3,修改权限

将winutils.exe文件放到Hadoop的bin目录下(我的是D:\Software\hadoop-2.7.3\bin),然后以管理员的身份打开cmd,然后通过cd命令进入到Hadoop的bin目录下,然后执行以下命令:

winutils.exe chmod 777 c:\tmp\Hive

注意:1,cmd一定要在管理员模式下!cmd一定要在管理员模式下!cmd一定要在管理员模式下!

2,‘C:\tmp\hive’,一般按照上面步骤进行了之后会自动创建的,一般是在Hadoop的安装目录下出现。但是若没有也不用担心,自己在c盘下创建一个也行。

关闭命令行窗口,重新打开命令行窗口,输入命令:pyspark

配置python 3

在D:\spark\spark-2.2.0-bin-hadoop2.7\bin中找到pyspark文件,采用notepad打开,并在其中增加

export PYSPARK_PYTHON

改为

export PYSPARK_PYTHON3

再次打开bin/pyspark即配置完成pyspark采用python3

通过以上操作完成.

下面来测试from pyspark import SparkContextfrom pyspark import SparkContext as scfrom pyspark import SparkConf

conf=SparkConf().setAppName("miniProject").setMaster("local[*]")

sc=SparkContext.getOrCreate(conf)

rdd = sc.parallelize([1,2,3,4,5])

rdd

print(rdd)

print(rdd.getNumPartitions() )

输出结果:ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:4808

spark的python开发安装方式_python 安装spark_Spark环境搭建 (Python)相关推荐

  1. python开发安卓盒子_python实现音乐播放器 python实现花框音乐盒子

    本文实例为大家分享了python实现音乐播放器的具体代码,供大家参考,具体内容如下 """这是一个用海龟画图模块和pygame的混音模块制作的简易播放器. 作者:李兴球, ...

  2. python开发软件的实例-Python 开发工具和框架安装实例步骤

    引言: 其实之前对于 Python,只是知道有这门语言而已.大部分还是使用 .net 开发的,之前也学了 MVC+EF 开发,但是由于工作上完全用不到,也就没有在博客记录学习的东西了. 最近又接触到了 ...

  3. python开发工具pycharm-community版安装教程

    python开发工具pycharm-community版安装教程 打开页面 我们这里选择community版本,也就是社区版. 选择一个安装位置,下一步 打钩,这里没有出现JRE下载,可能是笔者的计算 ...

  4. python开发游戏流程_python开发游戏的前期准备

    python开发游戏的前期准备 本文章面向有一定基础的python学习者,使用Pygame包开发一款简单的游戏 首先打开命令行,使用PyPI下载Pygame包(输入命令pip install pyga ...

  5. mysql安装文件格式_一、安装方式       MySQL安装文件分为两种,一种是MSI格式的,一种是ZIP格式的。下面来看看这两种方式:       MSI格式的可以直接点击安...

    一.安装方式 MySQL安装文件分为两种,一种是MSI格式的,一种是ZIP格式的.下面来看看这两种方式: MSI格式的可以直接点击安装,按照它给出的安装提示进行安装,Windows操作系统下一般MyS ...

  6. github怎么搜索开源的代码_5.2.PYTHON开发利器之使用VS Code+GitHub进行python开源项目开发...

    上一节介绍了使用vscode+Git进行python程序版本控制,详见5.1.PYTHON开发利器之使用VS Code+Git进行python程序版本控制 0.前言 GitHub是目前最大的开源代码托 ...

  7. piwik php安装,Piwik 的安装使用以及 PHP+nginx 环境搭建

    Piwik 的安装使用以及 PHP+nginx 环境搭建 1.Piwik 简介 Piwik 是一个 PHP 和 MySQL 的开放源代码的 web 统计软件, 它给你一些关于你的网站的实用统计报告, ...

  8. Python + 大数据-Hadoop生态-Linux(一)-环境搭建和Vi

    Python + 大数据-Hadoop生态-Linux(一)-环境搭建和Vi 今日课程学习目标 1.了解Linux操作系统发展介绍.安装配置 2.掌握SSH原理机制.Linux文件上传下载 3.掌握L ...

  9. 蓝牙芯片nRF51822开发系列(一):环境搭建和GPIO使用(点亮LED)

    蓝牙芯片nRF51822开发系列(一):环境搭建和GPIO使用(点亮LED) 前言(文章末尾获取工程源码) 一.开发必备 二.开发环境搭建 1.创建文件 2.新建工程 三.编写代码 GPIO详解 使用 ...

最新文章

  1. ceph bluestore 源码分析:ceph-osd内存查看方式及控制源码分析
  2. 一文看懂人脸识别技术发展脉络
  3. 计算机设备图标怎么删除,电脑设备和驱动器中没用的图标怎么删除? 我的电脑中手机...
  4. python venv 复制_pythonenv的安装及迁移
  5. Java把以0结尾的字符串_Java中字符串为什么不以\0结尾
  6. WebKit 内核源码分析 (三) Page
  7. 最美数学公式的150年:麦克斯韦方程组与“无用”的科学
  8. CVPR 2022 | 旷视研究院入选论文亮点解读
  9. mac睡眠快捷键_mac键盘快捷键大全哪里有?
  10. virtualenvwrapper
  11. 从Exchange 通往Office 365系列(五)部署MailBox服务器
  12. 基于Visua C++2010 与 Windows 7 SDK开发windows7 Shell应用(1)-搜索文件夹
  13. 如何使用Transact-SQL进行事务处理[示例]
  14. I2S音频接口的理解
  15. win10下, ColorPix取色器错位 指针偏移问题 解决方法
  16. 手把手教你电脑下载b站视频
  17. matlab找最大值_matlab求函数最大值
  18. class6 图(左程云左神算法 初级笔记 2018)
  19. 天玑9200和骁龙8+哪个好 天玑9200和骁龙8+gen1对比
  20. citrix应用程序虚拟化_在Citrix环境中部署和更新Microsoft Access应用程序

热门文章

  1. ElasticSearch出现java.lang.IllegalStateException: duplicate plugin: - Plugin information:
  2. 不会Nacos的配置中心?你怎么敢的呀!如何一步步实现Nacos作为服务的配置中心(全网最详系列)
  3. 2017计算机科技贡献奖,2017年度科技创新贡献奖评审结果公布
  4. android 黑边边框,手机屏幕边缘的黑边是什么呢?
  5. 案例代码:sprimngboot备份数据库
  6. @RequestMapping 用法详解之地址映射
  7. 蓝桥杯 算法训练试题 数据交换 Java
  8. CentOS 初体验二十:压缩包形式安装redis
  9. Android 急速发布项目到 JitPack
  10. 关于Xcode6编译Pods工程出错问题