课程咨询以及领取大额优惠请加微信:bigdatatang01

以下是在mac操作系统上配置用python开发spark的环境

一、安装python

spark2.2.0需要python的版本是Python2.6+ 或者 Python3.4+

可以参考:

http://jingyan.baidu.com/article/7908e85c78c743af491ad261.html

二、下载spark编译包并配置环境变量

1、在官网中: http://spark.apache.org/downloads.html 下载版本为:spark-2.2.0-bin-hadoop2.6.tgz包

放到本地的某个盘中,然后解压。

2、设置环境变量:

cd ~

vi .bash_profile

export SPARK_HOME=/Users/tangweiqun/Desktop/bigdata/spark/spark-2.2.0-bin-hadoop2.6

export PATH=$PATH:$SCALA_HOME/bin:$M2_HOME/bin:$JAVA_HOME/bin:$SPARK_HOME/bin

source .bash_profile

3、需要对SPARK_HOME下的bin目录下的文件执行chmod 744 ./*,否则会报权限不足的错误

Window机器应该不用做这步

三、安装PyCharm

四、编写wordcount.py并运行成功

1、创建一个project

file --> New Project

2、给PyCharm配置PYTHONPATH

Run --> Edit Configurations,配置如下

点上面的“+”,然后填上:

PYTHONPATH=/Users/tangweiqun/Desktop/bigdata/spark/spark-2.1.0-bin-hadoop2.6/python/:/Users/tangweiqun/Desktop/bigdata/spark/spark-2.1.0-bin-hadoop2.6/python/lib/py4j-0.10.4-src.zip

即将spark安装包中和python相关的依赖加上

3、py4j-some-version.zip和pyspark.zip加入到项目中

为了能看到源码,我们需要将项目关联源码,关联的方式如下:

点击+ Add Content Root将/Users/tangweiqun/Desktop/bigdata/spark/spark-2.1.0-bin-hadoop2.6/python/lib下的两个zip包加进去

4、编写spark word count,然后运行成功

创建一个python文件wordcount.py,内容如下:from pyspark import SparkContext, SparkConf

import os

import shutil

if __name__ == "__main__":

conf = SparkConf().setAppName("appName").setMaster("local")

sc = SparkContext(conf=conf)

sourceDataRDD = sc.textFile("file:///Users/tangweiqun/test.txt")

wordsRDD = sourceDataRDD.flatMap(lambda line: line.split())

keyValueWordsRDD = wordsRDD.map(lambda s: (s, 1))

wordCountRDD = keyValueWordsRDD.reduceByKey(lambda a, b: a + b)

outputPath = "/Users/tangweiqun/wordcount"

if os.path.exists(outputPath):

shutil.rmtree(outputPath)

wordsRDD.saveAsTextFile("file://" + outputPath)

print wordCountRDD.collect()

右击运行成功

详细且系统的了解spark core RDD相关的Api可以参考:spark core RDD api原理详解

spark python教程_spark2.x由浅入深深到底系列七之python开发spark环境配置相关推荐

  1. spark Java oracle,spark2.x由浅入深深到底系列六之RDD java api用JdbcRDD读取关系型数据库...

    课程咨询以及领取大额优惠请加微信:bigdatatang01 以下是用spark RDD java api实现从关系型数据库中读取数据,这里使用的是derby本地数据库,当然可以是mysql或者ora ...

  2. 入门Python难不难?零基础到底要怎么学Python?

    近几年的Python编程发展得非常好,又因为人工智能的发展而发展.入门Python难不难?零基础到底要怎么学Python?本文,小分享入门Python需要掌握的知识. 1.数据库:Python在数据库 ...

  3. ONNX系列七 --- 在Python中使用可移植的ONNX AI模型

    目录 安装和导入ONNX运行时 载入ONNX模型 使用ONNX运行时进行预测 摘要和后续步骤 参考文献 下载源547.1 KB 系列文章列表如下: ONNX系列一 --- 带有ONNX的便携式神经网络 ...

  4. 廖雪峰python教程完整版-为什么看不懂廖雪峰的Python学习教程?

    廖雪峰的Python教程已经很友好了,接近于把饭喂到嘴边了. 这不是廖雪峰教程的问题,而是一个基础代码技能和实际应用需求的代码技能差距太远导致的. 如果是新手,只学会了廖雪峰Python教程,那约等于 ...

  5. 【python教程入门学习】零基础想转行学python,过来人提醒大家几点

    img 为了获得心仪的Offer,要不要接受HR的压价? 前不久,我被一大厂HR摆了一道,都准备签Offer了,但却压了3000的薪资. 拒绝offer的那一刻,我感到前所未有的迷茫和无力. 大厂碰壁 ...

  6. 阿里云大学python教程下载_阿里大学开放 11 门免费 Python 视频课程

    Python 语言近几年越来越火,语言使用率占比节节攀升. 我们知道Python 现在稳居世界编程语言前三名,在 PYPL 语言流行指数上更是稳居第一,可见 python 的适用范围.受众基础.影响力 ...

  7. python教程视频网站-B站最受欢迎的Python教程,免费教学视频可以下载了

    豆瓣评分 9.1,Python 入门网红书,终于有配套免费教学视频可以下载了! 这本销量 70 万+ 册的 Python 入门书,因其对初学者超友好,而获得众多读者喜爱. 有读者说:"对于小 ...

  8. 小甲鱼python教程视频怎么样-小甲鱼零基础入门学习Python视频教程全套96集

    资源介绍 教程名称: 小甲鱼零基础入门学习Python视频教程全套96集 课程简介: xa0 xa0 Python具有跨平台特点,Python可以在各种不同类型的计算机上运行,Windows.MAC. ...

  9. 信息学奥赛 python 教程_Python在信息学竞赛中的运用及Python的基本用法(详解)

    前言 众所周知,Python是一种非常实用的语言.但是由于其运算时的低效和解释型编译,在信息学竞赛中并不用于完成算法程序.但正如LRJ在<算法竞赛入门经典-训练指南>中所说的一样,如果会用 ...

最新文章

  1. poj 3045 Cow Acrobats (贪心!!不是二分,)
  2. Java调用Python脚本工具类
  3. CMA-ES 算法初探
  4. anaconda3下opencv安装
  5. 【Python翻屏软件】英文1秒翻,水准堪比专九,这下考级有救了。
  6. Lua——循环和流程控制(if,for,while,break,goto,repeat...until)
  7. C# 报警 控制蜂鸣器发声
  8. 火爆GitHub!3.2k Star的可视化神器开源!
  9. 建堆解决TopK问题
  10. Java 多态的实现机制
  11. Python压缩多个属于不同驱动器的文件夹至同一个zip文件
  12. 24-语言入门-24-cigarettes
  13. IIS下载无后缀文件的设置
  14. 【C++程序设计实践】实验十一
  15. macsv服务器状态,MACS5应用
  16. nanomsg交叉编译
  17. page loading strategy
  18. AI 工程师职业指南
  19. 明星开餐饮店,逃不过凉凉的魔咒?
  20. Verilog TestBench 高级教程

热门文章

  1. CSS实现checkbox radio 选中后文本颜色改变
  2. MySQL内连接和外连接
  3. python学习笔记(11)--测验3: Python基础语法(下) (第7周)
  4. Only a type can be imported. xxxx resolves to a package
  5. struts中action与页面之间的传值方式
  6. archlinux 更新错误 Unrecognized archive format
  7. 夯实Java基础(二十一)——Java反射机制
  8. vs2017 + miniUI 后端框架使用
  9. 在Ubuntu 14.04(Trusty Tahr)上安装Plesk
  10. iOS中使用UIActivityViewController系统分享到微信QQ微博包含文字图片URL