01 pyspark简介及环境搭建

pyspark是python中的一个第三方库,相当于Apache Spark组件的python化版本(Spark当前支持Java Scala Python和R 4种编程语言接口),需要依赖py4j库(即python for java的缩略词),而恰恰是这个库实现了将python和java的互联,所以pyspark库虽然体积很大,大约226M,但实际上绝大部分都是spark中的原生jar包,占据了217M,体积占比高达96%。

由于Spark是基于Scala语言实现的大数据组件,而Scala语言又是运行在JVM虚拟机上的,所以Spark自然依赖JDK,截止目前为止JDK8依然可用,而且几乎是安装各大数据组件时的首选。所以搭建pyspark环境首先需要安装JDK8,而后这里介绍两种方式搭建pyspark运行环境:

1)pip install pyspark+任意pythonIDE

pyspark作为python的一个第三方库,自然可以通过pip包管理工具进行安装,所以仅需执行如下命令即可完成自动安装:

pip install pyspark

为了保证更快的下载速度,可以更改pip源为国内镜像,具体设置方式可参考历史文章:

Python应用实战案例-pyspark库从安装到实战保姆级讲解相关推荐

  1. 玩转群晖NAS套件系列五:Moments的安装与使用保姆级教程!

    本章总结: 上一章节我们讲解<玩转群晖NAS套件系列四:Audio Station安装使用保姆级教程!>,此教程堪称史上手把手的保姆教程,受到广大网友的一致好评. Moments是群晖专为 ...

  2. Centos7下Fluka的安装教程(保姆级)

    Centos7下Fluka的安装教程(保姆级) 1 安装Fluka 首先大家去官网下载,在下载之前需要注册为fluka用户,下载之后就可以将其放在合适的位置进行解压,命令如下: tar -zxvf f ...

  3. centos的官网下载和vm16虚拟机安装centos8【保姆级教程图解】

    centos8的官网下载和vm16虚拟机安装centos8[保姆级图解] centos下载 vm虚拟机安装centos 可能出现的问题vcpu-0 centos下载 centos官网:https:// ...

  4. 玩转群晖NAS套件系列六:Web Station的安装与使用保姆级教程!

    本章总结: 上一章节我们讲解<玩转群晖NAS套件系列五:Moments的安装与使用保姆级教程!>,此教程堪称史上手把手的保姆教程,受到广大网友的一致好评. Web Station这个套件是 ...

  5. Redis安装教程(保姆级教程)

    Redis安装教程(保姆级教程) 一.Redis是什么? REmote DIctionary Server(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value ...

  6. 从零开始写Python爬虫---1.1 requests库的安装与使用

    什么是爬虫? 爬虫本质上是模拟人浏览信息的过程,只不过他通过计算机来达到快速抓取筛选信息的目的.所以我们想要写一个爬虫,最基本的就是要将我们需要抓取信息的网页原原本本的抓取下来.这个时候就要用到req ...

  7. Python技术分享:numpy库的安装教程

    一.numpy简介 NumPy是一个功能强大的Python库,主要用于对多维数组执行计算.NumPy这个词来源于两个单词-- Numerical和Python.NumPy提供了大量的库函数和操作,可以 ...

  8. Python爬虫--- 1.2 BS4库的安装与使用

    原文链接https://www.fkomm.cn/article/2018/7/20/17.html Beautiful Soup 库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方 ...

  9. 从零开始写Python爬虫 --- 1.2 BS4库的安装与使用

    什么是Beautiful Soup Beautiful Soup库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方库.因用起来十分的简便流畅.所以也被人叫做"美味汤&quo ...

最新文章

  1. python新手入门-python新手入门方法
  2. px word 表格宽度_word怎样批量修改表格的宽度(2)
  3. 关闭edge任务栏预览_如何在Microsoft Edge中关闭选项卡预览
  4. 移动开发者如何更好地学习 React Native? | 技术头条
  5. 学计算机和电脑办公的区别,自学编程和计算机科班出身的差别在哪?
  6. T-SQL:谓词和运算符(六)
  7. EasyUI form ajax submit到MVC后,在IE下提示下载内容的解决办法
  8. html5页面资源预加载(Link prefetch)
  9. 作为IT男必须会Linux服务器被攻击后如何处理!网友:这个要会!
  10. Java入门 - 循环结构基础
  11. 布尔-施罗德逻辑代数中的命题逻辑-- 布尔逻辑之七(尾篇**)
  12. linux脚本判断文件属性,linux的shell脚本中的逻辑判断、文件目录属性判断、if特殊用法、case判断...
  13. 百度地图受邀参加第九届全国化工物流行业年会 助力危化品物流运输安全合规
  14. 【软件工程】订货系统的UML类图
  15. windows安装sonarqube7.4+sonar-scanner-cli【JDK8+MySQL】
  16. IT开发的岔路口:究竟是Java好还是嵌入式好?
  17. 吴恩达 DeepLearning 第二课第三周题目(包括选择题)
  18. android 自定义ImageView实现图片手势滑动,多点触摸放大缩小效果
  19. OTM1287A在MSM8909上的移植
  20. git 设置别名 git alias

热门文章

  1. 利用System.Net.Mail和多线程实现邮件发送
  2. Linux command: dos2unix
  3. 【ArcGIS 10.2新特性】Geodatabase 10.2 常见问题
  4. Ext.form.TextArea文本区
  5. CSP认证201509-4 高速公路[C++题解]:强连通分量、tarjan算法模板题
  6. 如何用js获取外联css,内联外联CSS和JS
  7. python视窗版_Python GUI tkinter窗口视窗学习3
  8. linux snmp设置报警次数,CentOS/RHEL 6下禁止重复的SNMP连接日志
  9. backgroundworker 导致程序无法退出_macOS技巧—六种方法强制退出无响应的程序
  10. 2.5e2.0是合法的c语言常量,二级考试C语言程序设计.ppt