pyspark是Spark的python API,提供了使用python编写并提交大数据处理作业的接口。 在pyspark里大致分为5个主要的模块

  1. pyspark模块,这个模块四最基础的模块,里面实现了最基础的编写Spark作业的 API。这个模块里面有以下内容:
  • Sparkcontext:它是编写Spark程序的主入口
  • RDD:分布式弹性数据集,是Spark内部中最重要的抽象
  • Broadcast:在各个任务task中重复使用的广播变量
  • Accumulator:一个只能增加的累加器,在各个任务中都可以进行累加,最 终进行全局累加
  • SparkConf:一个配置对象,用来对Spark中的例如资源,内核个数,提交 模式等的配置
  • SparkFiles:文件访问API
  • StorageLevel:它提供了细粒度的对于数据的缓存、持久化级别
  • TaskContext:实验性质的API,用于获取运行中任务的上下文信息。
  1. pyspark.sql模块,这个模块是架构在RDD之上的高级模块,提供了SQL的支持,包含 以下内容:
  • SparkSession:SparkSQL的主入口,其内部仍然是调用 SparkContext的
  • DataFrame:分布式的结构化的数据集,最终的计算仍然转换为 RDD上的计算
  • Column:DataFrame中的列 Row:DataFrame中的行
  • GroupedData:这里提供聚合数据的一些方法
  • DataFrameNaFunctions:处理缺失数据的方法
  • DataFrameStatFunctions:提供统计数据的一些方法
  • functions:内建的可用于DataFrame的方法
  • types:可用的数据类型 Window:提供窗口函数的支持
  1. pyspark.streaming这个模块主要是用来处理流数据,从外部的消息中间件如kafka, flume或者直接从网络接收数据,来进行实时的流数据处理。其内部会将接收到的数据转换 为DStream,DStream的内部实际上就是RDD。pyspark.streaming对流数据的支持还不是很完善,不如原生的Scala语言和Java语言。但这节课仍然会包括最主要的原理。这节包 含以下内容:
  • 接收数据的原理及过程
  • 接收网络数据
  • 接收kafka数据
  1. pyspark.ml这个模块主要是做机器学习的,里面实现了很多机器学习算法,包括分类、 回归、聚类、推荐。pyspark.ml这个模块 现已经成为主要的机器学习模块,其内部实现是基于DataFrame数据框。
  2. pyspark.mllib这个模块也是做机器学习的,但是这个模块底层使用的RDD,RDD在性 能上优化的余地较少,因此现在最新的机器学习算法都是用基于DataFrame的API来实现。 但这个模块里面也有很多有用的机器学习算法

pyspark模块介绍相关推荐

  1. 爬虫之requests模块介绍

    爬虫之requests模块介绍 requests文档http://docs.python-requests.org/zh_CN/latest/index.html      [文档中包括的快速上手要精 ...

  2. Zynq器件XADC模块介绍

    1.前言 赛灵思的7系列FPGA和Zynq器件创造性地在片上集成了模数转换器和相关的片上传感器(内置温度传感器和功耗传感器),这是相比赛灵思前一代产品来新增加的特性,可在系统设计中免去外置的ADC器件 ...

  3. python模块介绍-locustio:性能测试工具locustio

    转自:http://automationtesting.sinaapp.com/blog/m_locustio_doc python测试文章 http://weibo.com/cizhenshi?is ...

  4. 【收藏】GeoMesa整体架构模块介绍、创建Schema并导入数据

    geomesa-accumulo:基于 Apache Accumulo的DataStore 实现 geomesa-archetypes: Maven构建模板 geomesa-arrow: 基于 Apa ...

  5. 两款【linux字符界面下】显示【菜单】,【选项】的powershell脚本模块介绍

    两款[linux字符界面下]显示[菜单],[选项]的powershell脚本模块介绍 powershell linux  ps1 menu choice Multiselect 传教士 菜单 powe ...

  6. Spring之旅—Spring模块介绍

    1.0  Spring模块介绍 核心容器(Spring Core) 核心容器提供Spring框架的基本功能.Spring以bean的方式组织和管理Java应用中的各个组件及其关系.Spring使用Be ...

  7. EBS模块介绍和概念解释

    Oracle模块介绍和概念解释 Oracle重要模块简介 账套 会议科目表 记账本位币 会议日历的财务报告实体 组织 业务组 公司的最高部门 法人实体 提交财务和税务报表的法人公司 经营单位 orac ...

  8. python url模块介绍_python 中 urlparse 模块介绍

    urlparse模块主要是用于解析url中的参数  对url按照一定格式进行 拆分或拼接 1.urlparse.urlparse 将url分为6个部分,返回一个包含6个字符串项目的元组:协议.位置.路 ...

  9. python模块介绍- xlwt 创建xls文件(excel)

    python模块介绍- xlwt 创建xls文件(excel) 2013-06-24磁针石 #承接软件自动化实施与培训等gtalk:ouyangchongwu#gmail.comqq 37391319 ...

最新文章

  1. C++实现输入两个字符串,从第一字符串中删除第二个字符串中所有的字符
  2. MVC3----筛选数据(BeginForm:输出form表单)
  3. 2.13 break和continue
  4. 云服务器端口对外开放详解
  5. apache 2.4 httpd.conf 详解_Linux Centos服务子系统详解
  6. 【Java】字符串交叉合并
  7. 用了这么久的数据库连接池,你知道原理吗?
  8. 学会用Go解析复杂JSON的思路
  9. 《Look at Boundary: A Boundary-Aware Face Alignment Algorithm 》阅读笔记
  10. c++ 2条中线焦点_三角形的中线为何交于一点
  11. Ubuntu之systemd延时启动服务
  12. python 老师和父亲_父亲节丨有个当老师的爸爸是怎样的体验
  13. python制作QQ游戏--大家来找茬游戏辅助(一)
  14. xen html插件美化桌面,过去的界面都弱爆了!魔兽界面美化插件推荐
  15. linux live usb 使用方法,Linux下制作Live USB方法
  16. 操作系统(习题记录):假定盘块的大小为1KB,对于1.2 MB的软盘,FAT需占用多少存储空间
  17. 消防应急疏散指示系统在居民住宅区的应用
  18. 【ABAP系列】SAP ABAP BDC_OKCODE 解释
  19. 计算机信息机房,计算机信息机房工程全面解决方案模板.docx
  20. 苹果怎么换自定义铃声?不用电脑也能搞定!

热门文章

  1. 直接点不玩虚的--启明云端千元现金红包、50pcs开发板直播现场拿走不谢
  2. 数字中国建设再提速,智慧金融发展如何跑出“加速度”?
  3. 重磅!百度研究院发布2021年十大科技趋势预测
  4. 藁城一中2021年高考成绩查询,2017藁城一中录取分数线及高考成绩情况
  5. 电气工程及其自动化专业英语苏小林翻译_“万千星光 智能点亮” 电气工程及其自动化专业讲座...
  6. c#如何跳出一个函数_C#初学者教程系列9:类和对象
  7. 【51nod2026】Gcd and Lcm(杜教筛)
  8. 从一点儿不会开始——Unity3D游戏开发学习(一)
  9. Excel-数据分列的多种方法实现
  10. 5. Binary Tree Postorder Traversal