pyspark模块介绍
pyspark是Spark的python API,提供了使用python编写并提交大数据处理作业的接口。 在pyspark里大致分为5个主要的模块
- pyspark模块,这个模块四最基础的模块,里面实现了最基础的编写Spark作业的 API。这个模块里面有以下内容:
- Sparkcontext:它是编写Spark程序的主入口
- RDD:分布式弹性数据集,是Spark内部中最重要的抽象
- Broadcast:在各个任务task中重复使用的广播变量
- Accumulator:一个只能增加的累加器,在各个任务中都可以进行累加,最 终进行全局累加
- SparkConf:一个配置对象,用来对Spark中的例如资源,内核个数,提交 模式等的配置
- SparkFiles:文件访问API
- StorageLevel:它提供了细粒度的对于数据的缓存、持久化级别
- TaskContext:实验性质的API,用于获取运行中任务的上下文信息。
- pyspark.sql模块,这个模块是架构在RDD之上的高级模块,提供了SQL的支持,包含 以下内容:
- SparkSession:SparkSQL的主入口,其内部仍然是调用 SparkContext的
- DataFrame:分布式的结构化的数据集,最终的计算仍然转换为 RDD上的计算
- Column:DataFrame中的列 Row:DataFrame中的行
- GroupedData:这里提供聚合数据的一些方法
- DataFrameNaFunctions:处理缺失数据的方法
- DataFrameStatFunctions:提供统计数据的一些方法
- functions:内建的可用于DataFrame的方法
- types:可用的数据类型 Window:提供窗口函数的支持
- pyspark.streaming这个模块主要是用来处理流数据,从外部的消息中间件如kafka, flume或者直接从网络接收数据,来进行实时的流数据处理。其内部会将接收到的数据转换 为DStream,DStream的内部实际上就是RDD。pyspark.streaming对流数据的支持还不是很完善,不如原生的Scala语言和Java语言。但这节课仍然会包括最主要的原理。这节包 含以下内容:
- 接收数据的原理及过程
- 接收网络数据
- 接收kafka数据
- pyspark.ml这个模块主要是做机器学习的,里面实现了很多机器学习算法,包括分类、 回归、聚类、推荐。pyspark.ml这个模块 现已经成为主要的机器学习模块,其内部实现是基于DataFrame数据框。
- pyspark.mllib这个模块也是做机器学习的,但是这个模块底层使用的RDD,RDD在性 能上优化的余地较少,因此现在最新的机器学习算法都是用基于DataFrame的API来实现。 但这个模块里面也有很多有用的机器学习算法
pyspark模块介绍相关推荐
- 爬虫之requests模块介绍
爬虫之requests模块介绍 requests文档http://docs.python-requests.org/zh_CN/latest/index.html [文档中包括的快速上手要精 ...
- Zynq器件XADC模块介绍
1.前言 赛灵思的7系列FPGA和Zynq器件创造性地在片上集成了模数转换器和相关的片上传感器(内置温度传感器和功耗传感器),这是相比赛灵思前一代产品来新增加的特性,可在系统设计中免去外置的ADC器件 ...
- python模块介绍-locustio:性能测试工具locustio
转自:http://automationtesting.sinaapp.com/blog/m_locustio_doc python测试文章 http://weibo.com/cizhenshi?is ...
- 【收藏】GeoMesa整体架构模块介绍、创建Schema并导入数据
geomesa-accumulo:基于 Apache Accumulo的DataStore 实现 geomesa-archetypes: Maven构建模板 geomesa-arrow: 基于 Apa ...
- 两款【linux字符界面下】显示【菜单】,【选项】的powershell脚本模块介绍
两款[linux字符界面下]显示[菜单],[选项]的powershell脚本模块介绍 powershell linux ps1 menu choice Multiselect 传教士 菜单 powe ...
- Spring之旅—Spring模块介绍
1.0 Spring模块介绍 核心容器(Spring Core) 核心容器提供Spring框架的基本功能.Spring以bean的方式组织和管理Java应用中的各个组件及其关系.Spring使用Be ...
- EBS模块介绍和概念解释
Oracle模块介绍和概念解释 Oracle重要模块简介 账套 会议科目表 记账本位币 会议日历的财务报告实体 组织 业务组 公司的最高部门 法人实体 提交财务和税务报表的法人公司 经营单位 orac ...
- python url模块介绍_python 中 urlparse 模块介绍
urlparse模块主要是用于解析url中的参数 对url按照一定格式进行 拆分或拼接 1.urlparse.urlparse 将url分为6个部分,返回一个包含6个字符串项目的元组:协议.位置.路 ...
- python模块介绍- xlwt 创建xls文件(excel)
python模块介绍- xlwt 创建xls文件(excel) 2013-06-24磁针石 #承接软件自动化实施与培训等gtalk:ouyangchongwu#gmail.comqq 37391319 ...
最新文章
- C++实现输入两个字符串,从第一字符串中删除第二个字符串中所有的字符
- MVC3----筛选数据(BeginForm:输出form表单)
- 2.13 break和continue
- 云服务器端口对外开放详解
- apache 2.4 httpd.conf 详解_Linux Centos服务子系统详解
- 【Java】字符串交叉合并
- 用了这么久的数据库连接池,你知道原理吗?
- 学会用Go解析复杂JSON的思路
- 《Look at Boundary: A Boundary-Aware Face Alignment Algorithm 》阅读笔记
- c++ 2条中线焦点_三角形的中线为何交于一点
- Ubuntu之systemd延时启动服务
- python 老师和父亲_父亲节丨有个当老师的爸爸是怎样的体验
- python制作QQ游戏--大家来找茬游戏辅助(一)
- xen html插件美化桌面,过去的界面都弱爆了!魔兽界面美化插件推荐
- linux live usb 使用方法,Linux下制作Live USB方法
- 操作系统(习题记录):假定盘块的大小为1KB,对于1.2 MB的软盘,FAT需占用多少存储空间
- 消防应急疏散指示系统在居民住宅区的应用
- 【ABAP系列】SAP ABAP BDC_OKCODE 解释
- 计算机信息机房,计算机信息机房工程全面解决方案模板.docx
- 苹果怎么换自定义铃声?不用电脑也能搞定!
热门文章
- 直接点不玩虚的--启明云端千元现金红包、50pcs开发板直播现场拿走不谢
- 数字中国建设再提速,智慧金融发展如何跑出“加速度”?
- 重磅!百度研究院发布2021年十大科技趋势预测
- 藁城一中2021年高考成绩查询,2017藁城一中录取分数线及高考成绩情况
- 电气工程及其自动化专业英语苏小林翻译_“万千星光 智能点亮” 电气工程及其自动化专业讲座...
- c#如何跳出一个函数_C#初学者教程系列9:类和对象
- 【51nod2026】Gcd and Lcm(杜教筛)
- 从一点儿不会开始——Unity3D游戏开发学习(一)
- Excel-数据分列的多种方法实现
- 5. Binary Tree Postorder Traversal