spark算子的分类
spark内置了非常多有用的算子(方法),通过对这些算子的组合就可以完成业务需要的功能,spark的编程归根结底就是对spark算子的使用,因此非常有必要对这些内置算子进行详细的归纳。
spark算子在大的方向上可以分为两类:
名称 | 说明 |
---|---|
Transformation | 变换、转换算子:不触发提交作业,只是完成作业中间过程处理;Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Transformation参数类型为value或者key-value的形式。 |
Action | 行动算子:触发SparkContext提交job作业。Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark系统。 |
value 类型
细类型 | 算子 |
---|---|
输入分区与输出分区一对一型 | map flatMap mapPartitions glom |
输入分区与输出分区多对一型 | union cartesain |
-Cache型 | cache persist |
输出分区为输入分区子集型 | filter distinct substract sample takeSample |
输入分区与输出分区多对多型 | groupBy |
key-value类型
细类型 | 算子 |
---|---|
输入分区与输出分区一对一 | mapValues |
对单个RDD或两个RDD聚集 | 单个RDD聚集: combineByKey reduceByKey partitionBy两个RDD聚集: Cogroup |
连接 | joinleftOutJoin和 rightOutJoin |
Action算子
细类型 | 算子 |
---|---|
无输出 | foreach |
HDFS | saveAsTextFilesaveAsObjectFile |
Scala集合和数据类型 | collect collectAsMap reduceByKeyLocally lookup count top reduce fol aggregate |
spark算子的分类相关推荐
- Spark的算子的分类
从大方向来说Spark 算子大致可以分为以下两类: Transformation 变换/转换算子这种变换并不触发提交作业完成作业中间过程处理.Transformation 操作是延迟计算的也就是说从一 ...
- spark算子_Spark常用算子
Spark的算子分类: 从大方向说,Spark算子大致可以分为以下两类: (1)Transformation变换/转换算子:这种变换并不触发提交作业,这种算子是延迟执行的,也就是说从一个RDD转换生成 ...
- Spark算子总结版
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
- spark学习-Spark算子Transformations和Action使用大全(Transformations章(一))
spark学习-22-Spark算子Transformations和Action使用大全(Transformations章(一)) http://blog.csdn.net/qq_21383435/a ...
- spark算子详细介绍(v、k-v、vv类型)
spark算子详细介绍 算子分区数.分区器如何确定? Value 类型 1. map() 改变结构就用map 2. mapPartitions() 以分区为单位执行Map 思考一个问题:map和map ...
- spark 算子 详解
参考文档:Spark算子详解及案例分析(分类助记) - 云+社区 - 腾讯云 1.combineByKey .作为spark 的核心算子之一,有必要详细了解.reduceByKey 和groupByK ...
- Spark算子汇总和理解(详细)
Spark之所以比Hadoop灵活和强大,其中一个原因是Spark内置了许多有用的算子,也就是方法.通过对这些方法的组合,编程人员就可以写出自己想要的功能.说白了spark编程就是对spark算子的使 ...
- Spark算子:统计RDD分区中的元素及数量
Spark RDD是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Bl ...
- Spark算子---实战应用
Spark算子实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...
最新文章
- ionic app 开发和生产环境的配置
- php开发mvc教程,php开发一个简单的MVC
- Keil MDK-ARM下载 安装与和谐教程
- 网络字节序与主机字节序的转换[转]
- Find non-overlap jobs with max cost
- mysql 大小写 if_【已解决】Windows下 MySQL大小写敏感 解决方案及分析
- 苹果7plus专用计算机,iphone7plus怎么用 iphone7plus使用技巧【详解】
- glassfish上部署firstcup-war
- flask mysql 配置文件_Flask配置文件
- mysql insert
- Android开发四大组件
- 交往了 19 年的兄弟,给我上了一课
- 【福利】10道CCNA经典测试题你能对几题?(附最新版CCNA题库下载链接)
- 干部档案管理系统wxpython+mysql
- UE5 预览版载具模板工程车不能移动的问题
- birt 报表与润乾报表对比
- 近世代数--特征--环的特征,域的特征
- 性别计算机英语怎么说,性别教育用英语怎么说?
- 18118 勇者斗恶龙
- 【动手学深度学习】06-ResNet解析
热门文章
- spring源码解析bean定义五ContextNamespaceHandler一
- 201809-1—卖菜
- .htaccess 基础教程(四)Apache RewriteCond 规则参数
- 郭宏志的android无线点餐系统,Android无线点餐系统--含代码.doc
- softmax回归的简洁实现-09-p5
- 因为孤浪的关于爱情...关于婚姻...关于生活... 走进的CTO的第一天
- 计算机机房工程规划方案,机房工程规划书文档.docx
- java 读取office文件,java读取office文件
- springboot通过各种不同类型参数获取容器中的bean工具类
- ORACLE常用的一些特殊SQL,收藏收藏,下次需要的时候就不用再翻箱倒柜了