spark内置了非常多有用的算子(方法),通过对这些算子的组合就可以完成业务需要的功能,spark的编程归根结底就是对spark算子的使用,因此非常有必要对这些内置算子进行详细的归纳。

spark算子在大的方向上可以分为两类:

名称 说明
Transformation 变换、转换算子:不触发提交作业,只是完成作业中间过程处理;Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Transformation参数类型为value或者key-value的形式。
Action 行动算子:触发SparkContext提交job作业。Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark系统。

value 类型

细类型 算子
输入分区与输出分区一对一型 map flatMap mapPartitions glom
输入分区与输出分区多对一型 union cartesain
-Cache型 cache persist
输出分区为输入分区子集型 filter distinct substract sample takeSample
输入分区与输出分区多对多型 groupBy

key-value类型

细类型 算子
输入分区与输出分区一对一 mapValues
对单个RDD或两个RDD聚集 单个RDD聚集: combineByKey reduceByKey partitionBy两个RDD聚集: Cogroup
连接 joinleftOutJoin和 rightOutJoin

Action算子

细类型 算子
无输出 foreach
HDFS saveAsTextFilesaveAsObjectFile
Scala集合和数据类型 collect collectAsMap reduceByKeyLocally lookup count top reduce fol aggregate

spark算子的分类相关推荐

  1. Spark的算子的分类

    从大方向来说Spark 算子大致可以分为以下两类: Transformation 变换/转换算子这种变换并不触发提交作业完成作业中间过程处理.Transformation 操作是延迟计算的也就是说从一 ...

  2. spark算子_Spark常用算子

    Spark的算子分类: 从大方向说,Spark算子大致可以分为以下两类: (1)Transformation变换/转换算子:这种变换并不触发提交作业,这种算子是延迟执行的,也就是说从一个RDD转换生成 ...

  3. Spark算子总结版

    Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...

  4. spark学习-Spark算子Transformations和Action使用大全(Transformations章(一))

    spark学习-22-Spark算子Transformations和Action使用大全(Transformations章(一)) http://blog.csdn.net/qq_21383435/a ...

  5. spark算子详细介绍(v、k-v、vv类型)

    spark算子详细介绍 算子分区数.分区器如何确定? Value 类型 1. map() 改变结构就用map 2. mapPartitions() 以分区为单位执行Map 思考一个问题:map和map ...

  6. spark 算子 详解

    参考文档:Spark算子详解及案例分析(分类助记) - 云+社区 - 腾讯云 1.combineByKey .作为spark 的核心算子之一,有必要详细了解.reduceByKey 和groupByK ...

  7. Spark算子汇总和理解(详细)

    Spark之所以比Hadoop灵活和强大,其中一个原因是Spark内置了许多有用的算子,也就是方法.通过对这些方法的组合,编程人员就可以写出自己想要的功能.说白了spark编程就是对spark算子的使 ...

  8. Spark算子:统计RDD分区中的元素及数量

    Spark RDD是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Bl ...

  9. Spark算子---实战应用

    Spark算子实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...

最新文章

  1. ionic app 开发和生产环境的配置
  2. php开发mvc教程,php开发一个简单的MVC
  3. Keil MDK-ARM下载 安装与和谐教程
  4. 网络字节序与主机字节序的转换[转]
  5. Find non-overlap jobs with max cost
  6. mysql 大小写 if_【已解决】Windows下 MySQL大小写敏感 解决方案及分析
  7. 苹果7plus专用计算机,iphone7plus怎么用 iphone7plus使用技巧【详解】
  8. glassfish上部署firstcup-war
  9. flask mysql 配置文件_Flask配置文件
  10. mysql insert
  11. Android开发四大组件
  12. 交往了 19 年的兄弟,给我上了一课
  13. 【福利】10道CCNA经典测试题你能对几题?(附最新版CCNA题库下载链接)
  14. 干部档案管理系统wxpython+mysql
  15. UE5 预览版载具模板工程车不能移动的问题
  16. birt 报表与润乾报表对比
  17. 近世代数--特征--环的特征,域的特征
  18. 性别计算机英语怎么说,性别教育用英语怎么说?
  19. 18118 勇者斗恶龙
  20. 【动手学深度学习】06-ResNet解析

热门文章

  1. spring源码解析bean定义五ContextNamespaceHandler一
  2. 201809-1—卖菜
  3. .htaccess 基础教程(四)Apache RewriteCond 规则参数
  4. 郭宏志的android无线点餐系统,Android无线点餐系统--含代码.doc
  5. softmax回归的简洁实现-09-p5
  6. 因为孤浪的关于爱情...关于婚姻...关于生活... 走进的CTO的第一天
  7. 计算机机房工程规划方案,机房工程规划书文档.docx
  8. java 读取office文件,java读取office文件
  9. springboot通过各种不同类型参数获取容器中的bean工具类
  10. ORACLE常用的一些特殊SQL,收藏收藏,下次需要的时候就不用再翻箱倒柜了