API详解如下所示:

具体操作如下所示:

Transformer操作:

1、Map

2、filter

3、flatMap

4、mapPartitions

5、mapPartitionsWithIndex

6、repartition (数据分配不均、性能扩展比较慢,需要repartition 比较消耗资源,进行shuffle操作)

7、coalesce  (减少partition操作 不做shuffle 性能更快速一些 shuffle = false)

8、union

9、join

10、intersection -交集 可以用来算留存

11、cogroup

12、groupBy

13、groupByKey

14、reduceBykey

15、sample   // false 不放回抽样 true放回抽样

16、cartesian 笛卡尔积

17、pipe  //执行上面执行一个shell 命令

18、textFile

val inputRdd = sparkContext.textFile("file_path")inputRdd.foreach(println(_))inputRdd.map(_.length).saveAsTextFile("file_path")

Action:

collect、take、first、takesample等等

3-spark学习笔记-SparkAPI相关推荐

  1. Spark学习笔记1——第一个Spark程序:单词数统计

    Spark学习笔记1--第一个Spark程序:单词数统计 笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖 通过 Maven 添加 Spark-c ...

  2. Spark学习笔记[1]-scala环境安装与基本语法

    Spark学习笔记[1]-scala环境安装与基本语法   正所谓工欲善其事必先利其器,Spark的开发语言不是java而是scala,虽然都是运行于JVM,但是两门语言的基本特性还是有些不一样,这里 ...

  3. spark 学习笔记

    spark 学习笔记 spark介绍 Spark是是一种快速通用的集群计算系统,它的主要特点是能够在内存中进行计算.它包含了 spark 核心组件 spark-core,用于 SQL 和结构化处理数据 ...

  4. Spark学习笔记(8)---Spark Streaming学习笔记

    Spark Streaming学习笔记 同Spark SQL一样,Spark Streaming学习也是放在了github https://github.com/yangtong123/RoadOfS ...

  5. Spark学习笔记(7)---Spark SQL学习笔记

    Spark SQL学习笔记 Spark SQL学习笔记设计到很多代码操作,所以就放在github, https://github.com/yangtong123/RoadOfStudySpark/bl ...

  6. 大数据高级开发工程师——Spark学习笔记(7)

    文章目录 Spark内存计算框架 Spark SQL SparkSQL架构设计 1. SparkSQL的架构设计实现 2. Catalyst执行过程 SQL 解析阶段 Parser 绑定逻辑计划 An ...

  7. Spark学习笔记10-RDD(Resilient Distributed Datasets)

    1.RDD概念 RDD(Resilient Distributed Datasets),弹性分布式数据集.是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的 ...

  8. spark学习笔记!!!!

    文章目录 1.spark概述 2.spark运行架构 2.1.核心组件 2.2.核心概念 2.3.Spark提交流程 3.spark核心编程 3.1.RDD 3.1.1.什么是RDD 3.1.2.RD ...

  9. 三万字,Spark学习笔记

    Spark 基础 Spark特性 Spark使用简练优雅的Scala语言编写,基于Scala提供了交互式编程体验,同时提供多种方便易用的API.Spark遵循"一个软件栈满足不同应用场景&q ...

  10. Spark学习笔记:数据读取和保存

    spark所支持的文件格式 1.文本文件 在 Spark 中读写文本文件很容易. 当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为 RDD 的 一个元素. 也可以将多个完整的文本文件一次 ...

最新文章

  1. 独家 | 一文了解强化学习的商业应用2
  2. idea在目录中前添加目录_[LaTeX Beamer] 为目录项添加页码
  3. python面试总结(二)列表去重与单例
  4. 峰Redis学习(7)Redis 之Keys 通用操作
  5. UVA 10602 - Editor Nottoobad
  6. java游戏下载怎么玩_jar的手机游戏怎么玩?java手机游戏的玩法
  7. TeamTalk UtilPdu详解
  8. 智能网联汽车——传感器与驾驶辅助
  9. TensorFlow Serving 入门教程(Windows)
  10. 大数据(7f)比较Python和Scala面向对象
  11. 线程控制-客户端获取信息无反应
  12. 在服务器上如何打开aspx文件,aspx是什么文件_aspx用什么软件打开
  13. ERR wrong number of arguments for 'sadd' command
  14. 文旅融合助力沉浸式夜游体验项目的发展
  15. 计算 2 的 1000次方
  16. ChatGPT AI生成的VUE教程博客大纲
  17. 2023美赛C题思路
  18. 计算机辅助设计cad 图书,清华大学出版社-图书详情-《计算机辅助设计——AutoCAD教程》...
  19. 深入探索Android稳定性优化
  20. 电脑能上qq,浏览器不能联网

热门文章

  1. 7.7. 其他证书工具
  2. List------Linked 链表
  3. rhel7 http实例3
  4. 如何利用office绘制施工进度计划横道图?
  5. 6个变态的C语言Hello World程序
  6. 为加密的NTFS分区制作一把备份密钥
  7. Android应用程序安装过程源代码分析(1)
  8. cmd中如何切换指定目录
  9. 华为手机鸿蒙系统名单,鸿蒙系统:前三批升级名单曝光,有荣耀手机!
  10. 内置类和对象锁改变 笔记记录