文章目录

零、本讲学习目标
一、RDD为何物
- （一）RDD概念
- （二）RDD示例
- （三）RDD主要特征
二、做好准备工作
- （一）准备文件
- - 1、准备本地系统文件
  - 2、准备HDFS系统文件
- （二）启动Spark Shell
- - 1、启动HDFS服务
  - 2、启动Spark服务
  - 3、启动Spark Shell
三、创建RDD
- （一）从对象集合创建RDD
- - 1、利用`parallelize()`方法创建RDD
  - 2、利用`makeRDD()`方法创建RDD
  - 3、简单说明
- （二）从外部存储创建RDD
- - 1、读取本地系统文件
  - 2、读取HDFS系统文件

零、本讲学习目标

了解RDD的概念
掌握RDD的创建方式

一、RDD为何物

（一）RDD概念

Spark提供了一种对数据的核心抽象，称为弹性分布式数据集（Resilient Distributed Dataset，RDD）。这个数据集的全部或部分可以缓存在内存中，并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。
RDD的弹性主要是指当内存不够时，数据可以持久化到磁盘，并且RDD具有高效的容错能力。
分布式数据集是指一个数据集存储在不同的节点上，每个节点存储数据集的一部分。

（二）RDD示例

将数据集（hello,world,scala,spark,love,spark, happy）存储在三个节点上，节点一存储（hello,world），节点二存储（scala,spark,love），节点三存储（spark,happy），这样对三个节点的数据可以并行计算，并且三个节点的数据共同组成了一个RDD。

分布式数据集类似于HDFS中的文件分块，不同的块存储在不同的节点上；而并行计算类似于使用MapReduce读取HDFS中的数据并进行Map和Reduce操作。Spark则包含这两种功能，并且计算更加灵活。
在编程时，可以把RDD看作是一个数据操作的基本单位，而不必关心数据的分布式特性，Spark会自动将RDD的数据分发到集群的各个节点。Spark中对数据的操作主要是对RDD的操作（创建、转化、求值）。

（三）RDD主要特征

RDD是不可变的，但可以将RDD转换成新的RDD进行操作。
RDD是可分区的。RDD由很多分区组成，每个分区对应一个Task任务来执行。
对RDD进行操作，相当于对RDD的每个分区进行操作。
RDD拥有一系列对分区进行计算的函数，称为算子。
RDD之间存在依赖关系，可以实现管道化，避免了中间数据的存储。

二、做好准备工作

（一）准备文件

1、准备本地系统文件

在/home目录里创建test.txt

2、准备HDFS系统文件

将test.txt上传到HDFS系统的/park目录里

（二）启动Spark Shell

参看《 Spark基础学习笔记05：搭建Spark Standalone模式的集群》

1、启动HDFS服务

执行命令：start-dfs.sh

2、启动Spark服务

进入Spark的sbin目录执行命令：./start-all.sh

3、启动Spark Shell

参看《sc.textFile()默认读取本地系统文件还是HDFS系统文件？》
如果以 spark-shell --master spark://master:7077方式启动spark-shell，只能读取HDFS系统上的文件，不能读取本地系统文件，而以spark-shell --master=local[*]方式启动spark-shell，既可以读取本地系统文件，加不加file://都可以，还可以访问HDFS系统上的文件，但是必须加上hdfs://master:9000。
执行命令：spark-shell --master=local[*]
查看Spark Shell的WebUI界面

三、创建RDD

RDD中的数据来源可以是程序中的对象集合，也可以是外部存储系统中的数据集，例如共享文件系统、HDFS、HBase或任何提供HadoopInputFormat的数据源。

（一）从对象集合创建RDD

Spark可以通过parallelize()或makeRDD()方法将一个对象集合转化为RDD。

1、利用`parallelize()`方法创建RDD

执行命令：val rdd = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8))

2、利用`makeRDD()`方法创建RDD

执行命令：val rdd = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7, 8)) 与 rdd.collect()

3、简单说明

从上述两个命令执行的返回信息可以看出，上述创建的RDD中存储的是Int类型的数据。实际上，RDD也是一个集合，与常用的List集合不同的是，RDD集合的数据分布于多台机器上。

（二）从外部存储创建RDD

Spark的textFile()方法可以读取本地文件系统或外部其他系统中的数据，并创建RDD。不同的是，数据的来源路径不同。

1、读取本地系统文件

执行命令：val rdd = sc.textFile("/home/test.txt")
执行命令：val lines = rdd.collect()，查看RDD中的内容，保存到常量lines（collect()方法是RDD的一个行动算子）
执行命令：for (line <- lines) println(line)，遍历lines

2、读取HDFS系统文件

执行命令：val rdd = sc.textFile("hdfs://master:9000/park/test.txt")
执行命令：val lines = rdd.collect()，查看RDD中的内容
执行命令：val sparkLines = rdd.filter((line) => line.contains("spark"))，获取包含spark的行
执行for (line <- sparkLines) println(line)，遍历sparkLines

Spark基础学习笔记16：创建RDD相关推荐

Spark基础学习笔记20：RDD持久化、存储级别与缓存
文章目录零.本讲学习目标一.RDD持久化 (一)引入持久化的必要性 (二)案例演示持久化操作 1.RDD的依赖关系图 2.不采用持久化操作 3.采用持久化操作二.存储级别 (一)持久化方法的参数 ...
Spark基础学习笔记19：RDD的依赖与Stage划分
文章目录零.本讲学习目标一.RDD的依赖 (一)窄依赖 1.map()与filter()算子 2.union()算子 3.join()算子 (二)宽依赖 1.groupBy()算子 2.join( ...
2022年Spark基础学习笔记目录
一.Spark学习笔记在私有云上创建与配置虚拟机 Spark基础学习笔记01:初步了解Spark Spark基础学习笔记02:Spark运行时架构 Spark基础学习笔记03:搭建Spark单机版环 ...
Spark基础学习笔记10：Scala集成开发环境
文章目录零.本讲学习目标一.搭建Scala的Eclipse开发环境 (一)安装Scala插件 (二)创建Scala项目二.搭建Scala的IntelliJ IDEA开发环境 (一)启动IDEA ...
2022年Spark基础学习笔记
一.Spark学习笔记在OpenStack私有云上创建与配置虚拟机 Spark基础学习笔记01:初步了解Spark Spark基础学习笔记02:Spark运行时架构 Spark基础学习笔记03:搭建 ...
Spark基础学习笔记17：掌握RDD算子
文章目录零.本讲学习目标一.RDD算子二.准备工作 (一)准备文件 1.准备本地系统文件 2.准备HDFS系统文件 (二)启动Spark Shell 1.启动HDFS服务 2.启动Spark服务 ...
Spark学习笔记10:创建RDD
目录一.什么是RDD (一)RDD概念 (二)RDD示例 (三)RDD主要特征二.做好准备工作 (一)准备文件 1.准备本地系统文件 2.启动HDFS服务 3.准备HDFS系统文件 (二)启动Sp ...
Spark基础学习笔记23：DataFrame与Dataset
文章目录零.本讲学习目标一.Spark SQL (一)Spark SQL概述 (二)Spark SQL主要特点 1.将SQL查询与Spark应用程序无缝组合 2.Spark SQL以相同方式连接多 ...
Spark基础学习笔记05：搭建Spark Standalone模式的集群
文章目录零.本讲学习目标一.Spark集群拓扑 (一)集群拓扑 (二)集群角色分配二.搭建集群 (一)私有云上创建三台虚拟机 (二)利用SecureCRT登录三台虚拟机 1.登录master虚拟 ...

Spark基础学习笔记16：创建RDD

文章目录

零、本讲学习目标

一、RDD为何物

（一）RDD概念

（二）RDD示例

（三）RDD主要特征

二、做好准备工作

（一）准备文件

1、准备本地系统文件

2、准备HDFS系统文件

（二）启动Spark Shell

1、启动HDFS服务

2、启动Spark服务

3、启动Spark Shell

三、创建RDD

（一）从对象集合创建RDD

1、利用`parallelize()`方法创建RDD

2、利用`makeRDD()`方法创建RDD

3、简单说明

（二）从外部存储创建RDD

1、读取本地系统文件

2、读取HDFS系统文件

Spark基础学习笔记16：创建RDD相关推荐

最新文章

热门文章

Spark基础学习笔记16：创建RDD

文章目录

零、本讲学习目标

一、RDD为何物

（一）RDD概念

（二）RDD示例

（三）RDD主要特征

二、做好准备工作

（一）准备文件

1、准备本地系统文件

2、准备HDFS系统文件

（二）启动Spark Shell

1、启动HDFS服务

2、启动Spark服务

3、启动Spark Shell

三、创建RDD

（一）从对象集合创建RDD

1、利用parallelize()方法创建RDD

2、利用makeRDD()方法创建RDD

3、简单说明

（二）从外部存储创建RDD

1、读取本地系统文件

2、读取HDFS系统文件

Spark基础学习笔记16：创建RDD相关推荐

最新文章

热门文章

1、利用`parallelize()`方法创建RDD

2、利用`makeRDD()`方法创建RDD