大数据培训课程之RDD中的函数传递

2024-04-28 17:39:47

RDD中的函数传递

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。下面我们看几个例子：

传递一个方法

1．创建一个类

2．创建Spark主程序

object SeriTest {

def main(args: Array[String]): Unit = {

//1.初始化配置信息及SparkContext

val sparkConf: SparkConf = new SparkConf().setAppName(“WordCount”).setMaster(“local[*]”)

val sc = new SparkContext(sparkConf)

//2.创建一个RDD

val rdd: RDD[String] = sc.parallelize(Array(“hadoop”, “spark”, “hive”, “atguigu”))

//3.创建一个Search对象

val search = new Search()

//4.运用第一个过滤函数并打印结果

val match1: RDD[String] = search.getMatche1(rdd)

match1.collect().foreach(println)

}

}

3．运行程序

4．问题说明

//过滤出包含字符串的RDD

def getMatch1 (rdd: RDD[String]): RDD[String] = {

rdd.filter(isMatch)

}

在这个方法中所调用的方法isMatch()是定义在Search这个类中的，实际上调用的是this. isMatch()，this表示Search这个类的对象，程序在运行过程中需要将Search对象序列化以后传递到Executor端。

5．解决方案

使类继承scala.Serializable即可。

class Search() extends Serializable{…}

想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训，尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习。

大数据培训课程之RDD中的函数传递相关推荐

大数据培训课程之RDD传递一个属性
传递一个属性 1．创建Spark主程序 object TransmitTest { def main(args: Array[String]): Unit = { //1.初始化配置信息及SparkC ...
大数据培训课程之countByKey()案例
大数据培训课程saveAsObjectFile(path) 作用:用于将RDD中的元素序列化成对象,存储到文件中. 大数据培训课程 countByKey()案例作用:针对(K,V)类型的RDD,返回 ...
大数据培训课程之fold(num)(func)案例
fold(num)(func)案例作用:折叠操作,aggregate的简化操作,seqop和combop一样. 需求:创建一个RDD,将所有元素相加得到结果 (1)创建一个RDD scala> ...
大数据培训课程之Flume拓扑结构大数据培训课程之Flume拓扑结构
Flume拓扑结构 Flume的拓扑结构如图1-3.1-4.1-5和1-6所示: 图1-3 Flume Agent连接图1-4 单source,多channel.sink 图1-5 Flume负载均 ...
成都大数据培训之C++的异同小常识
成都大数据培训之C++的异同小常识一.C++类class和结构体struct区别 C++语言继承了 C语言的 struct,并且加以扩充.在 C语言中,struct 是只能定义数据成员,而不能定义成 ...
大数据培训程序员面试屡次碰壁怎么办
碰壁是每个大数据程序员在面试过程中都需要经历的,即使有面试第一家公司就成功的案例,那也是比较少的,首先小伙伴不要慌神,也不要过于的气馁,稳下心神来考虑这么一个问题,自己面试屡次碰壁的原因是什么,自己有 ...
成都大数据培训之SpringBoot中关于JDBC的方式运用
在成都大数据培训中,Springboot中对于数据访问层,无论是SQL还是NOSQL,都默认采用整合Spring Data的方式进行统一处理,Springboot会帮我们添加大量自动配置,屏蔽了很多设 ...
2018大数据培训学习路线图（详细完整版）
2018大数据培训学习路线全课程目录+学习线路详解(详细完整版) 第一阶段:大数据基础Java语言基础阶段 1.1:Java开发介绍 1.1.1 Java的发展历史 1.1.2 Java的应用领域 1 ...
大数据培训：Spark性能调优与参数配置
Spark性能调优-基础篇众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关数据开发.分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业. 推荐参数配置模板如下 ...

最新文章

热门文章