spark 源码分析之十三 -- SerializerManager剖析

2024-04-07 13:13:09

对SerializerManager的说明：

它是为各种Spark组件配置序列化，压缩和加密的组件，包括自动选择用于shuffle的Serializer。spark中的数据在network IO 或 local disk IO传输过程中。都需要序列化。其默认的 Serializer 是 org.apache.spark.serializer.JavaSerializer，在一定条件下，可以使用kryo，即org.apache.spark.serializer.KryoSerializer。

支持的两种序列化方式

即值的类型是八种基本类型中一种或null或String，都会使用kryo，否则使用默认序列化方式，即java序列化方式。

它还负责读写Block流是否使用压缩：

数据流是否支持压缩

默认情况下：

其中，如果使用压缩，默认的压缩是 lz4，可以通过参数 spark.io.compression.codec 来配置。它支持的所有压缩类型如下：

读写数据流如何支持压缩

其中，支持压缩的InputStream和OutputStream是对原来的InputStream和OutputStream做了包装。我们以LZ4BlockOutputStream为例说明。

调用如下函数返回支持压缩的OutputStream：

首先，LZ4BlockOutputStream的继承关系如下：

被包装的类被放到了FilterOutputStream类的out 字段中，如下：

outputStream核心方法就是write。直接来看LZ4BlockOutputStream的write方法：

其中buffer是一个byte 数组，默认是 32k，可以通过spark.io.compression.lz4.blockSize 参数来指定，在LZ4BlockOutputStream类中用blockSize保存。

重点看flushBufferedData方法：

方法内部实现思路如下：

外部写入到buffer中的数据经过compressor压缩到compressorBuffer中，然后再写入一些magic，最终将压缩的buffer写入到out中，write操作结束。

可见，数据的压缩是由 LZ4BlockOutputStream 负责的，压缩之后的数据被写入到目标outputStream中。

转载于:https://www.cnblogs.com/johnny666888/p/11190380.html

spark 源码分析之十三 -- SerializerManager剖析相关推荐

spark 源码分析之十八 -- Spark存储体系剖析
本篇文章主要剖析BlockManager相关的类以及总结Spark底层存储体系. 总述先看 BlockManager相关类之间的关系如下: 我们从NettyRpcEnv 开始,做一下简单说明. Ne ...
spark 源码分析之八--Spark RPC剖析之TransportContext和TransportClientFactory剖析
spark 源码分析之八--Spark RPC剖析之TransportContext和TransportClientFactory剖析 TransportContext 首先官方文档对Transpor ...
Spark源码解读之Shuffle原理剖析与源码分析
在前面几篇文章中,介绍了Spark的启动流程Spark内核架构流程深度剖析,Spark源码分析之DAGScheduler详解,Spark源码解读之Executor以及Task工作原理剖析,Spark源 ...
spark 源码分析之二十 -- Stage的提交
引言上篇 spark 源码分析之十九 -- DAG的生成和Stage的划分中,主要介绍了下图中的前两个阶段DAG的构建和Stage的划分. 本篇文章主要剖析,Stage是如何提交的. rdd的依赖 ...
spark 源码分析之十九 -- DAG的生成和Stage的划分
上篇文章 spark 源码分析之十八 -- Spark存储体系剖析重点剖析了 Spark的存储体系.从本篇文章开始,剖析Spark作业的调度和计算体系. 在说DAG之前,先简单说一下RDD. 对RD ...
Spark源码分析之Sort-Based Shuffle读写流程
一概述我们知道Spark Shuffle机制总共有三种: # 未优化的Hash Shuffle:每一个ShuffleMapTask都会为每一个ReducerTask创建一个单独的文件,总的文件数是 ...
Spark源码分析之七：Task运行（一）
在Task调度相关的两篇文章<Spark源码分析之五:Task调度(一)>与<Spark源码分析之六:Task调度(二)>中,我们大致了解了Task调度相关的主要逻辑,并且在T ...
Spark 源码分析
2019独角兽企业重金招聘Python工程师标准>>> 一. 启动篇 (一) 引子在spark-shell终端执行 val arr = Array(1,2,3,4) val rdd ...
Spark源码分析之九：内存管理模型
Spark是现在很流行的一个基于内存的分布式计算框架,既然是基于内存,那么自然而然的,内存的管理就是Spark存储管理的重中之重了.那么,Spark究竟采用什么样的内存管理模型呢?本文就为大家揭开Sp ...

最新文章

热门文章