Spark 默认使用 Java Serialization 作为序列化方式,但是这种序列化方式一般会被认为性能和效率一般。因此 Spark 官方是推荐使用 Kryo 来代替默认的序列化方式的,为了便于调试,我们可以在 spark-shell 环境中更改默认的配置参数,使得默认的序列化方式变为 KryoSerializer。

$ export SPARK_JAVA_OPTS="-Dspark.serializer=org.apache.spark.serializer.KryoSerializer"$ ./bin/spark-shell

又或者打开 spark-default.conf,打开注释如下图。

...
# Example:
# spark.master                     spark://master:7077
# spark.eventLog.enabled           true
# spark.eventLog.dir               hdfs://namenode:8021/directory
spark.serializer                 org.apache.spark.serializer.KryoSerializer
# spark.driver.memory              5g
# spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

然后就可以在 Spark UI 是查看一下环境变量。

Reference

How to change default serializer on Apache Spark Shell · Mutable Ideas​arjon.es

END.

spark 序列化_spark shell 配置 Kryo 序列化相关推荐

  1. Spark 配置Kryo序列化机制注意细节

    一.Spark 的序列化 序列化 Spark 是一个高性能.分布式的.基于内存计算的计算引擎,Spark 集群中包含多个节点,各节点之间要进行通信(比如数据传输,Spark 通过 RPC 进行节点间的 ...

  2. Spark 性能相关参数配置详解-压缩与序列化篇

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 随着Spark的逐渐成熟完善, ...

  3. 【Spark】Spark的Kryo序列化

    1.美图 2.Spark序列化概述 在Spark的架构中,在网络中传递的或者缓存在内存.硬盘中的对象需要进行序列化操作,序列化的作用主要是利用时间换空间: 分发给Executor上的Task 需要缓存 ...

  4. spark之kryo 序列化

    几乎所有的资料都显示kryo 序列化方式优于java自带的序列化方式,而且在spark2.*版本中都是默认采用kryo 序列化.因此本文将做kryo 做一个测试以验证其性能. 1.先给出定义:     ...

  5. 广播变量kyro_利用Kryo序列化库是你提升Spark性能要做的第一件事

    本文基于Spark2.1.0版本 套用官文Tuning Spark中的一句话作为文章的标题: *Often, choose a serialization type will be the first ...

  6. 在Spark中自定义Kryo序列化输入输出API(转)

    原文链接:在Spark中自定义Kryo序列化输入输出API 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo serialization.在默认情况 ...

  7. spark之kryo序列化及其使用

    spark之kryo序列化 spark之kryo 序列化 Spark 中使用 Kryo序列化 中文切词案例: spark之kryo 序列化 1.定义:把对象转换为字节序列的过程称为对象的序列化. 把字 ...

  8. 基于kryo序列化方案的memcached-session-manager多memcached...

    为什么80%的码农都做不了架构师?>>>    上次基于Java IO的序列化方案配置了memcached-session-manager,但是性能不好,现在先简单配置成基于kryo ...

  9. java kryo 序列化_java中的序列化方式及dubbo使用kryo序列化

    java中的序列化方式: 1. 自带序列化  ObjectInputSteam. ObjectOutStream等 2. hession2 3. json ,xml等格式 4.kryo 5.FST - ...

最新文章

  1. Hutool,一个贼好用的 Java 工具类库,用过都说好~
  2. 图像像素点赋值_Python 图像处理 OpenCV (2):像素处理与 Numpy 操作以及 Matplotlib 显示图像...
  3. [原创]K8 cping 3.0大型内网渗透扫描工具
  4. C语言学习系列(六)基本语法
  5. Linux 应用调试神器- ASan
  6. Java GridFS MongoDB 下载文件 内容不完整
  7. Leetcode 1144
  8. 陈冠希传 转载,奇文共欣赏
  9. JavaScript 高级程序设计
  10. 程序员如何修炼项目管理能力?
  11. python批处理远程关机脚本_使用shutdown命令实现远程关机和重启
  12. linux关闭mysql失败_Linux系统mysql访问失败该怎样处理
  13. IDA 64 String中文乱码
  14. USB 设备驱动之设备接入梳理(二)
  15. 进入公司暂时没事做怎么办
  16. 网购秒杀系统架构设计
  17. java里用set写自我介绍代码_【优质】java程序员自我介绍-优秀word范文 (8页)
  18. 腾讯开源DCache,分布式NoSQL存储系统
  19. 整理笔记——cache主存映射方式
  20. 风雨飘摇二十年,MMO游戏还有春天吗?

热门文章

  1. Asp.Net实现无刷新文件上传并显示进度条(非服务器控件实现)
  2. 基于LINQ to SQL的WEB开发三层架构(1)
  3. 漫步微积分七——连续函数
  4. 【Tensorflow】深度学习实战03——Tensorflow实现AlexNet
  5. NetworkX学习笔记【持续更新】
  6. 数字图像处理--图像二阶导数的推导
  7. 计算机桌面文件夹排序,电脑桌面文件整理前后对照
  8. java语句类型_01-java数据类型与语句
  9. python 用户的画像可视化呈现技术_一人一车一面:解读汽车大数据用户画像背后的AI技术...
  10. 天池-新闻推荐-多路召回