BlockManager原理:

1.Driver上有BlockManagerMaster,负责对各个节点上的BlockManager内部管理的元数据进行维护。

2.每个节点的BlockManager有几个关键组件,DiskStore负责对磁盘上的数据进行读写,MemoryStore负责对内存中的数据进行读写,ConnectionManager负责建立BlockManager到远程其他节点的BlockManager的网络连接,BlockTransferService负责对远程其他节点的BlockManager的数据读写。

3.每个BlockManager创建之后,会向BlockManangerMaster进行注册,BlockManagerMaster会为其创建对应的BlockManagerInfo。

4.BlockManager进行写操作时,比如RDD运行过程中的一些中间数据,或者指定的persist(),会优先将数据写入内存,内存大小不够,再将内存部分数据写入磁盘。

5.如果persist()指定了要replica,那么会使用BlockTransferService将数据replica一份到其他节点的BlockManager上去。

6.BlockManager进行读操作时,比如ShuffleRead操作,如果能从本地读取数据,那么就利用DiskStore或MemoryStore从本地读取数据。如果本地没有数据,就会用ConnectionManager与有数据的BlockManager建立连接,然后用BlockTransferService从远程BlockManager读取数据。

7.只要使用了BlockManager执行了数据增删改的操作,那么就必须将block的BlockStatus上报到BlockManagerInfo内部的BlockStatus进行增删改操作,从而对元数据进行维护。

spark学习-BlockManager原理相关推荐

  1. 深入分析Spark任务调度的原理--Java后端同学入门Spark编程系列

    作者:陌北有棵树,Java人,架构师社区合伙人! 之前写了一篇:<我作为Java后端,分享一下入门Spark编程的经历!> 上篇是Spark入门的第一篇,写了一些关于Spark编程中RDD ...

  2. spark任务shell运行_大数据系列:Spark的工作原理及架构

    介绍 本Apache Spark教程将说明Apache Spark的运行时架构以及主要的Spark术语,例如Apache SparkContext,Spark shell,Apache Spark应用 ...

  3. 用Spark学习FP Tree算法和PrefixSpan算法

    在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法.由于scikit-l ...

  4. spark学习-28-Spark数据倾斜问题

    文章目录 推荐:先看看这个 spark学习-27-Spark性能调优(2) 目的 数据倾斜调优 简述 数据倾斜发生时的现象 数据倾斜发生的原理 上面说了那么多其实我还是没具体见过什么是数据倾斜了 分析 ...

  5. Spark 系列——Spark的Shuffle原理

    目录 一.基本介绍 1.1 Lineage 1.2 窄依赖 1.3 宽依赖 二.Spark Shuffle的原理 2.1 ShuffleManager 2.2 ShuffleWriter 2.2.1 ...

  6. Spark学习痛点和路线图

    Spark学习的痛点 对初学者(特别是自学者)学习来说,Spark学习有以下两大痛点. 1.头绪太多,不知道从哪学 从Spark的技术栈可以看到,涉及的技术从操作系统到外部组件.Spark框架.交互工 ...

  7. Hadoop学习系列之Hadoop、Spark学习路线(很值得推荐)

    Hadoop学习系列之Hadoop.Spark学习路线(很值得推荐) 文章出自:http://www.cnblogs.com/zlslch/p/5448857.html 1 Java基础: 视频方面: ...

  8. 对学习编译原理的看法

    我认为编译原理这本书是一门与代码做斗争的课程,学习编译原理能够追寻程序设计语言的本质,了解计算机各种语言编译的原理.学习了编译原理能够更加深入的了解计算机各种高级语言使用的原理,能使自己更加容易更加好 ...

  9. TensorFlow深度学习算法原理与编程实战 人工智能机器学习技术丛书

    作者:蒋子阳 著 出版社:中国水利水电出版社 品牌:智博尚书 出版时间:2019-01-01 TensorFlow深度学习算法原理与编程实战 人工智能机器学习技术丛书 ISBN:97875170682 ...

最新文章

  1. Yii2 定时任务创建(Console 任务)
  2. How to write an operating system
  3. vue页面跳转后返回原页面初始位置
  4. 【归并排序】奶牛的图片(jzoj 1812)
  5. oracle hang analyze,hanganalyze 分析数据库挂起
  6. quidway secpath下搭建DHCP服务器01
  7. 分子模拟的理论与实践_基于分子模拟的数据驱动发现流体力学宏观方程
  8. aboboo 上一句 快捷键_Aboboo——英语四六级神器
  9. 128.深入 cookie ,session
  10. word计算机公式怎么算,word怎么实现自动计算公式
  11. Linkerd、Consul、Istio、Kuma、Traefik、AWS App服务网格全方位对比
  12. 什么是Monitor?
  13. oracle改密码sql语句,Oracle 修改数据库密码
  14. NLP情感分析基础知识
  15. sat数学可以用计算机吗,SAT考试数学是否可以使用计算器
  16. HTTPSConnectionPool(host=‘finance.yahoo.com‘, port=443解决方案
  17. 工控用Web组态软件比组态软件更高效
  18. 总有一张图片会撩拨起你初恋时的心弦(转载)
  19. linux车机端carlife移植、开发
  20. 阿里巴巴开发者社区电子书藏经阁

热门文章

  1. 通俗的解释下音视频同步里pcr作用
  2. android推送服务不被关闭,Android APP被关闭后无法收到推送消息(尝试)
  3. [C++]分数类的定义(成员函数、运算符重载)
  4. 计算机中术语bug指,为什么计算机故障称为“bug”?
  5. 安川机器人基准轴设置(行走轴/第七轴)
  6. Word插入图示(转)
  7. LINUX命令全称英语
  8. 迅雷创业与生存密码(节选自网络)
  9. 转载:ubantu18.04下安装teamviewer(亲测有用)
  10. 强制删除工具Wise Force Deleter v1.49用法