第一段引用:http://www.tuicool.com/articles/fyuABfQ

RDD是一个分布式数据集,顾名思义,其数据应该分部存储于多台机器上。事实上,每个RDD的数据都以Block的形式存储于多台机器上,下图是Spark的RDD存储架构图,其中每个Executor会启动一个BlockManagerSlave,并管理一部分Block;而Block的元数据由Driver节点的BlockManagerMaster保存。BlockManagerSlave生成Block后向BlockManagerMaster注册该Block,BlockManagerMaster管理RDD与Block的关系,当RDD不再需要存储的时候,将向BlockManagerSlave发送指令删除相应的Block。

以我的理解RDD的block仅仅是RDD源文件的物理存储形式的单位。而我们知道spark的快速正是因为其对内存的利用。既然block是对物理存储的单位表示,那spark就用partion来表示内存空间的单位表示。block和partion就像hadoop MR和spark的对比,一一对应但是互不相关。

最后引用别人一个总结:

block位于存储空间、partion位于计算空间,
    block的大小是固定的、partion大小是不固定的,
    block是有冗余的、不会轻易丢失,partion(RDD)没有冗余设计(需要的话需要手动配置)、丢失之后重新计算得到。

注意一点:网上有教程说的slices其实是指partion,还是尽量说成partion吧。

RDD中partion和block的对比相关推荐

  1. Spark RDD与Partion

    一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...

  2. spark的RDD中的action(执行)和transformation(转换)两种操作中常见函数介绍

    参考文章:spark的RDD中的action(执行)和transformation(转换)两种操作中常见函数介绍 spark常见的RDD 1. 函数概览 2. 常见的Transformations 操 ...

  3. CUDA中grid、block、thread、warp与SM、SP的关系

    首先概括一下这几个概念.其中SM(Streaming Multiprocessor)和SP(streaming Processor)是硬件层次的,其中一个SM可以包含多个SP.thread是一个线程, ...

  4. pl/sql中三种游标循环效率对比

    pl/sql中三种游标循环效率对比 - Oracle数据库栏目 - 红黑联盟 http://www.2cto.com/database/201307/224636.html 转载于:https://b ...

  5. 在一个有返回值的方法中,用block回传的解决方法

    在一个有返回值的方法中,用block回传的解决方法 参考文章: (1)在一个有返回值的方法中,用block回传的解决方法 (2)https://www.cnblogs.com/dsp-ios/p/64 ...

  6. python安装成功第三方库但import出问题_为什么会在pyspark在RDD中调用python第三方库失败?...

    问题描述 Hi, 我在公司线上运行pyspark时调用jieba分词, 发现可以成功import, 但是在RDD中调用分词函数时却提示没有 module jieba, 在本地虚拟机时没有这些问题 问题 ...

  7. 中美数据中心产业对比及思考

    近年来,随着大数据.云计算.人工智能(AI)等前沿技术领域飞速发展,数据应用越来越受到人们重视,从数据背后解读人类社会活动规律和行为习惯,已经为新经济模式形成奠定基础.数据已从以往的计算.统计.测量的 ...

  8. [原]CUDA中grid、block、thread、warp与SM、SP的关系

    [原]CUDA中grid.block.thread.warp与SM.SP的关系 2015-3-27阅读209 评论0 首先概括一下这几个概念.其中SM(Streaming Multiprocessor ...

  9. 【问题】HDFS中块(block)的大小为什么设置为128M?

    一.为什么HDFS中块(block)不能设置太大,也不能设置太小? 如果块设置过大, 一方面,从磁盘传输数据的时间会明显大于寻址时间,导致程序在处理这块数据时,变得非常慢: 另一方面,mapreduc ...

最新文章

  1. java之final
  2. php phar 无法创建,php composer.phar install 安装问题
  3. UA MATH563 概率论的数学基础 中心极限定理12 强大数定律 版本2:Etemadi定理
  4. Spring基于配置方式实现自定义条件装配
  5. ofdm原理_什么是IQ调制,了解I/Q调制的基本原理及其主要特征 - 射频技术第2部分...
  6. 【WebRTC---进阶篇】(六)SELECT网络模型
  7. as3 访问远程计算机,本地swf不能访问网络的解决办法
  8. Android 应用更新和在服务器下载android应用
  9. php创建windos用户,window_Win7系统创建及开启隐藏账户图文教程,  在电脑操作中有时候因为 - phpStudy...
  10. 小白来学C语言之字符串与指针
  11. 软件物料清单 (SBOM):从透明度理念到代码落地
  12. 西安交大计算机技术考研初复试,西安交大计算机考研初试、复试信息
  13. Servlet(四):转发与重定向、路径问题
  14. 超详细的QSS样式表入门Demo
  15. 网易wap新闻客户端
  16. YOLO3算法个人算法理解心得
  17. 在微型计算机中 集成在微处理,在微型计算机中,微处理器的主要功能是进行什么...
  18. Java后端工程师面试自我介绍
  19. 【思维导图】canny滤波 原理步骤细致剖析
  20. c语言用星号输出国旗,“你知道脏话屏蔽是用星号的吧?”“对啊,怎么了?”...

热门文章

  1. 【阿里 | 飞猪 | 校招】客户端开发工程师 一面
  2. PTA 题目 列车调度
  3. oracle数据库 笛卡尔积,Oracle连接查询和笛卡尔积
  4. 飞腾E2000的技术规格
  5. 刚刚,2022年中国大学生源质量排名发布
  6. 从零开始学设计模式(四):工厂模式(Factory Pattern)
  7. 2019QLU.ACM集训队暑假训练须知
  8. mysql8.0更改用户密码
  9. input输入框内容只读
  10. manjaro安装微信命令