RDD中partion和block的对比
第一段引用:http://www.tuicool.com/articles/fyuABfQ
RDD是一个分布式数据集,顾名思义,其数据应该分部存储于多台机器上。事实上,每个RDD的数据都以Block的形式存储于多台机器上,下图是Spark的RDD存储架构图,其中每个Executor会启动一个BlockManagerSlave,并管理一部分Block;而Block的元数据由Driver节点的BlockManagerMaster保存。BlockManagerSlave生成Block后向BlockManagerMaster注册该Block,BlockManagerMaster管理RDD与Block的关系,当RDD不再需要存储的时候,将向BlockManagerSlave发送指令删除相应的Block。
以我的理解RDD的block仅仅是RDD源文件的物理存储形式的单位。而我们知道spark的快速正是因为其对内存的利用。既然block是对物理存储的单位表示,那spark就用partion来表示内存空间的单位表示。block和partion就像hadoop MR和spark的对比,一一对应但是互不相关。
最后引用别人一个总结:
block位于存储空间、partion位于计算空间,
block的大小是固定的、partion大小是不固定的,
block是有冗余的、不会轻易丢失,partion(RDD)没有冗余设计(需要的话需要手动配置)、丢失之后重新计算得到。
注意一点:网上有教程说的slices其实是指partion,还是尽量说成partion吧。
RDD中partion和block的对比相关推荐
- Spark RDD与Partion
一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...
- spark的RDD中的action(执行)和transformation(转换)两种操作中常见函数介绍
参考文章:spark的RDD中的action(执行)和transformation(转换)两种操作中常见函数介绍 spark常见的RDD 1. 函数概览 2. 常见的Transformations 操 ...
- CUDA中grid、block、thread、warp与SM、SP的关系
首先概括一下这几个概念.其中SM(Streaming Multiprocessor)和SP(streaming Processor)是硬件层次的,其中一个SM可以包含多个SP.thread是一个线程, ...
- pl/sql中三种游标循环效率对比
pl/sql中三种游标循环效率对比 - Oracle数据库栏目 - 红黑联盟 http://www.2cto.com/database/201307/224636.html 转载于:https://b ...
- 在一个有返回值的方法中,用block回传的解决方法
在一个有返回值的方法中,用block回传的解决方法 参考文章: (1)在一个有返回值的方法中,用block回传的解决方法 (2)https://www.cnblogs.com/dsp-ios/p/64 ...
- python安装成功第三方库但import出问题_为什么会在pyspark在RDD中调用python第三方库失败?...
问题描述 Hi, 我在公司线上运行pyspark时调用jieba分词, 发现可以成功import, 但是在RDD中调用分词函数时却提示没有 module jieba, 在本地虚拟机时没有这些问题 问题 ...
- 中美数据中心产业对比及思考
近年来,随着大数据.云计算.人工智能(AI)等前沿技术领域飞速发展,数据应用越来越受到人们重视,从数据背后解读人类社会活动规律和行为习惯,已经为新经济模式形成奠定基础.数据已从以往的计算.统计.测量的 ...
- [原]CUDA中grid、block、thread、warp与SM、SP的关系
[原]CUDA中grid.block.thread.warp与SM.SP的关系 2015-3-27阅读209 评论0 首先概括一下这几个概念.其中SM(Streaming Multiprocessor ...
- 【问题】HDFS中块(block)的大小为什么设置为128M?
一.为什么HDFS中块(block)不能设置太大,也不能设置太小? 如果块设置过大, 一方面,从磁盘传输数据的时间会明显大于寻址时间,导致程序在处理这块数据时,变得非常慢: 另一方面,mapreduc ...
最新文章
- java之final
- php phar 无法创建,php composer.phar install 安装问题
- UA MATH563 概率论的数学基础 中心极限定理12 强大数定律 版本2:Etemadi定理
- Spring基于配置方式实现自定义条件装配
- ofdm原理_什么是IQ调制,了解I/Q调制的基本原理及其主要特征 - 射频技术第2部分...
- 【WebRTC---进阶篇】(六)SELECT网络模型
- as3 访问远程计算机,本地swf不能访问网络的解决办法
- Android 应用更新和在服务器下载android应用
- php创建windos用户,window_Win7系统创建及开启隐藏账户图文教程, 在电脑操作中有时候因为 - phpStudy...
- 小白来学C语言之字符串与指针
- 软件物料清单 (SBOM):从透明度理念到代码落地
- 西安交大计算机技术考研初复试,西安交大计算机考研初试、复试信息
- Servlet(四):转发与重定向、路径问题
- 超详细的QSS样式表入门Demo
- 网易wap新闻客户端
- YOLO3算法个人算法理解心得
- 在微型计算机中 集成在微处理,在微型计算机中,微处理器的主要功能是进行什么...
- Java后端工程师面试自我介绍
- 【思维导图】canny滤波 原理步骤细致剖析
- c语言用星号输出国旗,“你知道脏话屏蔽是用星号的吧?”“对啊,怎么了?”...