RDD的重要内部属性  

通过 RDD 的内部属性,用户可以获取相应的元数据信息。通过这些信息可以支持更复杂的算法或优化。
1)分区列表:通过分区列表可以找到一个 RDD 中包含的所有分区及其所在地址。
2)计算每个分片的函数:通过函数可以对每个数据块进行 RDD 需要进行的用户自定义函数运算。
3)对父 RDD 的依赖列表:为了能够回溯到父 RDD,为容错等提供支持。
4)对 key-value pair 数据类型 RDD 的分区器,控制分区策略和分区数。通过分区函数可以确定数据记录在各个分区和节点上的分配,减少分布不平衡。
5)每个数据分区的地址列表(如 HDFS 上的数据块的地址)。如果数据有副本,则通过地址列表可以获知单个数据块的所有副本地址,为负载均
衡和容错提供支持。

本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/5724033.html,如需转载请自行联系原作者

Spark RDD概念学习系列之RDD的重要内部属性(十五)相关推荐

  1. Spark RDD概念学习系列之rdd持久化、广播、累加器(十八)

    1.rdd持久化 2.广播 3.累加器 1.rdd持久化 通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/loca ...

  2. RHEL8.0快速入门系列笔记--计划任务服务crond(十五)

    RHEL8.0快速入门系列笔记–计划任务服务crond(十五) 1.了解计划任务的作用 作用:释放我们的双手,释放我们的时间 计划任务,让系统在将来的指定时间点执行某些任务(程序) 计划任务,可以周期 ...

  3. Spark核心编程系列(一)——RDD详解

    目录 Spark核心编程系列--RDD详解(一) RDD概念 RDD与IO之间的关系 RDD的核心属性 RDD执行原理 基础编程 RDD创建 RDD的并行度与分区 参考 Spark核心编程系列--RD ...

  4. Spark SQL概念学习系列之Spark Shark是什么?

    Shark是构建在Spark和Hive基础之上的数据仓库. 目前,Shark已经完成学术使命,终止开发,但其架构和原理仍具有借鉴意义. 它提供了能够查询Hive中所存储数据的一套SQL接口,兼容现有的 ...

  5. hbase动态更改行键设计_Hadoop HBase概念学习系列之优秀行键设计(十六)

    尽量最小化行名和列名的字段大小 在HBase中,值是作为一个单元(Cell)保存在系统的中的,要定位一个单元,需要行,列名和时间戳.通常情况下,如果你的行和列的名字要是太大(甚至比value的大小还要 ...

  6. “约见”面试官系列之常见面试题之第九十五篇之vue-router的组件组成(建议收藏)

    <router-link :to='' class='active-class'> //路由声明式跳转 ,active-class是标签被点击时的样式<router-view> ...

  7. “约见”面试官系列之常见面试题第三十五篇之轮循机制(建议收藏)

    目录 前言 任务队列 事件的概念 回调函数 事件轮询机制Event Loop: 结语 前言 有人称Event Loop为事件循环机制,而我更愿意将其解释为事件轮询机制,在之后的内容中你会感受到这一点的 ...

  8. Web框架——Flask系列之设置和读取cookie(十五)

    设置cookie,默认有效期是临时cookie,浏览器关闭就会失效 from flask import Flask,make_responseapp = Flask(__name__)@app.rou ...

  9. dataframe记录数_大数据系列之Spark SQL、DataFrame和RDD数据统计与可视化

    Spark大数据分析中涉及到RDD.Data Frame和SparkSQL的操作,本文简要介绍三种方式在数据统计中的算子使用. 1.在IPython Notebook运行Python Spark程序 ...

最新文章

  1. IF执行批处理程序中的条件处理:
  2. 区分真实模式的两个标准
  3. C++ Map Source
  4. 进度条(python 实现)
  5. spring boot integrated mybatis three ways!--转
  6. selenium 文件上传
  7. 虚拟存储器(虚拟内存Vitual Memory)
  8. Kibana 创建索引 POST 403 (forbidden) on create index
  9. 好的重构方法才能摆脱“屎山”
  10. 大数据之-Hadoop3.x_MapReduce_开发总结---大数据之hadoop3.x工作笔记0137
  11. 利用函数求数组中的最大值
  12. 机器学习入门——图解集成学习(附代码)
  13. 【IoT】创业指南:智能硬件产品原型设计指南
  14. 威纶触摸屏使用说明书_你不知道选择工业触摸屏还有这么多技巧?
  15. 软件功能性测试方法和流程
  16. Java服务优雅停机_JAVA优雅停机的实现
  17. 人生不该有如此压力,来吃下这口缓解焦虑的良药[50P]
  18. 通过LNK文件(快捷方式)解析出目标文件的路径
  19. go mysql 异步_GO操作MYSQL
  20. 计算机算最大值如何操作,如何合理设置计算机的虚拟内存值(初始大小及最大值)?...

热门文章

  1. leetcode算法题--零钱兑换
  2. leetcode算法题--完全平方数★
  3. leetcode算法题--无重复字符的最长子串
  4. javascript写各种排序算法
  5. echarts legend颜色_echarts数据可视化图表(二):双柱状图
  6. IT兄弟连 JavaWeb教程 jQuery中其他AJAX支持的函数
  7. 一件有趣的事:用Python爬了自己的微信朋友圈
  8. 原来这样做运维,就可以不被 KO丨课程推广
  9. MySIAM与Innodb引擎
  10. 详解 Weex JS Framework 的编译过程