Spark开源的各模块组成结构:

1. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。

2. Stage——分为多个阶段进行作业。

3. Wide Dependency——宽依赖,子RDD对父RDD中的所有data partition依赖。

4. RDD——Resillient Distributed Dataset 分布式数据集。
 
5. Operation——作用于RDD的各种操作分为transformation和action。
 
6. Job——作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation。
 
7. Partition——数据分区, 一个RDD中的数据分成不同的多个区。

8. DAG——Directed Acycle graph,有向无环图,RDD之间的依赖关系。
 
9. Caching Managenment——缓存管理,对RDD的中间计算结果进行缓存管理以加快整体的处理速度。

参考资料(reference)
1.Lightning-Fast Cluster Computing with Spark and Shark
2.Introduction to Spark Internals
3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

Spark开源学习模块相关推荐

  1. Spark基础学习笔记01:初步了解Spark

    文章目录 零.本讲学习目标 一.大数据开发总体架构 二.Spark简介 三.Spark发展史 四.Spark特点 (一)快速 (二)易用 (三)通用 (四)随处运行 (五)代码简洁 1.采用MR实现词 ...

  2. InChatter系统开源聊天模块前奏曲

    最近在研究WCF,又因为工作中的项目需要,要为现有的系统增加一个聊天模块以及系统消息提醒等,因此就使用WCF做服务器端开发了一个简单的系统. 开发最初学习了东邪孤独大哥的<传说的WCF系列> ...

  3. FaceBook机器学习开源DL模块

    据GIGAOM报道,近日,Facebook人工智能研究院(FAIR)开源了一系列软件库,以帮助开发者建立更大.更快 的深度学习模型.开放的软件库在Facebook被称作模块.用它们替代机器学习领域常用 ...

  4. FFmpeg深度学习模块的历史、现状和计划

    本文来自英特尔资深图形图像软件工程师 郭叶军在LiveVideoStack线上分享的内容,详细介绍了FFmpeg中深度学习模块的历史.现状及未来计划,并针对深度学习模块总体架构与代码实践做详细解析. ...

  5. Spark基础学习笔记10:Scala集成开发环境

    文章目录 零.本讲学习目标 一.搭建Scala的Eclipse开发环境 (一)安装Scala插件 (二)创建Scala项目 二.搭建Scala的IntelliJ IDEA开发环境 (一)启动IDEA ...

  6. 作为一名大数据工程师你需要掌握Spark深度学习

    Tom M. Mitchell教授对于机器学习的定义对深度学习同样适用,深度学习是一种特殊的机器学习,它将现实世界表示为嵌套的层次概念体系(用较简单概念间的联系定义复杂概念,从一般抽象概括到高级抽象表 ...

  7. Spark菜鸟学习营Day5 分布式程序开发

    Spark菜鸟学习营Day5 分布式程序开发 这一章会和我们前面进行的需求分析进行呼应,完成程序的开发. 开发步骤 分布式系统开发是一个复杂的过程,对于复杂过程,我们需要分解为简单步骤的组合. 针对每 ...

  8. June:Datawhale开源学习小程序升级啦!

    1. 开源学习小程序的使用 我们通过七个视频来介绍如何使用Datawhale开源学习小程序. 第一个视频:完善个人信息+报名 组队学习报名前,请大家完善个人信息的填写,便于结课后证书发放. 切换到组队 ...

  9. 六一:如何在Datawhale开源学习小程序中管

    我们的组队学习马上就要开营了,本次组队学习与以往不同的是小程序中增加了队伍管理的功能. 为了方便大家组队,Datawhale的 六一同学 为大家准备了在Datawhale开源学习小程序中队伍管理的教程 ...

最新文章

  1. 值“MT_StaticRelease”不匹配值“MD_DynamicRelease”
  2. mxnet 衰减学习率
  3. 任天堂新音樂遊戲上市
  4. Arduino+Max30100心率血氧浓度传感器测试
  5. 多个ip对应的是同一个mac_Python3+Scapy安装使用 + 查询本机对应网卡,IP,MAC代码...
  6. UVa 11324 最大团(强连通分量缩点)
  7. 一台电脑两种jdk_jdk和jre有什么区别?
  8. LoadRunner 11 安装及破解
  9. linux系统清理磁盘空间
  10. 10、I/O 输入输出流
  11. 2个或2个以上路由器串联上网,在同一网段
  12. Unsupervised Keyphrase Extraction by Jointly Modeling Local and Global Context 阅读笔记
  13. JAVA 获取mac地址
  14. 笔记本开机前插入耳机再开机有声音,开机后插入耳机后没声音
  15. ATECC508A芯片开发笔记(九):加密读写508芯片数据的流程及相应设置
  16. 编译出现错误,想知道为什么错误
  17. PTA L1-093 猜帽子游戏 (15 分)
  18. Office-31等一系列数据集
  19. hiredis异步操作模型
  20. /opt/hbase/conf 中不能启动hbase_德州中天盛围挡喷淋厂房车间喷淋造雾机

热门文章

  1. 图像处理形态学椭圆形模板结构元素的设计与实现
  2. android转iOS看什么书,一起聊聊:是什么让你从Android转向iOS?
  3. 40vf什么意思_LED 的基本术语VF、IV、WL、IR 解释及光通量换算关系
  4. PTA: 6-5 删除单链表偶数节点 (20 分)
  5. 大数据对医学发展有什么影响
  6. 大数据分析的作用与注意事项
  7. 查看exe代码_【安全风险通告】Windows Type 1字体解析远程代码执行漏洞安全风险通告...
  8. 正态分布的概率密度函数python_如何实现高斯分布的概率密度函数
  9. bat导出远程oracle数据,windows 任务计划 实现oracle远程 数据库备份
  10. axure中怎么把图片变圆_怎么将图片中的文字提取出来?收下这份识别教程