那些年我们玩过的Spark下的Standalone集群模型
- 内存模型
- RDD(弹性分布式数据集)
- RDD的五大特性
- RDD(弹性分布式数据集)
- a list of partiotioner。一组分区。partiotioner是一个抽象概念,指的是一片连续的空间,顾名思义一个RDD包含一组连续的空间。
- a function for partiotioner 每一个partiotioner都有着一个函数对其进行运算。这也是spark并行计算的基础。
- a list of dependencies on others RDDS RDD中间有着一系列的相互依赖。因为众所周知RDD是基于内存的运算的,虽然基于内存运算可以带来比较快的速度,但是相对应而来的便是容错性不好,因为随着一个节点的宕机,随之而来的是内存中的数据全部丢失。所以RDD这一特性也是RDD机制中容错性的一个保证。因为在spark并行计算中,是由着不同的RDD相互转换来进行的,如果其中一条线断了,RDD这个特性会去找上层RDD,如果找不到会一直追寻到顶层的元数据来重新运算。
- optionally ,a partitioner for key-value RDDS,可以对每一个partitioner进行再次分区。但是这个特性的先决条件是RDD必须是键值对格式的。
- 数据本地性。数据在哪,任务就在哪。不过汇总的时候需要走网络。所以优化的措施也有关于这一点。
- RDD原理机制
- 什么叫做弹性?
- 能存内存能存硬盘
- RDD之间可以相互进行转换
- RDD可以存任意类型的数据
- 在不同的Job里面除了落盘,RDD是立即失效的。另外有一个误区就是使用cache(),之后就会被立即缓存,这是错的,只有当真正执行的时候才会被创建,缓存,因为在此之前他是没有任何的数据源。
- lineage血统,在执行的时候会调度器会根据声明好的血统来根据若干阶段的stage构建成一个DAG,这一切的发生都是在运行时
- 什么叫做弹性?
- 窄依赖
- 宽依赖
- 算子
- 转换算子
- 执行算子
- 核心组件
- Master
- Worker
- Driver
- Executor
- 计算模型
- Application
- Job
- Stage
- TaskSet
- Task
- 运行机制
- RDD调度机制(Spark运行原理)
- 首先我们通过maven或者sbt等,将我们的应用以及其依赖的jar包完整的打包,利用spark-submit命令将jar提交到spark;
- 提交程序后会Master会根据我们的配置命令来决定我们Driver端的所在。如果是我们选用Client则是我们提交程序的节点,如果是Cluster则是由我们的Master进行分配节点。
- 程序会在worker节点中获得executor用来执行我们的任务;
- 在spark程序中每次RDD的action变换会产生一个新的job,每个job包含多个task;
- 而RDD在进行转换的时候会时候会生成不同的stage,而stage则组成了我们的DAG。
- task会被送往各个executor运行;
- 而最终的计算结果会回到driver节点进行汇总并输出(如reduceByKey)。
那些年我们玩过的Spark下的Standalone集群模型相关推荐
- spark (3)Spark Standalone集群安装介绍
(1)初学者对于spark的几个疑问 http://aperise.iteye.com/blog/2302481 (2)spark开发环境搭建 http://aperise.iteye.com/blo ...
- Java连接Spark Standalone集群
软件环境: spark-1.6.3-bin-hadoop2.6.hadoop-2.6.4.jdk1.7.0_67.IDEA14.1.5 : Hadoop集群采用伪分布式安装,运行过程中只启动HDFS: ...
- 向spark standalone集群提交任务
向spark standalone集群提交任务 文档链接 #切换到spark安装目录,执行下面一条命令,192.168.0.10是master的ip, examples/src/main/python ...
- Spark自带的集群模式(Standalone),Spark/Spark-ha集群搭建
1.Spark自带的集群模式 对于Spark自带的集群模式,Spark要先启动一个老大(Master),然后老大Master和各个小弟(Worker)进行通信,其中真正干活的是Worker下的Exec ...
- 在local模式下的spark程序打包到集群上运行
一.前期准备 前期的环境准备,在Linux系统下要有Hadoop系统,spark伪分布式或者分布式,具体的教程可以查阅我的这两篇博客: Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分 ...
- 本地提交spark_Spark在Windows下运行,本地提交spark到远程yarn集群
[问题]Spark在windows能跑集群模式吗? 我认为是可以的,但是需要详细了解cmd命令行的写法.目前win下跑spark的单机模式是没有问题的. [关键点]spark启动机制容易被window ...
- 搭建Spark Standalone集群
文章目录 零.学习目标 一.Spark Standalone架构 (一)client提交方式 (二)cluster提交方式 二.Spark集群拓扑 (一)集群角色分配 二.搭建三节点集群 (一)在私有 ...
- standalone集群模式
集群角色介绍 Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制. Standa ...
- 04_Flink-HA高可用、Standalone集群模式、Flink-Standalone集群重要参数详解、集群节点重启及扩容、启动组件、Flink on Yarn、启动命令等
1.4.Flink集群安装部署standalone+yarn 1.4.1.Standalone集群模式 1.4.2.Flink-Standalone集群重要参数详解 1.4.3.集群节点重启及扩容 1 ...
最新文章
- java停车管理系统中期检查_java毕业设计_springboot框架的停车场收费管理系统
- 为什么matplotlib显示opencv图像不正常
- c# 微服务学习_微服务:学习几个容易混淆的URL注解
- java 数组正则表达式_java正则表达式实现提取需要的字符并放入数组【ArrayList数组去重复功能】...
- linux 权限管理命令
- golang语言渐入佳境[29]-math包核心方法
- SqlBulkCopy批量插入数据
- 修改后的RSA 加密解密 可用于制作liscence
- mysql字符串拼接有空值_MySQL字符串拼接
- WDM驱动inf模板
- 东北大学《铸造工艺学》结课报告
- 基于GEE使用Landsat 8和Landsat 5影像进行分类
- java-net-php-python-23jspm在线学习设计计算机毕业设计程序
- 计算机组成与原理第三章答,计算机组成与原理第三章答案.doc
- uni-app 二维码生成器分享
- Anmle,Factors,andMultiFactorModels
- android自定义url协议,Android平台设置UrlSchemes,实现被第三方应用调用
- [USACO06NOV]玉米田Corn Fields
- python正则匹配任意字符_Python 正则表达式 匹配任意字符的写法
- linux里的chdir()