Spark(1)——spark基本原理与启动
spark在离线计算方面可以类比于mapreduce,它完美的运用内存来进行计算,效率比mapreduce要高得多。
在spark这个大框架下,spark-core和sparksql都是处理离线数据的,但是明显要比mapreduce要快得多。而sparkstreaming是一个准实时(不是立刻处理,而是有一个batch,间隔一段时间后再获取数据)的对数据流处理框架,仅仅比storm和flink这样来一条就立刻处理一条的框架慢一些。
RDD(弹性分布式数据集)
spark中操作的数据最终都会转成对RDD的操作,RDD会在多个节点上进行保存,RDD也像HDFS那样,会切分成几个partition,就像hdfs里的数据被切分成block那样。
ps:RDD是不可变的,如果要对RDD进行修改,RDD会保存出一个新的RDD,而不会在原来的RDD上直接进行修改,这样在新的RDD丢失时,可以回退到上一个RDD重新进行数据处理。
在启动之前,一定要开启hdfs服务和yarn服务,启动Spark,先加入到环境变量中,随后输入pyspark即可启动:
Spark(1)——spark基本原理与启动相关推荐
- Spark On Yarn基本原理及部署
文章目录 Spark On Yarn基本原理 Spark On Yarn架构图 Spark On Yarn部署及测试 Spark On Yarn基本原理 对于企业来说,如果在已有的Yarn群集的前提下 ...
- spark笔记spark优化
基本概念(Basic Concepts) RDD - resillient distributed dataset 弹性分布式数据集 Operation - 作用于RDD的各种操作分为transfor ...
- Spark之 spark简介、生态圈详解
来源:http://www.cnblogs.com/shishanyuan/p/4700615.html 1.简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorith ...
- Spark之Spark角色介绍及运行模式
Spark之Spark角色介绍及运行模式 集群角色 运行模式 1. 集群模式 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点: Master节点主要运行集群 ...
- Hive on Spark和Spark sql on Hive,你能分的清楚么
摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...
- 外部数据源 之 Plugin 可插拔的方式整合到Spark中/Spark源码中
一:概念理解 Plugin 可插拔的方式整合到Spark中/Spark源码中 为了在用外部数据源读取文件的时候,本来读取是valui 使他变成一个带schema的df 有具体的信息 外部数据源就是把很 ...
- Spark认知Spark环境搭建
Spark认知&Spark环境搭建 1 Spark认知篇 1.1 什么是Spark? 1.2 Spark 特点 1.2.1 快 1.2.2 易用 1.2.3 通用 1.2.4 兼容性 1.3 ...
- 大数据入门之分布式计算框架Spark(2) -- Spark SQL
1.Spark SQL概述 一个运行在Spark上执行sql的处理框架,可以用来处理结构化的数据[外部数据源(访问hive.json.parquet等文件的数据)]. Spark SQL提供了SQL的 ...
- 大数据入门之分布式计算框架Spark(3) -- Spark Streaming
1.概述 Spark Streaming将不同的数据源,经过处理之后,结果输出到外部文件系统. 特点:低延时:能从错误中高效地恢复过来:能够运行在成百上千的节点上:能够将批处理.机器学习.图计算等子框 ...
- Spark系列—spark简介
最近比较空,总结一下spark相关的知识. 一.Spark简介 spark是一种大规模数据处理的统一分析引擎,且基于内存计算的大数据并行计算框架.具有如下特性: 1.高效性 体现在内存存储中间计算结果 ...
最新文章
- 微软日本每周只上四天班,销售额提升39.9%!网友:老板快来看啊
- C# 使用正则表达式去掉字符串中的数字
- Halcon知识 : 乘法图像融合
- Windows Phone开发(35):使用Express Blend绘图 转:http://blog.csdn.net/tcjiaan/article/details/7493010...
- 134. 加油站(贪心算法)
- VS code配置c环境
- SAP FICO与金蝶财务软件的区别
- [react] 举例说明如何在React创建一个事件
- 破解缝隙之谜[转载自 http://learning.artech.cn/]
- PAT 乙级1014	福尔摩斯的约会(C语言)
- 中航信e-build php,学习PHP精粹,编写高效PHP代码之质量保证
- 【嵌入式C语言系列】关键字详解【const】
- 【Android】使用deviceowner 配置手机设置 (Monkey自动化测试删去状态栏、设定输入法、静音、APP自动权限授予、Kiosk模式打开)
- lizzieyzy使用智星云GPU算力
- 成功者根本没有告诉你故事的全部 (转文)
- C++ opencv viz位姿可视化
- 关于游戏开发,如何开发一款游戏(基于unity)
- LINUX IIO子系统分析之六 iio device的驱动开发流程说明
- 银行ATM登录管理系统(最简版)
- 数学之美,C++之美,代码之美
热门文章
- ArrayList的实现原理
- spring AOP解析之xml方式详解
- 《OpenGL超级宝典》编程环境配置
- 10.30 NFLS-NOIP模拟赛 解题报告
- Oracle 常用dump命令
- 牛客网(剑指offer) 第三题 输入一个链表,从尾到头打印链表每个节点的值。
- linux二进制文件构建mysql_linux上二进制部署mysql详细步骤(测试环境常用)
- [Python人工智能] 三十四.Bert模型 (3)keras-bert库构建Bert模型实现微博情感分析
- [数据库] Navicat for MySQL换种思维解决插入同时更新数据
- Git内部原理之深入解析维护与数据恢复