spark在离线计算方面可以类比于mapreduce,它完美的运用内存来进行计算,效率比mapreduce要高得多。
在spark这个大框架下,spark-core和sparksql都是处理离线数据的,但是明显要比mapreduce要快得多。而sparkstreaming是一个准实时(不是立刻处理,而是有一个batch,间隔一段时间后再获取数据)的对数据流处理框架,仅仅比storm和flink这样来一条就立刻处理一条的框架慢一些。
RDD(弹性分布式数据集)
spark中操作的数据最终都会转成对RDD的操作,RDD会在多个节点上进行保存,RDD也像HDFS那样,会切分成几个partition,就像hdfs里的数据被切分成block那样。
ps:RDD是不可变的,如果要对RDD进行修改,RDD会保存出一个新的RDD,而不会在原来的RDD上直接进行修改,这样在新的RDD丢失时,可以回退到上一个RDD重新进行数据处理。
在启动之前,一定要开启hdfs服务和yarn服务,启动Spark,先加入到环境变量中,随后输入pyspark即可启动:

Spark(1)——spark基本原理与启动相关推荐

  1. Spark On Yarn基本原理及部署

    文章目录 Spark On Yarn基本原理 Spark On Yarn架构图 Spark On Yarn部署及测试 Spark On Yarn基本原理 对于企业来说,如果在已有的Yarn群集的前提下 ...

  2. spark笔记spark优化

    基本概念(Basic Concepts) RDD - resillient distributed dataset 弹性分布式数据集 Operation - 作用于RDD的各种操作分为transfor ...

  3. Spark之 spark简介、生态圈详解

    来源:http://www.cnblogs.com/shishanyuan/p/4700615.html 1.简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorith ...

  4. Spark之Spark角色介绍及运行模式

    Spark之Spark角色介绍及运行模式 集群角色 运行模式 1. 集群模式 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点: Master节点主要运行集群 ...

  5. Hive on Spark和Spark sql on Hive,你能分的清楚么

    摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...

  6. 外部数据源 之 Plugin 可插拔的方式整合到Spark中/Spark源码中

    一:概念理解 Plugin 可插拔的方式整合到Spark中/Spark源码中 为了在用外部数据源读取文件的时候,本来读取是valui 使他变成一个带schema的df 有具体的信息 外部数据源就是把很 ...

  7. Spark认知Spark环境搭建

    Spark认知&Spark环境搭建 1 Spark认知篇 1.1 什么是Spark? 1.2 Spark 特点 1.2.1 快 1.2.2 易用 1.2.3 通用 1.2.4 兼容性 1.3 ...

  8. 大数据入门之分布式计算框架Spark(2) -- Spark SQL

    1.Spark SQL概述 一个运行在Spark上执行sql的处理框架,可以用来处理结构化的数据[外部数据源(访问hive.json.parquet等文件的数据)]. Spark SQL提供了SQL的 ...

  9. 大数据入门之分布式计算框架Spark(3) -- Spark Streaming

    1.概述 Spark Streaming将不同的数据源,经过处理之后,结果输出到外部文件系统. 特点:低延时:能从错误中高效地恢复过来:能够运行在成百上千的节点上:能够将批处理.机器学习.图计算等子框 ...

  10. Spark系列—spark简介

    最近比较空,总结一下spark相关的知识. 一.Spark简介 spark是一种大规模数据处理的统一分析引擎,且基于内存计算的大数据并行计算框架.具有如下特性: 1.高效性 体现在内存存储中间计算结果 ...

最新文章

  1. 微软日本每周只上四天班,销售额提升39.9%!网友:老板快来看啊
  2. C# 使用正则表达式去掉字符串中的数字
  3. Halcon知识 : 乘法图像融合
  4. Windows Phone开发(35):使用Express Blend绘图 转:http://blog.csdn.net/tcjiaan/article/details/7493010...
  5. 134. 加油站(贪心算法)
  6. VS code配置c环境
  7. SAP FICO与金蝶财务软件的区别
  8. [react] 举例说明如何在React创建一个事件
  9. 破解缝隙之谜[转载自 http://learning.artech.cn/]
  10. PAT 乙级1014 福尔摩斯的约会(C语言)
  11. 中航信e-build php,学习PHP精粹,编写高效PHP代码之质量保证
  12. 【嵌入式C语言系列】关键字详解【const】
  13. 【Android】使用deviceowner 配置手机设置 (Monkey自动化测试删去状态栏、设定输入法、静音、APP自动权限授予、Kiosk模式打开)
  14. lizzieyzy使用智星云GPU算力
  15. 成功者根本没有告诉你故事的全部 (转文)
  16. C++ opencv viz位姿可视化
  17. 关于游戏开发,如何开发一款游戏(基于unity)
  18. LINUX IIO子系统分析之六 iio device的驱动开发流程说明
  19. 银行ATM登录管理系统(最简版)
  20. 数学之美,C++之美,代码之美

热门文章

  1. ArrayList的实现原理
  2. spring AOP解析之xml方式详解
  3. 《OpenGL超级宝典》编程环境配置
  4. 10.30 NFLS-NOIP模拟赛 解题报告
  5. Oracle 常用dump命令
  6. 牛客网(剑指offer) 第三题 输入一个链表,从尾到头打印链表每个节点的值。
  7. linux二进制文件构建mysql_linux上二进制部署mysql详细步骤(测试环境常用)
  8. [Python人工智能] 三十四.Bert模型 (3)keras-bert库构建Bert模型实现微博情感分析
  9. [数据库] Navicat for MySQL换种思维解决插入同时更新数据
  10. Git内部原理之深入解析维护与数据恢复