目录

Spark框架概述

Spark 是什么

分布式内存迭代计算框架

官方定义:


Spark框架概述

Spark 是加州大学伯克利分校AMP实验室(Algorithms Machines and People Lab)开发的通用大数据出来框架。Spark生态栈也称为BDAS,是伯克利AMP实验室所开发的,力图在算法(Algorithms)、机器(Machines)和人(Person)三种之间通过大规模集成来展现大数据应用的一个开源平台。AMP实验室运用大数据、云计算等各种资源以及各种灵活的技术方案,对海量数据进行分析并转化为有用的信息,让人们更好地了解世界。

Spark的发展历史,经历过几大重要阶段,如下图所示:

Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校 AMPLab,2010 年开源, 2013年6月成为Apache孵化项目,2014年2月成为 Apache 顶级项目,用 Scala进行编写项目框架。

Spark 是什么

定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。

分布式内存迭代计算框架

官方网址:http://spark.apache.org/https://databricks.com/spark/about

 官方定义:

Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集(即 RDD)的概念,原文开头对其的解释是:

翻译过来就是:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做
内存运算,并且有一定的容错方式。而这也是整个 Spark 的核心数据结构,Spark 整个平
台都围绕着RDD进行。

2021年大数据Spark(一):框架概述相关推荐

  1. 网易惠惠购物助手:大数据实时更新框架概述

    一.需求是什么? 互联网中的许多应用都有数据实时更新的需求,比如网页搜索如何展示几分钟之前的新闻结果,购物搜索中价格.库存信息的实时更新.在大数据量的情况下,数据如何做到稳定及时的更新?本文以有道购物 ...

  2. 2021年大数据Spark(二十三):SparkSQL 概述

    目录 SparkSQL 概述 前世今生 Shark 框架-淘汰了 SparkSQL 模块 Hive 与 SparkSQL 官方定义 第一.针对结构化数据处理,属于Spark框架一个部分 第二.抽象数据 ...

  3. 2021年大数据Spark(四十二):SparkStreaming的Kafka快速回顾与整合说明

    目录 Kafka快速回顾 消息队列: 发布/订阅模式: Kafka 重要概念: 常用命令 整合说明 两种方式 两个版本API 在实际项目中,无论使用Storm还是SparkStreaming与Flin ...

  4. 2021年大数据Spark(二十七):SparkSQL案例一花式查询和案例二WordCount

    目录 案例一:花式查询 案例二:WordCount 基于DSL编程 基于SQL编程 具体演示代码如下: 案例一:花式查询 package cn.itcast.sqlimport org.apache. ...

  5. 2021年大数据Spark(三十一):Spark On Hive

    目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发展历 ...

  6. 2021年大数据Spark(四十四):Structured Streaming概述

    Apache Spark在2016年的时候启动了Structured Streaming项目,一个基于Spark SQL的全新流计算引擎Structured Streaming,让用户像编写批处理程序 ...

  7. 2021年大数据Spark(五十二):Structured Streaming 事件时间窗口分析

    目录 事件时间窗口分析 时间概念 ​​​​​​​event-time ​​​​​​​延迟数据处理 ​​​​​​​延迟数据 ​​​​​​​Watermarking 水位 ​​​​​​​官方案例演示 事件 ...

  8. 2021年大数据Spark(四十九):Structured Streaming 整合 Kafka

    目录 整合 Kafka 说明 Kafka特定配置 ​​​​​​​KafkaSoure 1.消费一个Topic数据 2.消费多个Topic数据 3.消费通配符匹配Topic数据 ​​​​​​​Kafka ...

  9. 2021年大数据Spark(三十三):SparkSQL分布式SQL引擎

    目录 分布式SQL引擎 Hive的SQL交互方式 ThriftServer JDBC/ODBC Server 开启sparksql的thriftserver 使用beeline 客户端连接 JDBC/ ...

最新文章

  1. 名图怎么弄云服务器_云服务器购买了宽带的速度怎么测试?
  2. 杨桃32开发版最小核心板和底板接口定义以及各io口功能
  3. 安装华为T2000软件,无法初始化MS SQL 2000问题解决办法
  4. 猜猜乐游戏php源码,C/C++百行代码实现热门游戏消消乐功能的示例代码
  5. Mac下批量删除.svn文件
  6. 767 重构字符串_重构字符串型系统
  7. 高并发面试 - 如何设计一个高并发系统?
  8. go 并发的非阻塞缓存
  9. xlwings,让excel飞起来!
  10. Python3基本数据类型(一、数字类型)
  11. 元胞自动机及其MATLAB实例
  12. 前端常用的JavaScript 库和框架(一)
  13. 小甲鱼 C语言 15课
  14. 酒店IPTV数字电视系统解决方案
  15. S3C2410 通用异步收发UART 串口通信
  16. 计算机无法连接steam,无法连接至steam网络怎么办 无法连接至steam网络解决方法【图文】...
  17. OS实验-模拟实现首次/最佳/最坏适应算法的内存块分配和回收
  18. 什么是安全性测试(security testing)?
  19. 中医药暑假训练赛三 c题 题解 (多重背包问题)
  20. 2022-2023 通信工程专业毕业设计题目选题推荐 - 100例

热门文章

  1. 力扣解题——求根到叶子节点数字之和
  2. 2022-2028年中国激光切管机行业市场研究及前瞻分析报告
  3. Spring中启用Hibernate二级缓存步骤
  4. 数据结构(03)— 数据处理基本操作(数据的查找、新增、删除、修改)
  5. linux 文件查找与文件中注释去除
  6. centos7samba服务的搭建
  7. LeetCode简单题之矩阵对角线元素的和
  8. Structured Streaming编程 Programming Guide
  9. 自然语言推理:使用注意力机制
  10. 将HLSL射线追踪到Vulkan