2021年大数据Spark(一):框架概述
目录
Spark框架概述
Spark 是什么
分布式内存迭代计算框架
官方定义:
Spark框架概述
Spark 是加州大学伯克利分校AMP实验室(Algorithms Machines and People Lab)开发的通用大数据出来框架。Spark生态栈也称为BDAS,是伯克利AMP实验室所开发的,力图在算法(Algorithms)、机器(Machines)和人(Person)三种之间通过大规模集成来展现大数据应用的一个开源平台。AMP实验室运用大数据、云计算等各种资源以及各种灵活的技术方案,对海量数据进行分析并转化为有用的信息,让人们更好地了解世界。
Spark的发展历史,经历过几大重要阶段,如下图所示:
Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校 AMPLab,2010 年开源, 2013年6月成为Apache孵化项目,2014年2月成为 Apache 顶级项目,用 Scala进行编写项目框架。
Spark 是什么
定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。
分布式内存迭代计算框架
官方网址:http://spark.apache.org/、https://databricks.com/spark/about
官方定义:
Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集(即 RDD)的概念,原文开头对其的解释是:
翻译过来就是:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做
内存运算,并且有一定的容错方式。而这也是整个 Spark 的核心数据结构,Spark 整个平
台都围绕着RDD进行。
2021年大数据Spark(一):框架概述相关推荐
- 网易惠惠购物助手:大数据实时更新框架概述
一.需求是什么? 互联网中的许多应用都有数据实时更新的需求,比如网页搜索如何展示几分钟之前的新闻结果,购物搜索中价格.库存信息的实时更新.在大数据量的情况下,数据如何做到稳定及时的更新?本文以有道购物 ...
- 2021年大数据Spark(二十三):SparkSQL 概述
目录 SparkSQL 概述 前世今生 Shark 框架-淘汰了 SparkSQL 模块 Hive 与 SparkSQL 官方定义 第一.针对结构化数据处理,属于Spark框架一个部分 第二.抽象数据 ...
- 2021年大数据Spark(四十二):SparkStreaming的Kafka快速回顾与整合说明
目录 Kafka快速回顾 消息队列: 发布/订阅模式: Kafka 重要概念: 常用命令 整合说明 两种方式 两个版本API 在实际项目中,无论使用Storm还是SparkStreaming与Flin ...
- 2021年大数据Spark(二十七):SparkSQL案例一花式查询和案例二WordCount
目录 案例一:花式查询 案例二:WordCount 基于DSL编程 基于SQL编程 具体演示代码如下: 案例一:花式查询 package cn.itcast.sqlimport org.apache. ...
- 2021年大数据Spark(三十一):Spark On Hive
目录 Spark On Hive spark-sql中集成Hive Spark代码中集成Hive Spark On Hive Spark SQL模块从发展来说,从Apache Hive框架而来,发展历 ...
- 2021年大数据Spark(四十四):Structured Streaming概述
Apache Spark在2016年的时候启动了Structured Streaming项目,一个基于Spark SQL的全新流计算引擎Structured Streaming,让用户像编写批处理程序 ...
- 2021年大数据Spark(五十二):Structured Streaming 事件时间窗口分析
目录 事件时间窗口分析 时间概念 event-time 延迟数据处理 延迟数据 Watermarking 水位 官方案例演示 事件 ...
- 2021年大数据Spark(四十九):Structured Streaming 整合 Kafka
目录 整合 Kafka 说明 Kafka特定配置 KafkaSoure 1.消费一个Topic数据 2.消费多个Topic数据 3.消费通配符匹配Topic数据 Kafka ...
- 2021年大数据Spark(三十三):SparkSQL分布式SQL引擎
目录 分布式SQL引擎 Hive的SQL交互方式 ThriftServer JDBC/ODBC Server 开启sparksql的thriftserver 使用beeline 客户端连接 JDBC/ ...
最新文章
- 名图怎么弄云服务器_云服务器购买了宽带的速度怎么测试?
- 杨桃32开发版最小核心板和底板接口定义以及各io口功能
- 安装华为T2000软件,无法初始化MS SQL 2000问题解决办法
- 猜猜乐游戏php源码,C/C++百行代码实现热门游戏消消乐功能的示例代码
- Mac下批量删除.svn文件
- 767 重构字符串_重构字符串型系统
- 高并发面试 - 如何设计一个高并发系统?
- go 并发的非阻塞缓存
- xlwings,让excel飞起来!
- Python3基本数据类型(一、数字类型)
- 元胞自动机及其MATLAB实例
- 前端常用的JavaScript 库和框架(一)
- 小甲鱼 C语言 15课
- 酒店IPTV数字电视系统解决方案
- S3C2410 通用异步收发UART 串口通信
- 计算机无法连接steam,无法连接至steam网络怎么办 无法连接至steam网络解决方法【图文】...
- OS实验-模拟实现首次/最佳/最坏适应算法的内存块分配和回收
- 什么是安全性测试(security testing)?
- 中医药暑假训练赛三 c题 题解 (多重背包问题)
- 2022-2023 通信工程专业毕业设计题目选题推荐 - 100例