Spark（火花）快速、通用的大数据处理引擎框架

一、什么是Spark（火花）？

是一种快速、通用处理大数据分析的框架引擎。

二、Spark的四大特性

1.快速：
Spark内存上采用DAG（有向无环图）执行引擎非循环数据流和内存计算支持。内存上比MapReduce快速100倍，磁盘上快10倍左右

MapReduce存储读取在磁盘上，大数据批量处理系统

2.简洁性

编程起来很简单，Spark由Scala编写，方法式操作

Scala-Python-java

3.通用性

一站式相当于JAR包，结合SQL、流、库、图形、Apache Spark

4.运行方式环境

单独运行集群 hadoop 云端

Spark与MapReduce（数据的处理引擎）的相比的区别？

1.基本原理

MapReduce是基于磁盘的大数据批量处理系统

Spark：基于RDD（弹性分布式数据处理集）数据处理，显式的将RDD数据存储到磁盘或者内存中

2.从模型上

MapReduce可以处理批量数据，适用于日志分析挖掘

Spark适合数据的挖掘

3.容错性

a）数据的容错性:

b)节点的容错性：spark lineage

Spark的编译

1.SBT编译 --scala编译

2.maven编译

安装jdk

下载地址：www.oracle.com/technetwork/java/javase/downloads/jdk9-downloads-3848520.html

安装maven

下载地址：maven.apache.org/download.cgi

2、配置环境变量

# sudo vim /etc/profile

JAVA_HOME=/opt/data02/jdk-9.0.1
CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin
export JAVA_HOME JRE_HOME CLASS_PATH PATH

MAVEN_HOME=/opt/data02/apache-maven-3.5.2
PATH=$PATH:$MAVEN_HOME/bin

#SCALA
SCALA_HOME=/opt/data02/SCALA
PATH=$PATH:$SCALA_HOME/bin

3、使配置文件立即生效

source /etc/profile

需要FQ的两个注意事项

1.sudo vi /etc/resolv.conf 添加

nameserver 8.8.8.8

nameserver 8.8.4.4

2.在maven 的setting.xml中添加

<mirror>
            <id>osc_thirdparty</id>
            <mirrorOf>thirdparty</mirrorOf>
            <url>http://maven.oschina.net/content/repositories/thirdparty/</url>
        </mirror>

3.打包编译

检测语言世界语中文简体中文繁体丹麦语乌克兰语乌兹别克语乌尔都语亚美尼亚语伊博语俄语保加利亚语僧伽罗语克罗地亚语冰岛语加利西亚语加泰罗尼亚语匈牙利语南非祖鲁语卡纳达语印地语印尼巽他语印尼爪哇语印尼语古吉拉特语哈萨克语土耳其语塔吉克语塞尔维亚语塞索托语威尔士语孟加拉语宿务语尼泊尔语巴斯克语布尔语(南非荷兰语)希伯来语希腊语德语意大利语意第绪语拉丁语拉脱维亚语挪威语捷克语斯洛伐克语斯洛文尼亚语斯瓦希里语旁遮普语日语格鲁吉亚语毛利语法语波兰语波斯尼亚语波斯语泰卢固语泰米尔语泰语海地克里奥尔语爱尔兰语爱沙尼亚语瑞典语白俄罗斯语立陶宛语索马里语约鲁巴语缅甸语罗马尼亚语老挝语芬兰语苗语英语荷兰语菲律宾语葡萄牙语蒙古语西班牙语豪萨语越南语阿塞拜疆语阿尔巴尼亚语阿拉伯语韩语马其顿语马尔加什语马拉地语马拉雅拉姆语马来语马耳他语高棉语齐切瓦语

世界语中文简体中文繁体丹麦语乌克兰语乌兹别克语乌尔都语亚美尼亚语伊博语俄语保加利亚语僧伽罗语克罗地亚语冰岛语加利西亚语加泰罗尼亚语匈牙利语南非祖鲁语卡纳达语印地语印尼巽他语印尼爪哇语印尼语古吉拉特语哈萨克语土耳其语塔吉克语塞尔维亚语塞索托语威尔士语孟加拉语宿务语尼泊尔语巴斯克语布尔语(南非荷兰语)希伯来语希腊语德语意大利语意第绪语拉丁语拉脱维亚语挪威语捷克语斯洛伐克语斯洛文尼亚语斯瓦希里语旁遮普语日语格鲁吉亚语毛利语法语波兰语波斯尼亚语波斯语泰卢固语泰米尔语泰语海地克里奥尔语爱尔兰语爱沙尼亚语瑞典语白俄罗斯语立陶宛语索马里语约鲁巴语缅甸语罗马尼亚语老挝语芬兰语苗语英语荷兰语菲律宾语葡萄牙语蒙古语西班牙语豪萨语越南语阿塞拜疆语阿尔巴尼亚语阿拉伯语韩语马其顿语马尔加什语马拉地语马拉雅拉姆语马来语马耳他语高棉语齐切瓦语

文本转语音功能仅限200个字符

选项 : 历史 : 反馈 : Donate

关闭

转载于:https://www.cnblogs.com/gyadmin/p/8258227.html

Spark（火花）快速、通用的大数据处理引擎框架相关推荐

一文带你彻底了解大数据处理引擎Flink内存管理
摘要: Flink是jvm之上的大数据处理引擎. Flink是jvm之上的大数据处理引擎,jvm存在java对象存储密度低.full gc时消耗性能,gc存在stw的问题,同时omm时会影响稳定性.同 ...
新一代大数据处理引擎 Apache Flink
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河,也以内存为赌注,赢得了 ...
下一代大数据处理引擎，阿里云实时计算独享模式重磅发布
11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级. 独享模式优点更加突 ...
下一代大数据处理引擎，阿里云实时计算独享模式重磅发布 1
摘要: 11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级.(观看实时计 ...
【视频课】快速掌握6大模型部署框架(Pytorch+NCNN+MNN+Tengine+TensorRT+微信小程序)！...
前言欢迎大家关注有三AI的视频课程系列,我们的视频课程系列共分为5层境界,内容和学习路线图如下: 第1层:掌握学习算法必要的预备知识,包括Python编程,深度学习基础,数据使用,框架使用. 第2层 ...
【视频课】快速掌握5大模型部署框架(NCNN+MNN+Tengine+TensorRT+微信小程序)
前言欢迎大家关注有三AI的视频课程系列,我们的视频课程系列共分为5层境界,内容和学习路线图如下: 第1层:掌握学习算法必要的预备知识,包括Python编程,深度学习基础,数据使用,框架使用. 第2层 ...
想学大数据？大数据处理的开源框架推荐
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文讨论大数据处理生态系统和相关的架构栈,包括对适应于不同任务的多种框架特性的调研.除此之外,文章还从多个层次对框架进行深入研究,如存储,资 ...
【2017年第1期】智慧城市多源异构大数据处理框架
刘岩1,王华2,秦叶阳3,朱兴杰1 1. 泰康保险集团股份有限公司数据信息中心,北京 102206 2. 中国人民大学,北京 100872 3. 北京大学,北京 100871 摘要:智慧城市建设 ...
为什么Flink会成为下一代大数据处理框架的标准？
导读:本文将告诉你Flink是什么,以及为什么Flink会成为下一代大数据处理框架的标准. 作者:张利兵如需转载请联系大数据(ID:hzdashuju) 01 什么是Flink? 在当前数据量激增传 ...

Spark（火花）快速、通用的大数据处理引擎框架

Spark（火花）快速、通用的大数据处理引擎框架相关推荐

最新文章

热门文章