Spark(火花)快速、通用的大数据处理引擎框架
一、什么是Spark(火花)?
是一种快速、通用处理大数据分析的框架引擎。
二、Spark的四大特性
1.快速:
Spark内存上采用DAG(有向无环图)执行引擎非循环数据流和内存计算支持。 内存上比MapReduce快速100倍,磁盘上快10倍左右
MapReduce存储读取在磁盘上,大数据批量处理系统
2.简洁性
编程起来很简单,Spark由Scala编写,方法式操作
Scala-Python-java
3.通用性
一站式相当于JAR包,结合SQL、流、库、图形、Apache Spark
4.运行方式环境
单独运行 集群 hadoop 云端
Spark与MapReduce(数据的处理引擎)的相比的区别?
1.基本原理
MapReduce是基于磁盘的大数据批量处理系统
Spark:基于RDD(弹性分布式数据处理集)数据处理,显式的将RDD数据存储到磁盘或者内存中
2.从模型上
MapReduce可以处理批量数据,适用于日志分析挖掘
Spark适合数据的挖掘
3.容错性
a)数据的容错性:
b)节点的容错性:spark lineage
Spark的编译
1.SBT编译 --scala编译
2.maven编译
安装jdk
下载地址:www.oracle.com/technetwork/java/javase/downloads/jdk9-downloads-3848520.html
安装maven
下载地址:maven.apache.org/download.cgi
2、配置环境变量
# sudo vim /etc/profile
JAVA_HOME=/opt/data02/jdk-9.0.1
CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin
export JAVA_HOME JRE_HOME CLASS_PATH PATH
MAVEN_HOME=/opt/data02/apache-maven-3.5.2
PATH=$PATH:$MAVEN_HOME/bin
#SCALA
SCALA_HOME=/opt/data02/SCALA
PATH=$PATH:$SCALA_HOME/bin
3、使配置文件立即生效
source /etc/profile
需要FQ的两个注意事项
1.sudo vi /etc/resolv.conf 添加
nameserver 8.8.8.8
nameserver 8.8.4.4
2.在maven 的setting.xml中添加
<mirror>
<id>osc_thirdparty</id>
<mirrorOf>thirdparty</mirrorOf>
<url>http://maven.oschina.net/content/repositories/thirdparty/</url>
</mirror>
3.打包编译
检测语言世界语中文简体中文繁体丹麦语乌克兰语乌兹别克语乌尔都语亚美尼亚语伊博语俄语保加利亚语僧伽罗语克罗地亚语冰岛语加利西亚语加泰罗尼亚语匈牙利语南非祖鲁语卡纳达语印地语印尼巽他语印尼爪哇语印尼语古吉拉特语哈萨克语土耳其语塔吉克语塞尔维亚语塞索托语威尔士语孟加拉语宿务语尼泊尔语巴斯克语布尔语(南非荷兰语)希伯来语希腊语德语意大利语意第绪语拉丁语拉脱维亚语挪威语捷克语斯洛伐克语斯洛文尼亚语斯瓦希里语旁遮普语日语格鲁吉亚语毛利语法语波兰语波斯尼亚语波斯语泰卢固语泰米尔语泰语海地克里奥尔语爱尔兰语爱沙尼亚语瑞典语白俄罗斯语立陶宛语索马里语约鲁巴语缅甸语罗马尼亚语老挝语芬兰语苗语英语荷兰语菲律宾语葡萄牙语蒙古语西班牙语豪萨语越南语阿塞拜疆语阿尔巴尼亚语阿拉伯语韩语马其顿语马尔加什语马拉地语马拉雅拉姆语马来语马耳他语高棉语齐切瓦语 | 世界语中文简体中文繁体丹麦语乌克兰语乌兹别克语乌尔都语亚美尼亚语伊博语俄语保加利亚语僧伽罗语克罗地亚语冰岛语加利西亚语加泰罗尼亚语匈牙利语南非祖鲁语卡纳达语印地语印尼巽他语印尼爪哇语印尼语古吉拉特语哈萨克语土耳其语塔吉克语塞尔维亚语塞索托语威尔士语孟加拉语宿务语尼泊尔语巴斯克语布尔语(南非荷兰语)希伯来语希腊语德语意大利语意第绪语拉丁语拉脱维亚语挪威语捷克语斯洛伐克语斯洛文尼亚语斯瓦希里语旁遮普语日语格鲁吉亚语毛利语法语波兰语波斯尼亚语波斯语泰卢固语泰米尔语泰语海地克里奥尔语爱尔兰语爱沙尼亚语瑞典语白俄罗斯语立陶宛语索马里语约鲁巴语缅甸语罗马尼亚语老挝语芬兰语苗语英语荷兰语菲律宾语葡萄牙语蒙古语西班牙语豪萨语越南语阿塞拜疆语阿尔巴尼亚语阿拉伯语韩语马其顿语马尔加什语马拉地语马拉雅拉姆语马来语马耳他语高棉语齐切瓦语 |
选项 : 历史 : 反馈 : Donate | 关闭 |
转载于:https://www.cnblogs.com/gyadmin/p/8258227.html
Spark(火花)快速、通用的大数据处理引擎框架相关推荐
- 一文带你彻底了解大数据处理引擎Flink内存管理
摘要: Flink是jvm之上的大数据处理引擎. Flink是jvm之上的大数据处理引擎,jvm存在java对象存储密度低.full gc时消耗性能,gc存在stw的问题,同时omm时会影响稳定性.同 ...
- 新一代大数据处理引擎 Apache Flink
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河,也以内存为赌注,赢得了 ...
- 下一代大数据处理引擎,阿里云实时计算独享模式重磅发布
11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级. 独享模式优点更加突 ...
- 下一代大数据处理引擎,阿里云实时计算独享模式重磅发布 1
摘要: 11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级.(观看实时计 ...
- 【视频课】快速掌握6大模型部署框架(Pytorch+NCNN+MNN+Tengine+TensorRT+微信小程序)!...
前言 欢迎大家关注有三AI的视频课程系列,我们的视频课程系列共分为5层境界,内容和学习路线图如下: 第1层:掌握学习算法必要的预备知识,包括Python编程,深度学习基础,数据使用,框架使用. 第2层 ...
- 【视频课】快速掌握5大模型部署框架(NCNN+MNN+Tengine+TensorRT+微信小程序)
前言 欢迎大家关注有三AI的视频课程系列,我们的视频课程系列共分为5层境界,内容和学习路线图如下: 第1层:掌握学习算法必要的预备知识,包括Python编程,深度学习基础,数据使用,框架使用. 第2层 ...
- 想学大数据?大数据处理的开源框架推荐
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文讨论大数据处理生态系统和相关的架构栈,包括对适应于不同任务的多种框架特性的调研.除此之外,文章还从多个层次对框架进行深入研究,如存储,资 ...
- 【2017年第1期】智慧城市多源异构大数据处理框架
刘岩1,王华2,秦叶阳3,朱兴杰1 1. 泰康保险集团股份有限公司数据信息中心,北京 102206 2. 中国人民大学,北京 100872 3. 北京大学,北京 100871 摘要:智慧城市建设 ...
- 为什么Flink会成为下一代大数据处理框架的标准?
导读:本文将告诉你Flink是什么,以及为什么Flink会成为下一代大数据处理框架的标准. 作者:张利兵 如需转载请联系大数据(ID:hzdashuju) 01 什么是Flink? 在当前数据量激增传 ...
最新文章
- soapUi 接口测试
- sql server 查看磁盘可用空间
- 【Android Gradle 插件】ProductFlavor 配置 ( ProductFlavor#manifestPlaceholders 清单文件占位符配置 )
- MySQL 数据库 InnoDB 和 MyISAM 数据引擎的差别
- 《统计学》学习笔记之时间序列分析和预测
- 低级键盘钩子 DLL
- java过去配置文件的值_java对.properties配置文件操作
- android 获取已安装 错误代码,android获取手机已经安装的app信息
- Qt学习之Qt基础入门(中)
- Python: classmethod staticmethod 区别
- 类似select下拉选择框同时又支持手动输入的元素 datalist 介绍。
- jmeter报告分析工具
- 微信背后的产品观 - 张小龙内部8小时演讲
- phpQuery 无法解析 html 结构
- 移动app抓包工具——fiddler抓包指南
- 虚拟机ipv4和6都没访问权限_无线网络连接 ipv4/6都无网络访问权限该怎么解决
- LBM学习讨论群推荐
- CSS中的边框与内边距外边距
- 【Multisim仿真】运放电路:反相比例运算电路
- idea解决快捷键冲突,自定义快捷键,常用快捷键