1、Spark解决的问题：

– 最大化利用内存cache （采用该多线程的方式）

– 中间结果放内存，加速迭代（内存计算下Spark比MapReduce约快100倍）

– 某结果集放内存，加速后续查询和处理，解决运行慢的问题

– 更丰富的API
（解决API单一问题）
– Transfomation变换的api，比如map可对每一行做变换，filter过滤出符合条件的行等，这些API实现用户算法
– spark提供很多转换和动作，很多基本操作如Join，GroupBy已经在RDD转换和动作中实现。不需用户自己实现

2.Spark的API

Spark运算过程：（一定会有Action，如果没有Action再多的Transformations也没有意义）
一个RDD可以有多个Action

3.完整作业描述

– 将用户的整个作业穿起来。关键是这3行。可以立即解释。不像mr那样，需要实现多个map和reduce脚本，解决MR缺乏作业流描述问题

//数据输入
val file = sc.textFile(hdfs://input)
//运算 这里的map可以利用通配符写成.map((_,1))
val counts = file.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey(_+_)
//输出
counts.saveAsTextFile(hdfs://output)

4.spark 体系架构

• Spark和Hadoop关系： Spark依赖于HDFS文
依赖于YARN计算框架
• Spark Core：基于RDD提供操作接口，利用
DAG进行统一的任务规划
• Spark SQL：Hive的表 + Spark的里。通过把
Hive的HQL转化为Spark DAG计算来实现
• Spark Streaming：Spark的流式计算框架
• MLIB：Spark的机器学习库，包含常用的机器
学习算法
• GraphX：Spark图并行操作库
件系统，如果是Spark on YARN部署模式，又
由于这些组件满足了很多大数据需求，也满足了很多数据科学任务的算法和计算上的需要，Spark快速流行起来。

Spark解决的问题与体系结构相关推荐

【Spark篇】---Spark解决数据倾斜问题
[Spark篇]---Spark解决数据倾斜问题参考文章: (1)[Spark篇]---Spark解决数据倾斜问题 (2)https://www.cnblogs.com/LHWorldBlog/p/ ...
应用Spark解决Kaggle数据科学问题
如何利用高性能分布式计算平台来解决现实问题一直是人们所关心的话题.近期,comSysto公司的Danial Bartl就分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spar ...
spark解决Illegal pattern component: XXX NoSuchFieldError: KRYO_SARG_BUFFER
spark读取csv.orc等文件异常 1 异常现象 spark读取csv.orc等文件出现解析异常 java.lang.IllegalArgumentException: Illegal p ...
Spark解决 System memory 259522560 must be at least 471859200
本地运行spark出现问题: 22/04/26 20:11:42 ERROR SparkContext: Error initializing SparkContext. java.lang.Ille ...
基于大数据的Uber数据实时监控（Part 4：Spark Streaming、DataFrames和HBase）
导言根据Gartner的数据,到2020年全球将有208亿个连接产品投入使用.Uber机器学习负责人Danny Lange的目标是将机器学习待到Uber业务的每个角落.连接事物的示例包括联网汽车和设 ...
spark更改分区_spark RDD分区是否可以指定分区
更多详细内容数据分区: 在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能. mapreduce框架的性能开支主要在io和网络传输,io因为要大量读写文件,它是不可避免的,但是网络传输 ...
Spark in meituan http://tech.meituan.com/spark-in-meituan.html
Spark在美团的实践忽略元数据末尾回到原数据开始处引言:Spark美团系列终于凑成三部曲了,Spark很强大应用很广泛, 文中Spark交互式开发平台和作业ETL模板的设计都很有启发借鉴意义. ...
Spark Core
Spark Core DAG概念有向无环图 Spark会根据用户提交的计算逻辑中的RDD的转换(变换方法)和动作(action方法)来生成RDD之间的依赖关系 ...
Spark在美团的实践
本文已发表在<程序员>杂志2016年4月期. 前言美团是数据驱动的互联网服务,用户每天在美团上的点击.浏览.下单支付行为都会产生海量的日志,这些日志数据将被汇总处理.分析.挖掘与学习,为 ...

Spark解决的问题与体系结构