Spark解决的问题与体系结构

  • 1、Spark解决的问题:
  • 2.Spark的API
  • 3.完整作业描述
  • 4.spark 体系架构

1、Spark解决的问题:

– 最大化利用内存cache (采用该多线程的方式)

– 中间结果放内存,加速迭代(内存计算下Spark比MapReduce约快100倍)

– 某结果集放内存,加速后续查询和处理,解决运行慢的问题

– 更丰富的API
(解决API单一问题)
– Transfomation变换的api,比如map可对每一行做变换,filter过滤出符合条件的行等,这些API实现用户算法
– spark提供很多转换和动作,很多基本操作如Join,GroupBy已经在RDD转换和动作中实现。不需用户自己实现

2.Spark的API

Spark运算过程:(一定会有Action,如果没有Action再多的Transformations也没有意义)
一个RDD可以有多个Action

3.完整作业描述

– 将用户的整个作业穿起来。关键是这3行。可以立即解释。不像mr那样,需要实现多个map和reduce脚本,解决MR缺乏作业流描述问题

//数据输入
val file = sc.textFile(hdfs://input)
//运算 这里的map可以利用通配符写成.map((_,1))
val counts = file.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey(_+_)
//输出
counts.saveAsTextFile(hdfs://output)

4.spark 体系架构

• Spark和Hadoop关系: Spark依赖于HDFS文
依赖于YARN计算框架
• Spark Core:基于RDD提供操作接口,利用
DAG进行统一的任务规划
• Spark SQL:Hive的表 + Spark的里。通过把
Hive的HQL转化为Spark DAG计算来实现
• Spark Streaming:Spark的流式计算框架
• MLIB:Spark的机器学习库,包含常用的机器
学习算法
• GraphX:Spark图并行操作库
件系统,如果是Spark on YARN部署模式,又
由于这些组件满足了很多大数据需求,也满足了很多数据科学任务的算法和计算上的需要,Spark快速流行起来。

Spark解决的问题与体系结构相关推荐

  1. 【Spark篇】---Spark解决数据倾斜问题

    [Spark篇]---Spark解决数据倾斜问题 参考文章: (1)[Spark篇]---Spark解决数据倾斜问题 (2)https://www.cnblogs.com/LHWorldBlog/p/ ...

  2. 应用Spark解决Kaggle数据科学问题

    如何利用高性能分布式计算平台来解决现实问题一直是人们所关心的话题.近期,comSysto公司的Danial Bartl就分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spar ...

  3. spark解决Illegal pattern component: XXX NoSuchFieldError: KRYO_SARG_BUFFER

    spark读取csv.orc等文件异常 1 异常现象 ​ spark读取csv.orc等文件出现解析异常 ​ java.lang.IllegalArgumentException: Illegal p ...

  4. Spark解决 System memory 259522560 must be at least 471859200

    本地运行spark出现问题: 22/04/26 20:11:42 ERROR SparkContext: Error initializing SparkContext. java.lang.Ille ...

  5. 基于大数据的Uber数据实时监控(Part 4:Spark Streaming、DataFrames和HBase)

    导言 根据Gartner的数据,到2020年全球将有208亿个连接产品投入使用.Uber机器学习负责人Danny Lange的目标是将机器学习待到Uber业务的每个角落.连接事物的示例包括联网汽车和设 ...

  6. spark更改分区_spark RDD分区是否可以指定分区

    更多详细内容 数据分区: 在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能. mapreduce框架的性能开支主要在io和网络传输,io因为要大量读写文件,它是不可避免的,但是网络传输 ...

  7. Spark in meituan http://tech.meituan.com/spark-in-meituan.html

    Spark在美团的实践 忽略元数据末尾 回到原数据开始处 引言:Spark美团系列终于凑成三部曲了,Spark很强大应用很广泛, 文中Spark交互式开发平台和作业ETL模板的设计都很有启发借鉴意义. ...

  8. Spark Core

    Spark Core     DAG概念         有向无环图         Spark会根据用户提交的计算逻辑中的RDD的转换(变换方法)和动作(action方法)来生成RDD之间的依赖关系 ...

  9. Spark在美团的实践

    本文已发表在<程序员>杂志2016年4月期. 前言 美团是数据驱动的互联网服务,用户每天在美团上的点击.浏览.下单支付行为都会产生海量的日志,这些日志数据将被汇总处理.分析.挖掘与学习,为 ...

最新文章

  1. 近世代数--群--怎么判断是不是群?
  2. Lucene的一些基本使用方法和概念 (JAVA)
  3. aws上负载均衡器标组端口_AWS CloudFormation:目标组没有关联的负载均衡器
  4. 机器学习非监督学习—k-means及案例分析
  5. c语言如何打印unicode字符,如何在C ++中打印Unicode字符?
  6. 成绩查看_2019一级建造师成绩已公布,赶紧来查看成绩吧
  7. java中final语句_Java中使用非final变量的不可访问语句
  8. hdfs 多租户_Hadoop多租户架构配置
  9. xcode工程编译错误:The maximum number of apps for free development profiles has been reached.
  10. 巧用代理猎手揪出局域网中的二级代理
  11. 抛开Wintel体系和AA体系
  12. 注塑行业APS解决方案
  13. ubuntu14.04 下基于Nginx搭建mp4/flv流媒体服务器
  14. docker 容器健康检查
  15. 计算机组成原理框架结构图
  16. win7桌面不显示我的计算机名,win7系统桌面没有显示我的电脑图标的操作技巧
  17. 如何在苹果手机上安装自制的AD证书
  18. K8s第七篇授权认证
  19. Java电子信箱系统的设计与实现
  20. 吹爆这个 pandas GUI 神器,自动转代码!

热门文章

  1. 职工工作量c语言调试分析,c语言职工工作量统计
  2. 深度优先搜索-和为某数的所有组合
  3. python 对 list[list] 矩阵进行逆时针旋转90度 matrix = list(map(list, zip(*matrix)))[::-1]
  4. git 查看修改明细_git查看某个文件的修改历史
  5. php dat文件,window_Win7系统怎么打开Dat文件 Win7系统打开Dat文件的方法,  在电脑中的Dat文件是很常 - phpStudy...
  6. db设计专用excel_电磁兼容(EMC):工程师必备之硬件EMC设计规范
  7. linux限制ip带宽,apache如何限制并发数 IP 带宽?
  8. 【前端 · 面试 】HTTP 总结(二)—— HTTP 消息
  9. allgro显示网络名称_起名||网络公司名字推荐
  10. 关注深圳电子商务企业的发展