Spark作为一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。

1

Q:Spark做大规模高性能数值计算可以吗?

A:Spark是高性能计算目前最佳的选择大数据计算平台;Spark的内存计算、快速迭代、DAG等都为大规模高性能数值计算提供了天然优势;尤其值得一提的Spark框架的编写使用Scala,应用程序开发也主要是Scala,而Scala是分布式多核编程的核心语言,其Function编程模型、Actor和并发的能力让大规模高性能数值计算如虎添翼;Spark配合Tachyon可以极大的提升大规模高性能数值计算的效率。

2

Q:Spark sql可以代替hive和hbase吗?

        

A:Spark SQL可以取代Hive;Spark SQL可以完成HBase的大部分功能;Spark Streaming配合Spark SQL可以取代HBase。

3

Q:一个worker上会有多个executor?executor个数是一个app一个吗?还是只有一个?

 

A:一个Worker会有多个executor,一个executor会运行多个task;一个executor只能为一个app实例服务,一个app可以有多个executor;Executor的配置要根据硬件和app处理的数据进行适当调优。

4

Q:只有一台机器能学习吗?

A:只有一台机器学习Spark是没有问题的;在一台机器上,可以使用local模式运行Spark程序;在一台机器上也可以通过VMware等虚拟机机制虚拟出多台Linux机器,从而在多台机器上搭建集群。

5

Q:Spark环境需要哪些? 除了HDFS基础,有Spark集成包么?

        

A:Spark的安装需要Hadoop的HDFS;Spark有自己的集成包,但是依旧需要HDFS的配合;同时Spark也可以部署到亚马逊云上。

小伙伴们冲鸭,后台留言区等着你!

关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~

福利

1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

2、公众号后台回复:白皮书,获取IDC最新数据白皮书整理资料!

推荐阅读:

  • 在线公开课 | 从理论走向实践,多角度详解Cloud Native

  • 苹果春季发布会:库克绝不玩别人玩剩下的!

  • 中国区块链职业发展现状: 30岁前不做开发; 平均薪资仅38.4万; 跳槽薪资涨三成 (附完整报告下载资源)

  • 库克谈“唱衰苹果”:一派胡言!

  • 上海交大CV博导微信群辱骂学生,已停止教学

  • 李沐团队新作Gluon,复现CV经典模型到BERT,简单好用 | 强烈推荐

  • 日本乐天要求员工学编程,AI 进中小学课堂,全民编程时代来了!

真香,朕在看了!

Spark精华问答 | Spark做大规模高性能数值计算可以吗?相关推荐

  1. Spark精华问答 | spark的组件构成有哪些?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  2. Spark精华问答 | spark性能优化方法

    Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:影响性能的主要因素是什么? A:网络传输开销大 硬件资源利用率低 同一资源的复用率低 2 Q:优化的方向有哪些? ...

  3. Spark精华问答 | Spark的三种运行模式有何区别?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  4. Spark精华问答 | Spark的计算方法是什么?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  5. Spark精华问答 | Spark 会替代Hadoop 吗?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  6. Spark精华问答 | Spark和Hadoop的架构区别解读

    总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:Spark和 ...

  7. Spark精华问答:DataFrame与RDD的主要区别在哪?

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎.目前的热度已经超过Hadoop,正所谓青出于蓝而胜于蓝,今天我们就来看看关于park 的精华问答吧. 1 Q:DataFram ...

  8. 写好python的代码怎么放在spark上跑_Spark精华问答 | spark的组件构成有哪些?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  9. Spark精华问答 | RDD的核心概念是什么?

    Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:RDD的核心概念是什么? A:Client:客户端进程,负责提交作业到Master. Master:Standa ...

最新文章

  1. CodeMirror 5.26.0 发布,在线代码编辑器
  2. Android:客户端和服务器之间传输数据加密
  3. Intel Realsense D435 多摄像头配置 Multi-camera configurations (220)(官方测试的摄像头配置表【不同带宽下分辨率、帧率等】)
  4. 老王有两个孩子,已知至少有一个孩子是在星期二出生的男孩。问:两个孩子都是男孩的概率是多大?
  5. 分布式事务实践 解决数据一致性 分布式事务实现:消息驱动模式
  6. Oracle DBA必须学会的11个Linux基本命令
  7. PAT之气死人不偿命的3n+1猜想
  8. Cisco自反控制列表的应用
  9. ANSYS12.0安装教程
  10. Reading Note(3)——基于FPGA的动态可重构特性探索新型加速器架构
  11. 支持wmv、mpg、mov、avi格式的网页视频播放代码
  12. SpringMVC表单标签简介
  13. POJ 1862: Stripies
  14. fastai v1环境搭建:Win10 MX250 CUDA10.1 cuDNN Pytorch1.0.0 Fastai v1安(bi)装(keng)指南
  15. 玩和平精英吃鸡用什么平板ipad好?
  16. python爬高德地图_利用Python爬取高德地图数据
  17. 我的Redis集群搭建之路
  18. Python前后端交互( Flask Ajax )
  19. 100天精通Python丨办公效率篇 —— 12、Python自动化操作 office-word(word转pdf、转docx、段落、表格、标题、页面、格式)
  20. uniapp实现多级菜单选择u-select

热门文章

  1. java约瑟夫环迭代器_Josephus约瑟夫环问题的不同实现方法与总结
  2. java编译_解析 Java 即时编译器原理。
  3. AlphaFold2立功!清华团队用深度学习增强新冠抗体,创AI里程碑
  4. 正式举报林-裴 (1999) 论文涉嫌学术不端
  5. 8位两院院士、20位长江、杰青……这个学院厉害了!
  6. 自称迪拜十星级酒店,震撼了!
  7. 空难生还几率这么低,飞机上为什么不配备降落伞???
  8. 每天10分钟就能练出流利口语
  9. 2016杭州ccpc
  10. txt记录位置 c++,python显示位置