Spark精华问答 | Spark做大规模高性能数值计算可以吗?
Spark作为一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。
1
Q:Spark做大规模高性能数值计算可以吗?
A:Spark是高性能计算目前最佳的选择大数据计算平台;Spark的内存计算、快速迭代、DAG等都为大规模高性能数值计算提供了天然优势;尤其值得一提的Spark框架的编写使用Scala,应用程序开发也主要是Scala,而Scala是分布式多核编程的核心语言,其Function编程模型、Actor和并发的能力让大规模高性能数值计算如虎添翼;Spark配合Tachyon可以极大的提升大规模高性能数值计算的效率。
2
Q:Spark sql可以代替hive和hbase吗?
A:Spark SQL可以取代Hive;Spark SQL可以完成HBase的大部分功能;Spark Streaming配合Spark SQL可以取代HBase。
3
Q:一个worker上会有多个executor?executor个数是一个app一个吗?还是只有一个?
A:一个Worker会有多个executor,一个executor会运行多个task;一个executor只能为一个app实例服务,一个app可以有多个executor;Executor的配置要根据硬件和app处理的数据进行适当调优。
4
Q:只有一台机器能学习吗?
A:只有一台机器学习Spark是没有问题的;在一台机器上,可以使用local模式运行Spark程序;在一台机器上也可以通过VMware等虚拟机机制虚拟出多台Linux机器,从而在多台机器上搭建集群。
5
Q:Spark环境需要哪些? 除了HDFS基础,有Spark集成包么?
A:Spark的安装需要Hadoop的HDFS;Spark有自己的集成包,但是依旧需要HDFS的配合;同时Spark也可以部署到亚马逊云上。
小伙伴们冲鸭,后台留言区等着你!
关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……
同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~
福利
1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
2、公众号后台回复:白皮书,获取IDC最新数据白皮书整理资料!
推荐阅读:
在线公开课 | 从理论走向实践,多角度详解Cloud Native
苹果春季发布会:库克绝不玩别人玩剩下的!
中国区块链职业发展现状: 30岁前不做开发; 平均薪资仅38.4万; 跳槽薪资涨三成 (附完整报告下载资源)
库克谈“唱衰苹果”:一派胡言!
上海交大CV博导微信群辱骂学生,已停止教学
李沐团队新作Gluon,复现CV经典模型到BERT,简单好用 | 强烈推荐
日本乐天要求员工学编程,AI 进中小学课堂,全民编程时代来了!
真香,朕在看了!
Spark精华问答 | Spark做大规模高性能数值计算可以吗?相关推荐
- Spark精华问答 | spark的组件构成有哪些?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | spark性能优化方法
Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:影响性能的主要因素是什么? A:网络传输开销大 硬件资源利用率低 同一资源的复用率低 2 Q:优化的方向有哪些? ...
- Spark精华问答 | Spark的三种运行模式有何区别?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | Spark的计算方法是什么?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | Spark 会替代Hadoop 吗?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | Spark和Hadoop的架构区别解读
总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:Spark和 ...
- Spark精华问答:DataFrame与RDD的主要区别在哪?
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎.目前的热度已经超过Hadoop,正所谓青出于蓝而胜于蓝,今天我们就来看看关于park 的精华问答吧. 1 Q:DataFram ...
- 写好python的代码怎么放在spark上跑_Spark精华问答 | spark的组件构成有哪些?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | RDD的核心概念是什么?
Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:RDD的核心概念是什么? A:Client:客户端进程,负责提交作业到Master. Master:Standa ...
最新文章
- CodeMirror 5.26.0 发布,在线代码编辑器
- Android:客户端和服务器之间传输数据加密
- Intel Realsense D435 多摄像头配置 Multi-camera configurations (220)(官方测试的摄像头配置表【不同带宽下分辨率、帧率等】)
- 老王有两个孩子,已知至少有一个孩子是在星期二出生的男孩。问:两个孩子都是男孩的概率是多大?
- 分布式事务实践 解决数据一致性 分布式事务实现:消息驱动模式
- Oracle DBA必须学会的11个Linux基本命令
- PAT之气死人不偿命的3n+1猜想
- Cisco自反控制列表的应用
- ANSYS12.0安装教程
- Reading Note(3)——基于FPGA的动态可重构特性探索新型加速器架构
- 支持wmv、mpg、mov、avi格式的网页视频播放代码
- SpringMVC表单标签简介
- POJ 1862: Stripies
- fastai v1环境搭建:Win10 MX250 CUDA10.1 cuDNN Pytorch1.0.0 Fastai v1安(bi)装(keng)指南
- 玩和平精英吃鸡用什么平板ipad好?
- python爬高德地图_利用Python爬取高德地图数据
- 我的Redis集群搭建之路
- Python前后端交互( Flask Ajax )
- 100天精通Python丨办公效率篇 —— 12、Python自动化操作 office-word(word转pdf、转docx、段落、表格、标题、页面、格式)
- uniapp实现多级菜单选择u-select