Spark精华问答:DataFrame与RDD的主要区别在哪?
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。目前的热度已经超过Hadoop,正所谓青出于蓝而胜于蓝,今天我们就来看看关于park 的精华问答吧。
1
Q:DataFrame是什么?
A:DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。
2
Q:DataFrame与RDD的主要区别在于?
A:DataFrame带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得SparkSQL得以洞察更多的结构信息,从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。
反观RDD,由于无从得知所存数据元素的具体内部结构,Spark Core只能在stage层面进行简单、通用的流水线优化。
3
Q:DataFrame 特性
A:1、支持从KB到PB级的数据量
2、支持多种数据格式和多种存储系统
3、通过Catalyst优化器进行先进的优化生成代码
4、通过Spark无缝集成主流大数据工具与基础设施
5、API支持Python、Java、Scala和R语言
4
Q:RDD,全称为?
A:Resilient Distributed Datasets,意为容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。
5
Q:RDD有什么特点?
A:它是在集群节点上的不可变的、已分区的集合对象。
通过并行转换的方式来创建如(map, filter, join, etc)。
失败自动重建。
可以控制存储级别(内存、磁盘等)来进行重用。
必须是可序列化的。
是静态类型的。
小伙伴们冲鸭,后台留言区等着你!
关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……
同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~
福利
1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
推荐阅读:
Elastic Jeff Yoshimura:开源正在开启新一轮的创新 | 人物志
深入浅出Docker 镜像 | 技术头条
19岁当老板, 20岁ICO失败, 21岁将项目挂到了eBay, 为何初创公司如此艰难?
码二代的出路是什么?
机器学习萌新必备的三种优化算法 | 选型指南
小程序的侵权“生死局”
@996 程序员,ICU 你真的去不起!
真香,朕在看了!
Spark精华问答:DataFrame与RDD的主要区别在哪?相关推荐
- dataframe记录数_大数据系列之Spark SQL、DataFrame和RDD数据统计与可视化
Spark大数据分析中涉及到RDD.Data Frame和SparkSQL的操作,本文简要介绍三种方式在数据统计中的算子使用. 1.在IPython Notebook运行Python Spark程序 ...
- Spark精华问答 | RDD的核心概念是什么?
Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:RDD的核心概念是什么? A:Client:客户端进程,负责提交作业到Master. Master:Standa ...
- Spark精华问答 | spark性能优化方法
Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:影响性能的主要因素是什么? A:网络传输开销大 硬件资源利用率低 同一资源的复用率低 2 Q:优化的方向有哪些? ...
- Spark精华问答 | spark的组件构成有哪些?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | Spark的计算方法是什么?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | Spark的三种运行模式有何区别?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | Spark 会替代Hadoop 吗?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
- Spark精华问答 | 怎么运行Spark?
戳蓝字"CSDN云计算"关注我们哦! 为什么要学习Spark?作为一个用来实现快速而通用的集群计算的平台.扩展广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包 ...
- Spark精华问答 | 为什么选择Spark作为流计算引擎?
总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:为什么选择K ...
最新文章
- .net3.5下使用LINQ递归算法实现简洁代码
- 面试也需要刷题?你至少需要知道这些……
- mysql开启binlog启动慢_mysql的binlog和slow_log慢日志
- 【三维激光扫描】实验01:环境搭建CAD2014+StonexSiScan软件安装
- LeetCode-114: 二叉树展开为链表
- ASP.NET Core MVC 打造一个简单的图书馆管理系统 (修正版)(三)密码修改以及密码重置...
- 大数据笔记(二十一)——NoSQL数据库之Redis
- java类加载器和父类委托机制
- Git 可视化工具 Fork 使用指南
- Linux中awk命令正确的求最大值、最小值、平均值、总和
- 有向图(3.基于十字链表的c++实现)
- ARCore之路-平面检测
- 【VOLTE】VOLTE-通话信令流程
- Manjaro Gnome Hidpi 缩放问题
- 十连跌!这个一线城市的房价到底怎么了?
- 将pdf文件转换成word,csv文件
- android北京实时公交,北京公交实时掌上查询
- 武汉星起航跨境电商——亚马逊日本站JCT政策将实现改革
- qtableview点击行将整行数据传过去_三部评分达到九分以上的电视剧,琅琊榜甄嬛传在列...
- 理解ES6中暂时性死区TDZ
热门文章
- 两线怎么接三线插座图_什么是RTD热电阻?两线制和三线制RTD有什么不同?
- java 对象等于_java 之类对象等于对象 | 学步园
- 你愿意隐姓埋名一辈子吗?” #百年百人系列
- To 研究生,第一:做学位论文期间,不要有任何度假休息的打算;第二,导师错的时候不多;第三……...
- 哈哈哈哈哈!“科研打工人”的凡尔赛
- 42岁!他成为2019年最年轻中科院院士!一篇论文未发博士毕业
- AI攻破高数核心,1秒内精确求解微分方程、不定积分
- java接口经常变动前端怎么办_Java进程故障排查(CPU资源占用高,接口响应超时,功能接口停滞等)...
- C语言中文件的读取和写入
- 技术实践第四期|解读移动开发者日常-性能监控平台应用