Spark精华问答：DataFrame与RDD的主要区别在哪？

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。目前的热度已经超过Hadoop,正所谓青出于蓝而胜于蓝，今天我们就来看看关于park 的精华问答吧。

Q：DataFrame是什么?

A：DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。

Q：DataFrame与RDD的主要区别在于?

A：DataFrame带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得SparkSQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。

反观RDD，由于无从得知所存数据元素的具体内部结构，Spark Core只能在stage层面进行简单、通用的流水线优化。

Q：DataFrame 特性

A：1、支持从KB到PB级的数据量

2、支持多种数据格式和多种存储系统

3、通过Catalyst优化器进行先进的优化生成代码

4、通过Spark无缝集成主流大数据工具与基础设施

5、API支持Python、Java、Scala和R语言

Q：RDD，全称为?

A：Resilient Distributed Datasets，意为容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据。

Q：RDD有什么特点?

A：它是在集群节点上的不可变的、已分区的集合对象。

通过并行转换的方式来创建如(map, filter, join, etc)。

失败自动重建。

可以控制存储级别(内存、磁盘等)来进行重用。

必须是可序列化的。

是静态类型的。

小伙伴们冲鸭，后台留言区等着你！

关于Spark，今天你学到了什么？还有哪些不懂的？除此还对哪些话题感兴趣？快来留言区打卡啦！留言方式：打开第XX天，答：……

同时欢迎大家搜集更多问题，投稿给我们！风里雨里留言区里等你~

福利

1、扫描添加小编微信，备注“姓名+公司职位”，加入【云计算学习交流群】，和志同道合的朋友们共同打卡学习！

推荐阅读：

Elastic Jeff Yoshimura：开源正在开启新一轮的创新 | 人物志
深入浅出Docker 镜像 | 技术头条
19岁当老板, 20岁ICO失败, 21岁将项目挂到了eBay, 为何初创公司如此艰难?
码二代的出路是什么？
机器学习萌新必备的三种优化算法 | 选型指南
小程序的侵权“生死局”
@996 程序员，ICU 你真的去不起！

真香，朕在看了！

Spark精华问答：DataFrame与RDD的主要区别在哪？相关推荐

dataframe记录数_大数据系列之Spark SQL、DataFrame和RDD数据统计与可视化
Spark大数据分析中涉及到RDD.Data Frame和SparkSQL的操作,本文简要介绍三种方式在数据统计中的算子使用. 1.在IPython Notebook运行Python Spark程序 ...
Spark精华问答 | RDD的核心概念是什么？
Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:RDD的核心概念是什么? A:Client:客户端进程,负责提交作业到Master. Master:Standa ...
Spark精华问答 | spark性能优化方法
Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:影响性能的主要因素是什么? A:网络传输开销大硬件资源利用率低同一资源的复用率低 2 Q:优化的方向有哪些? ...
Spark精华问答 | spark的组件构成有哪些？
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
Spark精华问答 | Spark的计算方法是什么？
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
Spark精华问答 | Spark的三种运行模式有何区别？
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
Spark精华问答 | Spark 会替代Hadoop 吗?
戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...
Spark精华问答 | 怎么运行Spark？
戳蓝字"CSDN云计算"关注我们哦! 为什么要学习Spark?作为一个用来实现快速而通用的集群计算的平台.扩展广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包 ...
Spark精华问答 | 为什么选择Spark作为流计算引擎？
总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:为什么选择K ...

Spark精华问答：DataFrame与RDD的主要区别在哪？

Elastic Jeff Yoshimura：开源正在开启新一轮的创新 | 人物志

深入浅出Docker 镜像 | 技术头条

19岁当老板, 20岁ICO失败, 21岁将项目挂到了eBay, 为何初创公司如此艰难?

码二代的出路是什么？

机器学习萌新必备的三种优化算法 | 选型指南

小程序的侵权“生死局”

@996 程序员，ICU 你真的去不起！

Spark精华问答：DataFrame与RDD的主要区别在哪？相关推荐

最新文章

热门文章