Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。目前的热度已经超过Hadoop,正所谓青出于蓝而胜于蓝,今天我们就来看看关于park 的精华问答吧。

1

Q:DataFrame是什么?

A:DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。

2

Q:DataFrame与RDD的主要区别在于?

A:DataFrame带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得SparkSQL得以洞察更多的结构信息,从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。

反观RDD,由于无从得知所存数据元素的具体内部结构,Spark Core只能在stage层面进行简单、通用的流水线优化。

3

Q:DataFrame 特性

A:1、支持从KB到PB级的数据量

2、支持多种数据格式和多种存储系统

3、通过Catalyst优化器进行先进的优化生成代码

4、通过Spark无缝集成主流大数据工具与基础设施

5、API支持Python、Java、Scala和R语言

4

Q:RDD,全称为?

A:Resilient Distributed Datasets,意为容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。

5

Q:RDD有什么特点?

A:它是在集群节点上的不可变的、已分区的集合对象。

通过并行转换的方式来创建如(map, filter, join, etc)。

失败自动重建。

可以控制存储级别(内存、磁盘等)来进行重用。

必须是可序列化的。

是静态类型的。

小伙伴们冲鸭,后台留言区等着你!

关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~

福利

1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

推荐阅读:

  • Elastic Jeff Yoshimura:开源正在开启新一轮的创新 | 人物志

  • 深入浅出Docker 镜像 | 技术头条

  • 19岁当老板, 20岁ICO失败, 21岁将项目挂到了eBay, 为何初创公司如此艰难?

  • 码二代的出路是什么?

  • 机器学习萌新必备的三种优化算法 | 选型指南

  • 小程序的侵权“生死局”

  • @996 程序员,ICU 你真的去不起!

真香,朕在看了!

Spark精华问答:DataFrame与RDD的主要区别在哪?相关推荐

  1. dataframe记录数_大数据系列之Spark SQL、DataFrame和RDD数据统计与可视化

    Spark大数据分析中涉及到RDD.Data Frame和SparkSQL的操作,本文简要介绍三种方式在数据统计中的算子使用. 1.在IPython Notebook运行Python Spark程序 ...

  2. Spark精华问答 | RDD的核心概念是什么?

    Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:RDD的核心概念是什么? A:Client:客户端进程,负责提交作业到Master. Master:Standa ...

  3. Spark精华问答 | spark性能优化方法

    Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧. 1 Q:影响性能的主要因素是什么? A:网络传输开销大 硬件资源利用率低 同一资源的复用率低 2 Q:优化的方向有哪些? ...

  4. Spark精华问答 | spark的组件构成有哪些?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  5. Spark精华问答 | Spark的计算方法是什么?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  6. Spark精华问答 | Spark的三种运行模式有何区别?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  7. Spark精华问答 | Spark 会替代Hadoop 吗?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  8. Spark精华问答 | 怎么运行Spark?

    戳蓝字"CSDN云计算"关注我们哦! 为什么要学习Spark?作为一个用来实现快速而通用的集群计算的平台.扩展广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包 ...

  9. Spark精华问答 | 为什么选择Spark作为流计算引擎?

    总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:为什么选择K ...

最新文章

  1. .net3.5下使用LINQ递归算法实现简洁代码
  2. 面试也需要刷题?你至少需要知道这些……
  3. mysql开启binlog启动慢_mysql的binlog和slow_log慢日志
  4. 【三维激光扫描】实验01:环境搭建CAD2014+StonexSiScan软件安装
  5. LeetCode-114: 二叉树展开为链表
  6. ASP.NET Core MVC 打造一个简单的图书馆管理系统 (修正版)(三)密码修改以及密码重置...
  7. 大数据笔记(二十一)——NoSQL数据库之Redis
  8. java类加载器和父类委托机制
  9. Git 可视化工具 Fork 使用指南
  10. Linux中awk命令正确的求最大值、最小值、平均值、总和
  11. 有向图(3.基于十字链表的c++实现)
  12. ARCore之路-平面检测
  13. 【VOLTE】VOLTE-通话信令流程
  14. Manjaro Gnome Hidpi 缩放问题
  15. 十连跌!这个一线城市的房价到底怎么了?
  16. 将pdf文件转换成word,csv文件
  17. android北京实时公交,北京公交实时掌上查询
  18. 武汉星起航跨境电商——亚马逊日本站JCT政策将实现改革
  19. qtableview点击行将整行数据传过去_三部评分达到九分以上的电视剧,琅琊榜甄嬛传在列...
  20. 理解ES6中暂时性死区TDZ

热门文章

  1. 两线怎么接三线插座图_什么是RTD热电阻?两线制和三线制RTD有什么不同?
  2. java 对象等于_java 之类对象等于对象 | 学步园
  3. 你愿意隐姓埋名一辈子吗?” #百年百人系列
  4. To 研究生,第一:做学位论文期间,不要有任何度假休息的打算;第二,导师错的时候不多;第三……...
  5. 哈哈哈哈哈!“科研打工人”的凡尔赛
  6. 42岁!他成为2019年最年轻中科院院士!一篇论文未发博士毕业
  7. AI攻破高数核心,1秒内精确求解微分方程、不定积分
  8. java接口经常变动前端怎么办_Java进程故障排查(CPU资源占用高,接口响应超时,功能接口停滞等)...
  9. C语言中文件的读取和写入
  10. 技术实践第四期|解读移动开发者日常-性能监控平台应用