DataSet是可以转换的领域特定对象的强类型集合

同时使用函数或关系操作。每个数据集还有一个无类型视图

称为“DataFrame”,它是[[Row]]的数据集。

DataFrame也可以叫Dataset[Row],每一行的类型是Row,不解析,每一行究竟有哪些字段,各个字段又是什么类型都无从得知,只能用上面提到的getAS方法或者共性中的拿出特定字段

而Dataset中,每一行是什么类型是不一定的,在自定义了case class之后可以很自由的获得每一行的信息

在源码中的DataSet表示是从1.6.0开始有的。

在我是用Spark2.3.0  javaAPI定义时,并未找到DataFrame,如下

并且是代码自动生成类型时,为:DataSet<Row>

Dataset<Row> df = sqlContext.read().json("./data/json");

所以我推断是被替换了,不过大家也不用纠结,Spark的API1.6前后确实改变过多。

使用DataSet<Row>不就行了。

但是我搜索了一下DataFrame,又显示有这个类。。。

  private final class DataFrame extends Frame {final ByteBuf data;final int padding;final boolean endOfStream;DataFrame(ByteBuf data, int padding, boolean endOfStream, ChannelPromise promise) {super(promise);this.data = data;this.padding = padding;this.endOfStream = endOfStream;}@Overridevoid release(Throwable t) {super.release(t);ReferenceCountUtil.safeRelease(data);}@Overridevoid send(ChannelHandlerContext ctx, int streamId) {writeData(ctx, streamId, data, padding, endOfStream, promise);}}

不行了,看不懂。。。

不甘心的前往官网的API。在2.3.0中确实没有DataFrame这个类

前往1.6.0API,果然不出所料

然后我们在Scala中定义一下

val frame: DataFrame = ss.read.format("json").load("./data/json")

可以看出返回类型为DataFeame ,并且当你点进DataFrame时

OK!!!溜了溜了!!!

所以我的结论就是,2.3.0的javaAPI中使用DataSet代替了DataFrame。

Spark2.3.0的DataFrame去哪了,DataSet是哪位?相关推荐

  1. Spark2.1.0 + CarbonData1.0.0集群模式部署及使用入门

    1 引言 Apache CarbonData是一个面向大数据平台的基于索引的列式数据格式,由华为大数据团队贡献给Apache社区,目前最新版本是1.0.0版.介于目前主流大数据组件应用场景的局限性,C ...

  2. Spark2.1.0模型设计与基本架构(上)

    随着近十年互联网的迅猛发展,越来越多的人融入了互联网--利用搜索引擎查询词条或问题:社交圈子从现实搬到了Facebook.Twitter.微信等社交平台上:女孩子们现在少了逛街,多了在各大电商平台上的 ...

  3. spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA for Eclipse和IntelliJ IDEA皆适用)(以spark2.2.0源码包为例)(图文详解)...

    不多说,直接上干货! 前言   其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来. 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程. ...

  4. Spark2.1.0之初识Spark

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/beliefer/article/details/79629729 随着近十年互联网的迅猛发展,越来越 ...

  5. arthas 排查内存溢出_【spark-tips】spark2.4.0触发的executor内存溢出排查

    版本升级背景 spark 2.4.0 最近刚发版,新增了很多令人振奋的特性.由于本司目前使用的是spark 2.3.0版本,本没打算这么快升级到2.4.0.无奈最近排查出的两个大bug迫使我们只能对s ...

  6. [Spark版本升级]-- spark-2.2.0发行说明

    Spark-2.2.0版本发行时间:2017-7-11 一.Jira说明: https://issues.apache.org/jira/secure/ReleaseNote.jspa?project ...

  7. Spark2.1.0安装与配置(单机版)

    Spark2.1.0安装与配置(单机版) B站同步视频:Spark2.1.0安装与配置(单机版) 前言 该安装教程是承接Spark源码编译B站教程所制,因此所使用的安装包是在Spark源码编译教程中得 ...

  8. Centos7.6+Hadoop 3.1.2(HA)+Zookeeper3.4.13+Hbase1.4.9(HA)+Hive2.3.4+Spark2.4.0(HA)高可用集群搭建

    本文转自https://mshk.top/2019/03/centos-hadoop-zookeeper-hbase-hive-spark-high-availability/,因为原链接打不开,故在 ...

  9. Hadoop 3.1.2(HA)+Zookeeper3.4.13+Hbase1.4.9(HA)+Hive2.3.4+Spark2.4.0(HA)高可用集群搭建

    目录 目录 1.前言 1.1.什么是 Hadoop? 1.1.1.什么是 YARN? 1.2.什么是 Zookeeper? 1.3.什么是 Hbase? 1.4.什么是 Hive 1.5.什么是 Sp ...

最新文章

  1. 2022-2028年中国TPE弹性体行业市场研究及前瞻分析报告
  2. (转)Python rsa 签名与验证 sign and verify
  3. C++Primer笔记之复制控制
  4. 亮剑吧,掏出你吃灰的单片机板子。
  5. 其他电子计算机配套产品及耗,F-商品和服务税收分类编码-.xls
  6. 解决IE8下不支持document.getElementsByClassName的方法
  7. 10个调试和排错的小建议
  8. UnityWebRequest下载文件
  9. vue实现codemirror代码编辑器中的SQL代码格式化功能
  10. iperf工具源码下载、编译、以及测试网络带宽
  11. 给Photoshop cc 2018添加简体中文语言包
  12. 微信商城小程序怎么弄?怎么做微信商城小程序?
  13. window7系统搭建FTP服务端,使用FileZilla FTP客户端测试
  14. 2021年春季PAT乙级题解(C语言)
  15. 追寻ARM的起源-Acorn电脑简史及FPGA实现
  16. layui扩展组件(组合输入框inputTags)
  17. 从《长安十二时辰》看企业中台战略
  18. Selenium的PO模式
  19. C语言单元测试框架——CUnit
  20. [OCA]认证考试内容

热门文章

  1. 中石油训练赛 - Bad Treap(数学)
  2. 洛谷 - P4323 [JSOI2016]独特的树叶(树上哈希+换根dp)
  3. HDU - 5920 Ugly Problem(Java大数+贪心)
  4. CodeForces - 1323D Present(思维+数学)
  5. CodeForces - 859C Pie Rules(dp+博弈)
  6. html遮罩实例,给原生html中添加水印遮罩层的实现示例
  7. android 高度上分权重,安卓自适应布局(关于权重weight的使用技巧!)
  8. Duilib教程-自动布局3-分隔条
  9. windbg 符号表
  10. 给网游写一个挂吧(二) – 启动外挂上