Spark2.3.0的DataFrame去哪了,DataSet是哪位?
DataSet是可以转换的领域特定对象的强类型集合
同时使用函数或关系操作。每个数据集还有一个无类型视图
称为“DataFrame”,它是[[Row]]的数据集。
DataFrame也可以叫Dataset[Row],每一行的类型是Row,不解析,每一行究竟有哪些字段,各个字段又是什么类型都无从得知,只能用上面提到的getAS方法或者共性中的拿出特定字段
而Dataset中,每一行是什么类型是不一定的,在自定义了case class之后可以很自由的获得每一行的信息
在源码中的DataSet表示是从1.6.0开始有的。
在我是用Spark2.3.0 javaAPI定义时,并未找到DataFrame,如下
并且是代码自动生成类型时,为:DataSet<Row>
Dataset<Row> df = sqlContext.read().json("./data/json");
所以我推断是被替换了,不过大家也不用纠结,Spark的API1.6前后确实改变过多。
使用DataSet<Row>不就行了。
但是我搜索了一下DataFrame,又显示有这个类。。。
private final class DataFrame extends Frame {final ByteBuf data;final int padding;final boolean endOfStream;DataFrame(ByteBuf data, int padding, boolean endOfStream, ChannelPromise promise) {super(promise);this.data = data;this.padding = padding;this.endOfStream = endOfStream;}@Overridevoid release(Throwable t) {super.release(t);ReferenceCountUtil.safeRelease(data);}@Overridevoid send(ChannelHandlerContext ctx, int streamId) {writeData(ctx, streamId, data, padding, endOfStream, promise);}}
不行了,看不懂。。。
不甘心的前往官网的API。在2.3.0中确实没有DataFrame这个类
前往1.6.0API,果然不出所料
然后我们在Scala中定义一下
val frame: DataFrame = ss.read.format("json").load("./data/json")
可以看出返回类型为DataFeame ,并且当你点进DataFrame时
OK!!!溜了溜了!!!
所以我的结论就是,2.3.0的javaAPI中使用DataSet代替了DataFrame。
Spark2.3.0的DataFrame去哪了,DataSet是哪位?相关推荐
- Spark2.1.0 + CarbonData1.0.0集群模式部署及使用入门
1 引言 Apache CarbonData是一个面向大数据平台的基于索引的列式数据格式,由华为大数据团队贡献给Apache社区,目前最新版本是1.0.0版.介于目前主流大数据组件应用场景的局限性,C ...
- Spark2.1.0模型设计与基本架构(上)
随着近十年互联网的迅猛发展,越来越多的人融入了互联网--利用搜索引擎查询词条或问题:社交圈子从现实搬到了Facebook.Twitter.微信等社交平台上:女孩子们现在少了逛街,多了在各大电商平台上的 ...
- spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA for Eclipse和IntelliJ IDEA皆适用)(以spark2.2.0源码包为例)(图文详解)...
不多说,直接上干货! 前言 其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来. 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程. ...
- Spark2.1.0之初识Spark
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/beliefer/article/details/79629729 随着近十年互联网的迅猛发展,越来越 ...
- arthas 排查内存溢出_【spark-tips】spark2.4.0触发的executor内存溢出排查
版本升级背景 spark 2.4.0 最近刚发版,新增了很多令人振奋的特性.由于本司目前使用的是spark 2.3.0版本,本没打算这么快升级到2.4.0.无奈最近排查出的两个大bug迫使我们只能对s ...
- [Spark版本升级]-- spark-2.2.0发行说明
Spark-2.2.0版本发行时间:2017-7-11 一.Jira说明: https://issues.apache.org/jira/secure/ReleaseNote.jspa?project ...
- Spark2.1.0安装与配置(单机版)
Spark2.1.0安装与配置(单机版) B站同步视频:Spark2.1.0安装与配置(单机版) 前言 该安装教程是承接Spark源码编译B站教程所制,因此所使用的安装包是在Spark源码编译教程中得 ...
- Centos7.6+Hadoop 3.1.2(HA)+Zookeeper3.4.13+Hbase1.4.9(HA)+Hive2.3.4+Spark2.4.0(HA)高可用集群搭建
本文转自https://mshk.top/2019/03/centos-hadoop-zookeeper-hbase-hive-spark-high-availability/,因为原链接打不开,故在 ...
- Hadoop 3.1.2(HA)+Zookeeper3.4.13+Hbase1.4.9(HA)+Hive2.3.4+Spark2.4.0(HA)高可用集群搭建
目录 目录 1.前言 1.1.什么是 Hadoop? 1.1.1.什么是 YARN? 1.2.什么是 Zookeeper? 1.3.什么是 Hbase? 1.4.什么是 Hive 1.5.什么是 Sp ...
最新文章
- 2022-2028年中国TPE弹性体行业市场研究及前瞻分析报告
- (转)Python rsa 签名与验证 sign and verify
- C++Primer笔记之复制控制
- 亮剑吧,掏出你吃灰的单片机板子。
- 其他电子计算机配套产品及耗,F-商品和服务税收分类编码-.xls
- 解决IE8下不支持document.getElementsByClassName的方法
- 10个调试和排错的小建议
- UnityWebRequest下载文件
- vue实现codemirror代码编辑器中的SQL代码格式化功能
- iperf工具源码下载、编译、以及测试网络带宽
- 给Photoshop cc 2018添加简体中文语言包
- 微信商城小程序怎么弄?怎么做微信商城小程序?
- window7系统搭建FTP服务端,使用FileZilla FTP客户端测试
- 2021年春季PAT乙级题解(C语言)
- 追寻ARM的起源-Acorn电脑简史及FPGA实现
- layui扩展组件(组合输入框inputTags)
- 从《长安十二时辰》看企业中台战略
- Selenium的PO模式
- C语言单元测试框架——CUnit
- [OCA]认证考试内容
热门文章
- 中石油训练赛 - Bad Treap(数学)
- 洛谷 - P4323 [JSOI2016]独特的树叶(树上哈希+换根dp)
- HDU - 5920 Ugly Problem(Java大数+贪心)
- CodeForces - 1323D Present(思维+数学)
- CodeForces - 859C Pie Rules(dp+博弈)
- html遮罩实例,给原生html中添加水印遮罩层的实现示例
- android 高度上分权重,安卓自适应布局(关于权重weight的使用技巧!)
- Duilib教程-自动布局3-分隔条
- windbg 符号表
- 给网游写一个挂吧(二) – 启动外挂上