Spark中dataframe里data.drop()和data.na.drop()的区别
问题描述:原始数据data总行数是1303638,使用data.drop()后数据总行数是1303638,使用data.na.drop()后数据总行数是0;为啥data.drop()没有丢弃null或nan的数据?
总结:
1)data.drop()如果不传递列名,不会做任何操作;
2)通过以下比较发现,drop是用来丢弃列的,而na.drop是用来丢弃行的;
3)通过以下比较发现,dataframe.drop是直接调用的dataset中drop接口;
4)如果想要调用DataframeNaFunctions中drop接口,需要先利用dataframe.na得到一个DataframeNaFunctions类型变量,然后利用该变量调用DataframeNaFunctions中drop接口。
参考:https://www.cnblogs.com/cc11001100/p/9954862.html
(1)na作用
Dataset中na接口的描述如下
(2)drop
查看DataframeNaFunctions中drop的api接口描述,如下,都是返回一个丢弃含有null/NaN的行后的新dataframe,
查看dataset中有关drop的api,描述如下,返回一个丢弃指定列的dataset
测试:
Spark中dataframe里data.drop()和data.na.drop()的区别相关推荐
- spark中dataframe解析_Spark 结构流处理介绍和入门教程
概念和简介 Spark Structured Streaming Structured Streaming 是在 Spark 2.0 加入的经过重新设计的全新流式引擎.它使用 micro-batch ...
- 使用Spark中DataFrame的语法与SQL操作,对人类数据进行处理,比较学历与离婚率的关系
简介 整理Kaggle上的人类信息数据 Machine-Learning-Databases,这个数据集已经有二十多年的历史,虽然历史久远,但是格式明确,是比较好的入门数据集. 通过Spark中的Da ...
- spark中dataframe解析_SparkSql 中 JOIN的实现
Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者, ...
- Spark中DataFrame 基本操作函数
DataFrame的基本操作函数 原文链接 https://blog.csdn.net/u010003835/article/details/106436091?utm_medium=distribu ...
- spark中dataframe解析_Spark-SQL
fe 缺点 不方便添加新的优化策略 线程安全问题 Spark SQL支持三种语言 java Scala python DataFrame 大规模数据化结构能历.提高了运算能力 从sql到dataFra ...
- 从 Spark 的 DataFrame 中取出具体某一行详解
Spark 中 DataFrame 是 RDD 的扩展,限于其分布式与弹性内存特性,我们没法直接进行类似 df.iloc(r, c) 的操作来取出其某一行. 如何从 Spark 的 DataFrame ...
- 【求助】如何从 Spark 的 DataFrame 中取出具体某一行?我自己的一些思考
如何从 Spark 的 DataFrame 中取出具体某一行? 根据阿里专家Spark的DataFrame不是真正的DataFrame-秦续业的文章-知乎的文章: DataFrame 应该有『保证顺序 ...
- Spark中Data skew(数据倾斜)Java+Python+Scala三种接口完整代码
起因 代码中shuffle的算子存在的地方,groupByKey.countByKey.reduceByKey.join等 判断一个算子是shuffle算子可以通过[20] 出现的问题有两种 ①大部分 ...
- MLSQL:融合 Spark+Ray,让企业低成本落地 Data+AI
近日由 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会在上海成功举办,此次峰会特设「开源有道」分论坛,邀请了来自 Apache Kylin,Apache ...
最新文章
- 一些关于Hibernate延迟加载的误区
- Jboss启动报错之8083 already in use
- linux 下清空tomcat catalina.out内容,释放磁盘空间
- Dubbo负载均衡机制
- 一封绝妙的情书 An Ingenious Love Letter
- DoNet 高效开发必备开发工具
- 小微企业名录查询系统_欢迎访问辽宁小微企业名录系统
- MySQL高级知识(八)——ORDER BY优化
- [入门系列]什么是面向服务的体系结构(SOA)?
- 深入解读Linux内存管理系列(6)——地址空间划分
- mysql 4,mysql 4.1,mysql 数据库中文问题
- html中li整体变色,JS+CSS实现鼠标经过div(li)背景变色
- python中tqdm的用法
- 权限申请弹框_安卓Q | 位置权限三态化解析,用户要关心,开发者须警惕!
- 【学习笔记】JAVA快捷键
- Matlab 输入输出命令
- 将ClearCase的客户端编码设置为UTF-8
- github 设置语言为中文
- 三、pandas_datareader金融数据
- 计算机桌面文件如何发送给qq好友,QQ怎么与好友分享屏幕 如何共享电脑屏幕给好友...
热门文章
- 《数据库原理》知识点整理+习题
- oracle 数据库修改数据类型,保留原来数据
- OpenAI居然能自动写论文?导师直言我都犯难了...
- 企业大数据的八个典型应用
- 企业大数据平台如何搭建?
- centos7 部署glusterfs集群,服务端和客户端演示
- C语言中的for循环语句
- mysql数据库source命令导入sql文件
- 【同步复制常见错误处理1】当IDENTITY_INSERT设置为OFF时不能向表插入显示值。(源:MSSQLServer,错误码:544)
- 自定义OBS插件开发教程