问题描述:原始数据data总行数是1303638,使用data.drop()后数据总行数是1303638,使用data.na.drop()后数据总行数是0;为啥data.drop()没有丢弃null或nan的数据?

总结:

1)data.drop()如果不传递列名,不会做任何操作;

2)通过以下比较发现,drop是用来丢弃列的,而na.drop是用来丢弃行的;

3)通过以下比较发现,dataframe.drop是直接调用的dataset中drop接口;

4)如果想要调用DataframeNaFunctions中drop接口,需要先利用dataframe.na得到一个DataframeNaFunctions类型变量,然后利用该变量调用DataframeNaFunctions中drop接口。

参考:https://www.cnblogs.com/cc11001100/p/9954862.html

(1)na作用

Dataset中na接口的描述如下

(2)drop

查看DataframeNaFunctions中drop的api接口描述,如下,都是返回一个丢弃含有null/NaN的行后的新dataframe,

查看dataset中有关drop的api,描述如下,返回一个丢弃指定列的dataset

测试:

Spark中dataframe里data.drop()和data.na.drop()的区别相关推荐

  1. spark中dataframe解析_Spark 结构流处理介绍和入门教程

    概念和简介 Spark Structured Streaming Structured Streaming 是在 Spark 2.0 加入的经过重新设计的全新流式引擎.它使用 micro-batch ...

  2. 使用Spark中DataFrame的语法与SQL操作,对人类数据进行处理,比较学历与离婚率的关系

    简介 整理Kaggle上的人类信息数据 Machine-Learning-Databases,这个数据集已经有二十多年的历史,虽然历史久远,但是格式明确,是比较好的入门数据集. 通过Spark中的Da ...

  3. spark中dataframe解析_SparkSql 中 JOIN的实现

    Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者, ...

  4. Spark中DataFrame 基本操作函数

    DataFrame的基本操作函数 原文链接 https://blog.csdn.net/u010003835/article/details/106436091?utm_medium=distribu ...

  5. spark中dataframe解析_Spark-SQL

    fe 缺点 不方便添加新的优化策略 线程安全问题 Spark SQL支持三种语言 java Scala python DataFrame 大规模数据化结构能历.提高了运算能力 从sql到dataFra ...

  6. 从 Spark 的 DataFrame 中取出具体某一行详解

    Spark 中 DataFrame 是 RDD 的扩展,限于其分布式与弹性内存特性,我们没法直接进行类似 df.iloc(r, c) 的操作来取出其某一行. 如何从 Spark 的 DataFrame ...

  7. 【求助】如何从 Spark 的 DataFrame 中取出具体某一行?我自己的一些思考

    如何从 Spark 的 DataFrame 中取出具体某一行? 根据阿里专家Spark的DataFrame不是真正的DataFrame-秦续业的文章-知乎的文章: DataFrame 应该有『保证顺序 ...

  8. Spark中Data skew(数据倾斜)Java+Python+Scala三种接口完整代码

    起因 代码中shuffle的算子存在的地方,groupByKey.countByKey.reduceByKey.join等 判断一个算子是shuffle算子可以通过[20] 出现的问题有两种 ①大部分 ...

  9. MLSQL:融合 Spark+Ray,让企业低成本落地 Data+AI

    近日由 Kyligence 主办的 Data & Cloud Summit 2021 行业峰会在上海成功举办,此次峰会特设「开源有道」分论坛,邀请了来自 Apache Kylin,Apache ...

最新文章

  1. 一些关于Hibernate延迟加载的误区
  2. Jboss启动报错之8083 already in use
  3. linux 下清空tomcat catalina.out内容,释放磁盘空间
  4. Dubbo负载均衡机制
  5. 一封绝妙的情书 An Ingenious Love Letter
  6. DoNet 高效开发必备开发工具
  7. 小微企业名录查询系统_欢迎访问辽宁小微企业名录系统
  8. MySQL高级知识(八)——ORDER BY优化
  9. [入门系列]什么是面向服务的体系结构(SOA)?
  10. 深入解读Linux内存管理系列(6)——地址空间划分
  11. mysql 4,mysql 4.1,mysql 数据库中文问题
  12. html中li整体变色,JS+CSS实现鼠标经过div(li)背景变色
  13. python中tqdm的用法
  14. 权限申请弹框_安卓Q | 位置权限三态化解析,用户要关心,开发者须警惕!
  15. 【学习笔记】JAVA快捷键
  16. Matlab 输入输出命令
  17. 将ClearCase的客户端编码设置为UTF-8
  18. github 设置语言为中文
  19. 三、pandas_datareader金融数据
  20. 计算机桌面文件如何发送给qq好友,QQ怎么与好友分享屏幕 如何共享电脑屏幕给好友...

热门文章

  1. 《数据库原理》知识点整理+习题
  2. oracle 数据库修改数据类型,保留原来数据
  3. OpenAI居然能自动写论文?导师直言我都犯难了...
  4. 企业大数据的八个典型应用
  5. 企业大数据平台如何搭建?
  6. centos7 部署glusterfs集群,服务端和客户端演示
  7. C语言中的for循环语句
  8. mysql数据库source命令导入sql文件
  9. 【同步复制常见错误处理1】当IDENTITY_INSERT设置为OFF时不能向表插入显示值。(源:MSSQLServer,错误码:544)
  10. 自定义OBS插件开发教程