1、交叉表(crosstab):

pandas中也有,常和pivot_table比较。

查看家庭ID与评分的交叉表:

2、处理缺失值:fillna

withColumn:新增一列数据

cast : 用于将某种数据类型的表达式显式转换为另一种数据类型

将缺失值删除:dropna

3、处理重复值

查看有没有重复值存在:distinct().count()

将重复值去除:dropDuplicates()

4、dataframe的agg应用:

转载于:https://www.cnblogs.com/Lee-yl/p/9771975.html

(4)pyspark---dataframe清理相关推荐

  1. pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据

    pyspark dataframe数据连接(join).转化为pandas dataframe.基于多个字段删除冗余数据 目录 pyspark dataframe数据连接(join).转化为panda ...

  2. pyspark dataframe基本用法

    pyspark dataframe基本用法 #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on F ...

  3. pyspark.sql写入mysql_将pyspark dataframe写入MySQL数据库时出错

    我得到以下错误: "Caused by: java.lang.NoSuchMethodException: org.apache.spark.sql.execution.datasource ...

  4. pySpark | pySpark.Dataframe使用的坑 与 经历

    笔者最近在尝试使用PySpark,发现pyspark.dataframe跟pandas很像,但是数据操作的功能并不强大.由于,pyspark环境非自建,别家工程师也不让改,导致本来想pyspark环境 ...

  5. PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理

    笔者最近需要使用pyspark进行数据整理,于是乎给自己整理一份使用指南.pyspark.dataframe跟pandas的差别还是挺大的. 文章目录 1.-------- 查 -------- -- ...

  6. pyspark dataframe生成一列常量数组

    pyspark dataframe生成一列常量数组 >>> from pyspark.sql.types import * >>> from pyspark.sql ...

  7. pyspark DataFrame 转RDD

    # -*- coding: utf-8 -*- from __future__ import print_function from pyspark.sql import SparkSession f ...

  8. PySpark:DataFrame及其常用列操作

    Spark版本:V3.2.1 1. DataFrame 虽然RDD是Spark最基本的抽象,但RDD的计算函数对Spark而言是不透明的.也就是说Spark并不知道你要在计算函数里干什么.无论你是要做 ...

  9. python输入一组数字求平均值和标准差_如何计算PySpark DataFrame的平均值和标准差?...

    您可以使用内置函数来获取聚合统计信息.以下是如何获得均值和标准偏差. from pyspark.sql.functions import mean as _mean, stddev as _stdde ...

  10. Pyspark:DataFrame的转化操作及行动操作

    Spark版本:V3.2.1 持续补充 序言   Spark DataFrame中的创建及常用的列操作可以参考博客:https://blog.csdn.net/yeshang_lady/article ...

最新文章

  1. nginx配置错误而导致目录遍历漏洞
  2. 为什么手机上传图片这么慢 前端_怎样在手机上就能把图片压缩到100K以下?
  3. 小白的算法初识课堂(part3)--递归
  4. 11张图步步演进:你一定能看懂的【分布式系统】容错架构设计!
  5. 微软已确认放弃Windows 10X操作系统 新功能下放
  6. 动态规划之字符串最短编辑距离
  7. java caffe 验证码,监控Caffe的培训/验证过程
  8. 计算机组成原理中EMAR是什么,计算机组成原理复习资料+试题
  9. Java网络编程——客户端Socket
  10. 关于adb no serial number的解决方案
  11. Padavan老毛子固件玩法入门
  12. 说说 title 和 alt 属性有什么区别?
  13. php内置函数分析之ucfirst()、lcfirst()
  14. 计算机毕业设计Java-ssm博雅楼自习室预约系统源码+系统+数据库+lw文档
  15. C++标准模板库(STL)(3) 之 vector map容器快速学习 (自学笔记)
  16. nvidia jetson agx xavier运行 OpenCL
  17. 在php中.=什么意思,在算法中mod是什么意思?
  18. html怎样写出x的平方,x的平方怎么打出来
  19. mysql 用户表结构设计_MySQL数据表结构设计
  20. 2019江西省赛F - String

热门文章

  1. gdb基本命令 与 技巧
  2. Codeforces 987A. Infinity Gauntlet(手速题,map存一下输出即可)
  3. C++学习笔记-----在一个构造函数中调用另一个构造函数
  4. scala连接postgre数据库
  5. arm--ldm、stm指令解析
  6. muduo学习笔记 - 第4章 C++多线程系统编程精要
  7. Kruskal重构树
  8. linux usb视频开发板,ARM开发板上USB 摄像头图像采集实现
  9. 变量之--列表初始化和结构化绑定
  10. tfrecord数据报错 InvalidArgumentError: Feature: feature (data type: string) is required but could not