像这样的 DataFrame ,

rdd_2 = sc.parallelize([(0,10,223,"201601"), (0,10,83,"2016032"),(1,20,None,"201602"),(1,20,3003,"201601"), (1,20,None,"201603"), (2,40, 2321,"201601"), (2,30, 10,"201602"),(2,61, None,"201601")])

df_data = sqlContext.createDataFrame(rdd_2, ["id", "type", "cost", "date"])

df_data.show()

+---+----+----+-------+

| id|type|cost| date|

+---+----+----+-------+

| 0| 10| 223| 201601|

| 0| 10| 83|2016032|

| 1| 20|null| 201602|

| 1| 20|3003| 201601|

| 1| 20|null| 201603|

| 2| 40|2321| 201601|

| 2| 30| 10| 201602|

| 2| 61|null| 201601|

+---+----+----+-------+

我需要用现有值的平均值填充空值,预期结果为

+---+----+----+-------+

| id|type|cost| date|

+---+----+----+-------+

| 0| 10| 223| 201601|

| 0| 10| 83|2016032|

| 1| 20|1128| 201602|

| 1| 20|3003| 201601|

| 1| 20|1128| 201603|

| 2| 40|2321| 201601|

| 2| 30| 10| 201602|

| 2| 61|1128| 201601|

+---+----+----+-------+

其中1128是现有值的平均值。我需要在几个专栏中这样做。

我目前的方法是使用na.fill:

fill_values = {column: df_data.agg({column:"mean"}).flatMap(list).collect()[0] for column in df_data.columns if column not in ['date','id']}

df_data = df_data.na.fill(fill_values)

+---+----+----+-------+

| id|type|cost| date|

+---+----+----+-------+

| 0| 10| 223| 201601|

| 0| 10| 83|2016032|

| 1| 20|1128| 201602|

| 1| 20|3003| 201601|

| 1| 20|1128| 201603|

| 2| 40|2321| 201601|

| 2| 30| 10| 201602|

| 2| 61|1128| 201601|

+---+----+----+-------+

但这很麻烦。有什么想法吗?

python用均值填充空值_python-用同一列的平均值填充pyspark DataFrame 列的空值相关推荐

  1. python读excel字体颜色_python 设置 excel 单元格颜色填充和字体效果

    原博文 2020-02-29 23:33 − 0.import import openpyxl from openpyxl.styles import colors, fills, Font, Pat ...

  2. python 拆分excel单元格_Python Excel 单元格 拆分并填充内容,功能和的wps类似

    一.实现的功能: 二.效果 1.拆分并填充前 2.拆分并填充后 三.代码 import openpyxl from copy import deepcopy # 原文:https://www.cnbl ...

  3. python输出文本和值_python读取文本中数据并转化为DataFrame的实例

    在技术问答中看到一个这样的问题,感觉相对比较常见,就单开一篇文章写下来. 从纯文本格式文件 "file_in"中读取数据,格式如下: 需要输出成"file_out&quo ...

  4. python设置单元格宽度_Python xlwt-访问现有单元格内容,自动调整列宽

    我刚刚实现了一个包装类,它跟踪输入项的宽度.看起来效果不错.import arial10 class FitSheetWrapper(object): """Try to ...

  5. python填充空值_python dataframe均值填充知识点详解

    python dataframe均值填充 pandas 用均值填充缺失值列的技巧 pd.DataFrame中通常含有许多特征,有时候需要对每个含有缺失值的列,都用均值进行填充,代码实现可以这样: fo ...

  6. python数据表元素不为空值_python 填充空值失败_怎么用 Python 做数据分析实例

    01 生成数据表 第一部分是生成数据表,常见的生成方法有两种,第一种是导入外部数据,第二种是直接写入数据. Excel 中的文件菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导 ...

  7. python居中填充_Python代码中 如何将字符串填充为指定长度并保持原字符串居中呢?...

    摘要: 下文讲述Python代码中字符串填充的方法分享,如下所示: 字符串填充有很多方法, 如for循环填充,while循环填充 那么Python语言中,到底有没有快捷方式对字符串进行填充呢? 下文将 ...

  8. python怎样填充颜色_python中如何给图形填充颜色

    使用Turtle不只可以画线条,也可以将画出的封闭线条进行填充. -设定填充色:fillecolor(r, g, b) -开始填充:begin_fill() -结束填充:end_fill() 画一组随 ...

  9. python 渐变色柱形图_Python利用imshow制作自定义渐变填充柱状图(colorbar)

    目的 在各种各样的理论计算中,常常需要绘制各种填充图,绘制完后需要加渐变填充的colorbar.可是有些软件如VMD,colorbar渲染后颜色分布有些失真,不能较准确的表达各颜色对应的数值.用ps中 ...

最新文章

  1. java concat和 的区别,RxJava2 merge和concat 区别
  2. 自定义快捷命令程序(VC++加批处理)
  3. 防止Visual C++应用程序缓冲区溢出
  4. STM32F103 - CubeMX 的使用实例详细(04.5)- STM32F103的 - 定时器设定详细解释 - 定时器相关的HAL接口函数 - 定时器的中断
  5. 【BZOJ3224】【codevs4543】【tyvj1728】普通平衡树,第一次的splay
  6. 无任何网络提供程序接受指定的网络路径解决方法
  7. 机器学习基础(九)—— iterative optimization
  8. 【NOIP2003】【Luogu1044】栈
  9. HDU 4381 Grid
  10. 数字人民币APP(试点版)上线引关注 | 产业区块链发展周报
  11. pip3.7.5安装环境依赖onnxruntime、onnx、numpy、skl2onnx
  12. html图片上传java_PhoneGap 上传图片HTML和服务器端端实现(JAVA)
  13. 芝诺数据高校产学研用成果展示|携程酒店(北京)数据分析报告
  14. 为什么可积不一定可导_函数可积、原函数存在、变上限函数的关系解读(绝对原创)...
  15. 小程序如何实现下拉选项操作
  16. Visual Studio各版本区别
  17. 2.1.4 奇偶校验码
  18. UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xbb‘ in position 61547 解决办法
  19. Java 解析摩尔斯电码并生成音频流/文件
  20. Yuan先生博客-Django基础

热门文章

  1. 【vscode 插件】为 markdown 文章标题自动添加多级序号
  2. 图形界面 II: 设置库的事件处理函数 (第三章)
  3. 计算机屏幕暗度怎么调,电脑屏幕亮度太亮怎么调暗一点
  4. 内蒙古大学计算机学院教授,内蒙古大学计算机学院软件学院硕士生导师:张俊星...
  5. 蒙德里安森林算法_蒙德里安的格子画教案
  6. 一份私人alias清单
  7. 微信小程序开发笔记 支付篇③——微信支付JSAPI下单和微信小程序调起支付(V2版本)
  8. lincx Shell脚本编程之字符串的截取,替换,按条件掐头去尾
  9. 经纬度与距离的换算关系
  10. unity 音频可视化方案