P52思考与练习4

1.数据清洗。

     1)从studentsInfo.xlsx 文件的“Group1”表单中读取数据;

     2)将“案例教学”列数据值全改为NaN;

     3)滤除每行数据中缺失3项以上(包括3项)的行;

     4)滤除值全部为NaN的列;

#1、数据清洗
#1)
import pandas as pd
stu = pd.read_excel('data\studentsInfo.xlsx','Group1',index_col = 0)
print(stu)#2)
import numpy as np
stu['案例教学'] = np.nan
print(stu)#3)
print(stu.dropna(thresh = 7))               #总列数(9)-缺失要删除的行数(3)+1 = 7#4)
print(stu.dropna(axis = 1,how = 'all'))

2.数据填充。

     1)使用习题1的数据;

     2)使用列的平均值填充“体重”和“成绩”列的NaN数据;

     3)使用上一行数据填充“年龄”列的NaN数据;

     4)使用“中位数”填充“生活费用”NaN数据。

【提示:】使用df[“生活费用”].median()  计算中位数。

#2、数据填充
#1)
import pandas as pd
stu = pd.read_excel('data\studentsInfo.xlsx','Group1',index_col = 0)
print(stu)#2)
stu.fillna({'体重':stu['体重'].mean(),'成绩':stu['成绩'].mean()},inplace = True)
print(stu)#3)
stu['年龄'].fillna(method = 'ffill',inplace = True)
print(stu)#4)
stu.fillna({'月生活费':stu['月生活费'].median()},inplace = True)

第3章【思考与练习4】数据清洗,从studentsInfo.xlsx 文件的“Group1”表单中读取数据。数据填充,使用习题1的数据,使用列的平均值填充“体重”和“成绩”列的NaN数据。相关推荐

  1. 如何按照某几列值或文件名、Sheet名汇总多个excel文件多个表(多个工作薄,多个Sheet)的和、平均值、排名等等

    作为收集信息的人员,往往面临要把收集来的信息进行汇总的情况.往往我们要手工合并,在进行求和.将多个单元格信息合并到一个单元格.求平均值.求排名 等等的处理. 如何按照某几列相同的值,或Sheet名.文 ...

  2. python用均值填充空值_python-用同一列的平均值填充pyspark DataFrame 列的空值

    像这样的 DataFrame , rdd_2 = sc.parallelize([(0,10,223,"201601"), (0,10,83,"2016032" ...

  3. python填充nan_Pandas的数据清洗-填充NaN数据

    21. Pandas的数据清洗-填充NaN 上一章介绍了如何查询数据里的NaN数据,以及删除NaN的问题,有的时候不是说仅仅删除了NaN就对,实际出现NaN数据的原因很多,对于NaN数据所在的行或者列 ...

  4. 2021年成都列五高中高考成绩查询,2021年成都高考各高中成绩及本科升学率数据排名及分析...

    一.成都高考各高中成绩及本科升学率数据 七中林荫 2020年成都七中高考喜报:成都七中林荫校区理科生喻翼航710分(理科全省第一).700分以上6人. 石室文庙 2020年成都石室中学文庙校区高考喜报 ...

  5. hive 行转列和列转行的方法_读离线和实时大数据开发实战,为你揭开 Hive 优化实践的神秘面纱...

    前言 「1024,1GB,一级棒!程序仔们节日快乐!」 ❝ 指尖流动的 1024 行代码,到底是什么? ❞ ❝ 是10行的迷茫?是101行的叛逆?是202行的理性思考?是307行对渴望的冲动?还是40 ...

  6. 成都七中高考成绩2021年查询,2021年成都高考各高中成绩及本科升学率数据排名及分析...

    一.成都高考各高中成绩及本科升学率数据 七中林荫 2020年成都七中高考喜报:成都七中林荫校区理科生喻翼航710分(理科全省第一).700分以上6人. 石室文庙 2020年成都石室中学文庙校区高考喜报 ...

  7. 西安思源中学2021高考成绩查询入口,2021年西安高考各高中成绩及本科升学率数据排名及分析...

    一.西安高考各高中成绩及本科升学率数据 理科方面,西工大附中雷轩宇同学以总分723分列全省第二名: 全省前20名中,该校有7人,占全省35%,列全省第一: 全省前30名中,该校有11人,占全省37%, ...

  8. fillna填充某一列_pandas学习笔记 -了解数据集基本情况,提取数据,缺失值NULL的判断,删除和补充(dropna,fillna的用法)...

    part1 了解数据集基本情况 当我们面对一个很大的数据集的时候,如何快速得到他的行数与列数呢? 举个栗子,我们读取一个nhanes数据集,我们加上一个.shape,输出的结果就是他的行数和列数了. ...

  9. 2021烟台市地区高考成绩排名查询,2021年烟台高考各高中成绩及本科升学率数据排名及分析...

    一.烟台高考各高中成绩及本科升学率数据 首先看一下山东省各类成绩,如下: 一.690分以上考生:共166人,包括各类选科成绩. 二.650分以上考生:共4680人,包括各类选科成绩. 三.600分以上 ...

  10. 烟台二中高考2021成绩查询,2021年烟台高考各高中成绩及本科升学率数据排名及分析...

    一.烟台高考各高中成绩及本科升学率数据 首先看一下山东省各类成绩,如下: 一.690分以上考生:共166人,包括各类选科成绩. 二.650分以上考生:共4680人,包括各类选科成绩. 三.600分以上 ...

最新文章

  1. 数据持久化(六)之Using CoreData with MagicalRecord
  2. “毒蘑菇”治重度抑郁,获美国“突破疗法”
  3. TCP/IP的分层管理
  4. 【springmvc】@RequestParam详解以及加与不加的区别
  5. 利用ISA2006发布Exchange的RPC over HTTPS
  6. python调用bat_python windows 远程执行bat
  7. 机器学习之数据不平衡问题
  8. 21-7-28 git学习复习
  9. 深入理解HTTP一:网络基础TCP/IP
  10. 移动端人脸识别活体检测,高效集成
  11. wps折线图如何画多条折线_wps word如何绘制一有一条线的折线图
  12. Python3的sys模块
  13. LTE学习-信道均衡(ZF)
  14. 34岁程序员面试美团被拒绝:只招30岁以下,卖力能加班工资又少的
  15. 【Java多线程】(四)线程间通信
  16. excel查找出不来了_Excel查找全部,如何把查找出来内容全部复制?
  17. Java之------常用的设计模式
  18. 2022 年顶级商业和 IT 认证课程,让你获得职业信誉,提升竞争力
  19. java基础(多态的理解与应用)
  20. RSD 教程 —— 1 安装 RSD

热门文章

  1. HTML——<blockquote>与<q>的区别
  2. eregi php7.0,关于php:已弃用:函数eregi()已弃用
  3. python基础知识学习
  4. 关于升级短信源码开发接入SMPP通道
  5. 【历史上的今天】11 月 8 日:为开源献身的互联网之子;卷积神经网络 LeNet-5 问世;特斯拉发明遥控器
  6. 十年磨一剑:大众凭借电池的革命性突破超越特斯拉
  7. sd卡umount时busy解决方法
  8. CSS实现兼容浏览器的文字阴影效果
  9. jquery 内容分页_为内容创建现代jQuery分页
  10. linux 终止一个前台进程,Linux中前台起动的进程怎么结束?