第3章【思考与练习4】数据清洗,从studentsInfo.xlsx 文件的“Group1”表单中读取数据。数据填充,使用习题1的数据,使用列的平均值填充“体重”和“成绩”列的NaN数据。
P52思考与练习4
1.数据清洗。
1)从studentsInfo.xlsx 文件的“Group1”表单中读取数据;
2)将“案例教学”列数据值全改为NaN;
3)滤除每行数据中缺失3项以上(包括3项)的行;
4)滤除值全部为NaN的列;
#1、数据清洗
#1)
import pandas as pd
stu = pd.read_excel('data\studentsInfo.xlsx','Group1',index_col = 0)
print(stu)#2)
import numpy as np
stu['案例教学'] = np.nan
print(stu)#3)
print(stu.dropna(thresh = 7)) #总列数(9)-缺失要删除的行数(3)+1 = 7#4)
print(stu.dropna(axis = 1,how = 'all'))
2.数据填充。
1)使用习题1的数据;
2)使用列的平均值填充“体重”和“成绩”列的NaN数据;
3)使用上一行数据填充“年龄”列的NaN数据;
4)使用“中位数”填充“生活费用”NaN数据。
【提示:】使用df[“生活费用”].median() 计算中位数。
#2、数据填充
#1)
import pandas as pd
stu = pd.read_excel('data\studentsInfo.xlsx','Group1',index_col = 0)
print(stu)#2)
stu.fillna({'体重':stu['体重'].mean(),'成绩':stu['成绩'].mean()},inplace = True)
print(stu)#3)
stu['年龄'].fillna(method = 'ffill',inplace = True)
print(stu)#4)
stu.fillna({'月生活费':stu['月生活费'].median()},inplace = True)
第3章【思考与练习4】数据清洗,从studentsInfo.xlsx 文件的“Group1”表单中读取数据。数据填充,使用习题1的数据,使用列的平均值填充“体重”和“成绩”列的NaN数据。相关推荐
- 如何按照某几列值或文件名、Sheet名汇总多个excel文件多个表(多个工作薄,多个Sheet)的和、平均值、排名等等
作为收集信息的人员,往往面临要把收集来的信息进行汇总的情况.往往我们要手工合并,在进行求和.将多个单元格信息合并到一个单元格.求平均值.求排名 等等的处理. 如何按照某几列相同的值,或Sheet名.文 ...
- python用均值填充空值_python-用同一列的平均值填充pyspark DataFrame 列的空值
像这样的 DataFrame , rdd_2 = sc.parallelize([(0,10,223,"201601"), (0,10,83,"2016032" ...
- python填充nan_Pandas的数据清洗-填充NaN数据
21. Pandas的数据清洗-填充NaN 上一章介绍了如何查询数据里的NaN数据,以及删除NaN的问题,有的时候不是说仅仅删除了NaN就对,实际出现NaN数据的原因很多,对于NaN数据所在的行或者列 ...
- 2021年成都列五高中高考成绩查询,2021年成都高考各高中成绩及本科升学率数据排名及分析...
一.成都高考各高中成绩及本科升学率数据 七中林荫 2020年成都七中高考喜报:成都七中林荫校区理科生喻翼航710分(理科全省第一).700分以上6人. 石室文庙 2020年成都石室中学文庙校区高考喜报 ...
- hive 行转列和列转行的方法_读离线和实时大数据开发实战,为你揭开 Hive 优化实践的神秘面纱...
前言 「1024,1GB,一级棒!程序仔们节日快乐!」 ❝ 指尖流动的 1024 行代码,到底是什么? ❞ ❝ 是10行的迷茫?是101行的叛逆?是202行的理性思考?是307行对渴望的冲动?还是40 ...
- 成都七中高考成绩2021年查询,2021年成都高考各高中成绩及本科升学率数据排名及分析...
一.成都高考各高中成绩及本科升学率数据 七中林荫 2020年成都七中高考喜报:成都七中林荫校区理科生喻翼航710分(理科全省第一).700分以上6人. 石室文庙 2020年成都石室中学文庙校区高考喜报 ...
- 西安思源中学2021高考成绩查询入口,2021年西安高考各高中成绩及本科升学率数据排名及分析...
一.西安高考各高中成绩及本科升学率数据 理科方面,西工大附中雷轩宇同学以总分723分列全省第二名: 全省前20名中,该校有7人,占全省35%,列全省第一: 全省前30名中,该校有11人,占全省37%, ...
- fillna填充某一列_pandas学习笔记 -了解数据集基本情况,提取数据,缺失值NULL的判断,删除和补充(dropna,fillna的用法)...
part1 了解数据集基本情况 当我们面对一个很大的数据集的时候,如何快速得到他的行数与列数呢? 举个栗子,我们读取一个nhanes数据集,我们加上一个.shape,输出的结果就是他的行数和列数了. ...
- 2021烟台市地区高考成绩排名查询,2021年烟台高考各高中成绩及本科升学率数据排名及分析...
一.烟台高考各高中成绩及本科升学率数据 首先看一下山东省各类成绩,如下: 一.690分以上考生:共166人,包括各类选科成绩. 二.650分以上考生:共4680人,包括各类选科成绩. 三.600分以上 ...
- 烟台二中高考2021成绩查询,2021年烟台高考各高中成绩及本科升学率数据排名及分析...
一.烟台高考各高中成绩及本科升学率数据 首先看一下山东省各类成绩,如下: 一.690分以上考生:共166人,包括各类选科成绩. 二.650分以上考生:共4680人,包括各类选科成绩. 三.600分以上 ...
最新文章
- 数据持久化(六)之Using CoreData with MagicalRecord
- “毒蘑菇”治重度抑郁,获美国“突破疗法”
- TCP/IP的分层管理
- 【springmvc】@RequestParam详解以及加与不加的区别
- 利用ISA2006发布Exchange的RPC over HTTPS
- python调用bat_python windows 远程执行bat
- 机器学习之数据不平衡问题
- 21-7-28 git学习复习
- 深入理解HTTP一:网络基础TCP/IP
- 移动端人脸识别活体检测,高效集成
- wps折线图如何画多条折线_wps word如何绘制一有一条线的折线图
- Python3的sys模块
- LTE学习-信道均衡(ZF)
- 34岁程序员面试美团被拒绝:只招30岁以下,卖力能加班工资又少的
- 【Java多线程】(四)线程间通信
- excel查找出不来了_Excel查找全部,如何把查找出来内容全部复制?
- Java之------常用的设计模式
- 2022 年顶级商业和 IT 认证课程,让你获得职业信誉,提升竞争力
- java基础(多态的理解与应用)
- RSD 教程 —— 1 安装 RSD
热门文章
- HTML——<blockquote>与<q>的区别
- eregi php7.0,关于php:已弃用:函数eregi()已弃用
- python基础知识学习
- 关于升级短信源码开发接入SMPP通道
- 【历史上的今天】11 月 8 日:为开源献身的互联网之子;卷积神经网络 LeNet-5 问世;特斯拉发明遥控器
- 十年磨一剑:大众凭借电池的革命性突破超越特斯拉
- sd卡umount时busy解决方法
- CSS实现兼容浏览器的文字阴影效果
- jquery 内容分页_为内容创建现代jQuery分页
- linux 终止一个前台进程,Linux中前台起动的进程怎么结束?