数据分析之处理丢失数据
处理丢失数据:
有两种丢失数据
None
np.nan(NaN的形式)
1 None
None是Python自带的,其类型为python object。因此,None不能参与到任何计算中。
import numpy as np import pandas as pd from pandas import Series,DataFrame type(None) #NoneType type(np.nan) #float
np.nan 的数据类型可以进行数据运算np.nan + 1 得到的数据类型还是np.nan np.nan是浮点类型,能参与到计算中。但计算的结果总是NaN。2 pandas中的None与NaN
pandas中的None与NaN
1 pandas中的None与np.nan是视作np.nan
创建DataFrame
df = DataFrame(data=np.random.randint(0,100,size=(13,9))) df.iloc[2,4] = None df.iloc[5,5] = np.nan df.iloc[2,2] = None df.iloc[7,3] = None df.iloc[6,8] = None
2 pandas处理空值操作
isnull() 判断数据是否为空,空是True notnull() 判断数据是否为空,空是False dropna(): 过滤丢失数据,一般不用,有可能误删数据, fillna(): 填充丢失数据
df.isnull().any(axis=1) 判断行有空值吗 有空值是True df.notnull().all(axis=1) 判断行有空值吗 有空值是False一般是这样组合使用的df.loc[df.notnull().all(axis=1)]取出空值的行df.dropna(axis=0) 删除行中有空值的行,0是行
3 填充函数 Series/DataFrame的数据
df.fillna(method='ffill',axis=0) ffill 将空值添上上一行元素的数据df.fillna(method='bfill',axis=0) ffill 将空值添上下一行元素的数据
数据清洗的案例:
文件下载:
https://pan.baidu.com/s/1FFJsgnB1wTW83uJQTJgZew、
#方式一 删除空值的行temp_df = pd.read_excel('测试数据.xlsx') temp_df = temp_df[[1,2,3,4]] #取出数据的前四列 temp_df.dropna(axis=0) 将空值的行删除 # 方式二 填充空值的行 #首次填充之后对应的结果 test_df = temp_df.fillna(method='bfill',axis=0) #校验test_df中还是否存在空值:查看列中是否还有空值 test_df.isnull().any(axis=0)
转载于:https://www.cnblogs.com/lulin9501/p/11347698.html
数据分析之处理丢失数据相关推荐
- 爬虫 数据分析 处理丢失数据 pandas的拼接操作
处理丢失的数据 处理丢失的数据 两种丢失的数据Nonenp.nan(NaN)None是Python自带的,其类型为python object.因此,None不能参与到任何计算中.np.nan是浮点类型 ...
- 命名管道 win7未响应_大数据分析Python建立分析数据管道
如果您曾经想通过流数据或快速变化的数据在线学习Python,那么您可能会熟悉数据管道的概念.数据管道允许您通过一系列步骤将数据从一种表示形式转换为另一种表示形式.数据管道是数据工程的关键部分,我们将在 ...
- missforest_missforest最佳丢失数据插补算法
missforest Missing data often plagues real-world datasets, and hence there is tremendous value in im ...
- NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正
NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正 1. 序列比对 1.1 参考基因组建索引 1.2 序列比对 2. 排序 3. PCR重复标记 ...
- Python数据分析高薪实战第六天 数据过滤与数据清洗
13 高级索引:过滤与查看表格中的局部数据 上一节课中,我们学习了 pandas 中两个核心的数据结构:Series 和 DataFrame,之后还学习了 DataFrame 的常见操作,比如对列.行 ...
- 10万字城市大脑一网统管大数据分析平台及大数据展示平台建设方案
导读:原文<10万字城市大脑一网统管大数据分析平台及大数据展示平台建设方案>word(获取来源见文尾),本文精选其中精华及架构部分,逻辑清晰.内容完整,为快速形成售前方案提供参考. 目 ...
- 工业数据分析技术与实战之数据分析的挑战——昆仑数据田春华培训听课记录
昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战 视频链接 .培训给出了一些实际的数据分析例子,包括"设备管理"."运作优化"和"营销服务 ...
- 《数据分析变革:大数据时代精准决策之道》一2.2 为大数据做好准备
本节书摘来自异步社区<数据分析变革:大数据时代精准决策之道>一书中的第2章,第2.2节,作者[美]Bill Franks(比尔•弗兰克斯),更多章节内容可以访问云栖社区"异步社区 ...
- discard connection丢失数据_python kafka 生产者发送数据的三种方式
python kafka 生产者发送数据的三种方式 发送方式 同步发送 发送数据耗时最长 有发送数据的状态,不会丢失数据,数据可靠性高 以同步的方式发送消息时,一条一条的发送,对每条消息返回的结果判断 ...
- 《数据分析变革:大数据时代精准决策之道》一导读
前言 数据分析变革:大数据时代精准决策之道 正如19世纪的制造业所经历的那样,如今的分析领域也需要经受一场"工业革命".当下的分析流程多以一种像手工艺式的方式创建,需要花费很多心思 ...
最新文章
- 分享9个提高代码运行效率的小技巧
- AMPAS/ASC Common File Format LUT
- Kubernetes——基本概念与理论
- 利用Chrome开发者工具分析C4C Opportunity搜索的前端性能
- 《零基础看得懂的C++入门教程 》——(5) 容我套个娃 循环
- 基于C语言、线性表的 二、八、十、十六进制转换 及 加运算、左右移位运算、乘法运算 的科学计算器设计
- GridView xml中设置android:focusable=false无效的原因
- 训练自己的Android TensorFlow神经网络
- 5G 是时候商用了?| 程序员硬核评测
- VS错误之error LNK2019: 无法解析的外部符号
- linux查询redis版本_Docker安装Redis并介绍漂亮的可视化客户端进行操作
- 华泰证券首席培训张继强 债市分析框架PPT
- linux设置挂载服务端防火墙_「rpcbind」Linux下nfs+rpcbind实现服务器之间的文件共享(mount 挂载) - seo实验室...
- 啊哈c语言逻辑的挑战课后题答案,啊哈C语言 逻辑的挑战(修订版)pdf
- bbys_tu_2016
- 亚洲杯:国足0:3不敌伊朗 无缘四强
- 数字图像处理成长之路13:SIFT之极值点(子像元插值)
- 1.2 网络爬虫分类
- 斗战神单机版正在连接服务器,斗战神登录卡在这里,又不提示登录失败或者连接超时什......
- java 画笔粗细,javascript结合html5 canvas实现(可调画笔颜色/粗细/橡皮)的涂鸦板