python数据预处理_Python数据预处理
1.缺失值处理
1.1缺失值查看
在Python中直接调用info()方法就会返回每一列的缺失情况。
Python中缺失值一般用NaN表示,从用info()方法的结果来看,地区、销量跟销售额这三列是12个非null值,其他的都是13个非null值,说明这三列分别有一个缺失值。
1.2 缺失值删除
在Python中,我们利用的是dropna()方法,dropna()方法默认删除含有缺失值的行,也就是只要某一行有缺失值就将这一行删除。
如果想删除空白行,只要给dropna()方法传入一个参数how="all"即可,这样就只会删除全为空值的行。
1.3 缺失值填充
我们利用fillna()方法对数据表中的所有缺失值进行填充,在fillna()中输入要填充的值即可。
在Python中,我们也可以按不同列填充,只要在fillna()方法的括号中指明列名即可。
1.4 重复值处理
在Python中,我们利用drop_duplicates()方法,该方法默认对所有值进行重复值判断,且默认保留第一个(行)值。
上面是针对所有字段进行的重复值判断,我们同样可以只针对某一列或某几列进行重复值删除的判断,只需在drop_duplicates()方法中指明要判断的列名即可。
还可以自定义删除重复项时保留哪个,默认保留第一个,也可以设置保留最后一个,或者全部不保留。通过传入参数keep进行设置,参数keep默认值是first,即保留第一个;也可以是last,保留最后一个;还可以是False,即把重复值全部删除。
python数据预处理_Python数据预处理相关推荐
- 如何用python进行数据预处理_Python数据预处理
数据预处理是指在对数据进行数据挖掘之前,先对原始数据进行必要的清洗.集成.转换.离散和规约等一系列的处理工作,已达到挖掘算法进行知识获取研究所要求的最低规范和标准.通常数据预处理包括:数据清洗.数据集 ...
- python matplotlib画数据分布图_Python数据可视化之matplotlib
数据可视化能让人们更直观的传递数据所要表达的信息.Python 中有两个专用于可视化的库,matplotlib 和 seaborn ,本文将介绍matplotlib. Matplotlib:基于Pyt ...
- python数据输出_python数据输出
下面的是我的code, 但是最后的结果全部都是others,有哪位大神能帮忙看产生输出的最简单方法是使用print语句,可以通过用逗号分隔零个或多个表达式.这个函数传递表达式转换为一个字符串,如下结果 ...
- python交互式数据可视化_python数据可视化工具
熟知python的人都知道,python上常用的一款数据可视化工具是Matplotlib,但是Matplotlib是静态的.那么,Python中除了matplotlib外,还有哪些数据可视化工具呢?其 ...
- python客户画像_Python数据分析学习笔记05:用户画像
Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...
- python hist函数_Python数据可视化:一文读懂直方图和密度图
一图胜千言,使用Python的matplotlib库,可以快速创建高质量的图形. 用matplotlib生成基本图形非常简单,只需要几行代码,但要创建复杂的图表,需要调用更多的命令和反复试验,这要求用 ...
- python数据获取及预处理_python数据预处理(入门)
数据预处理是进行数据分析的第一步,如何获取干净的数据是分析效果的前提. 今天学习了几个数据预处理的入门级方法,做笔记啦!工具:python.sklearn 1.行归一化/正则化Normalizer 使 ...
- python 并行化 图像处理_Python数据预处理:使用Dask和Numba并行化加速
如果你善于使用Pandas变换数据.创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作.单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Num ...
- python数据预处理_Python数据预处理——缺失值、重复值
一.缺失值处理 isnull( ) .fillna( ) .dropna( ) (1)查看 缺失 查看数据集缺失,返回每列的缺失个数 df.isnull().sum() 查看某字段有缺失的行 df[d ...
最新文章
- 在freebsd下安装vim(Debian下类似)
- python编码规范手册-PEP8 Python 编码规范整理
- VTK:PolyData之ResamplePolyLine
- windows mobile5.0之“hello world”
- 详解最短路算法模板(dijkstra+floyd+spfa)
- java恐怖游戏_分享个经典恐怖游戏系列
- linux字符界面下安装鼠标,Linux下有趣的命令:安装oneko实现小猫追鼠标
- 删除高频分量matlab,关于FFT之后怎么提出该频率分量
- 2022-03-07 学习docker开发vue前端
- java bo对象_java的几种对象(PO,VO,DAO,BO,POJO)解释 (转)
- 招银网络Java后端笔试题
- HFSS、ANSYS Electronics Desktop安装完成后无法启动、无法使用、无法打开问题的解决办法。
- 85-94年河南农村娃们的童年记忆,追忆童年旧时光
- B站首页(推荐页)分析
- tif文件转为shp文件_从Tif文件转为shp文件(ArcMap,代码)、gdal打包问题
- LeetCode 904. 水果成篮
- 两个offer:rovi和凯捷中国,不知道如何选择
- 如何下载蓟州区卫星地图高清版大图
- php许愿墙mysql_基于Apache+php+mysql的许愿墙网站的搭建
- 数据安全建设的效益分析