1.缺失值处理

1.1缺失值查看

在Python中直接调用info()方法就会返回每一列的缺失情况。

Python中缺失值一般用NaN表示,从用info()方法的结果来看,地区、销量跟销售额这三列是12个非null值,其他的都是13个非null值,说明这三列分别有一个缺失值。

1.2 缺失值删除

在Python中,我们利用的是dropna()方法,dropna()方法默认删除含有缺失值的行,也就是只要某一行有缺失值就将这一行删除。

如果想删除空白行,只要给dropna()方法传入一个参数how="all"即可,这样就只会删除全为空值的行。

1.3 缺失值填充

我们利用fillna()方法对数据表中的所有缺失值进行填充,在fillna()中输入要填充的值即可。

在Python中,我们也可以按不同列填充,只要在fillna()方法的括号中指明列名即可。

1.4 重复值处理

在Python中,我们利用drop_duplicates()方法,该方法默认对所有值进行重复值判断,且默认保留第一个(行)值。

上面是针对所有字段进行的重复值判断,我们同样可以只针对某一列或某几列进行重复值删除的判断,只需在drop_duplicates()方法中指明要判断的列名即可。

还可以自定义删除重复项时保留哪个,默认保留第一个,也可以设置保留最后一个,或者全部不保留。通过传入参数keep进行设置,参数keep默认值是first,即保留第一个;也可以是last,保留最后一个;还可以是False,即把重复值全部删除。

python数据预处理_Python数据预处理相关推荐

  1. 如何用python进行数据预处理_Python数据预处理

    数据预处理是指在对数据进行数据挖掘之前,先对原始数据进行必要的清洗.集成.转换.离散和规约等一系列的处理工作,已达到挖掘算法进行知识获取研究所要求的最低规范和标准.通常数据预处理包括:数据清洗.数据集 ...

  2. python matplotlib画数据分布图_Python数据可视化之matplotlib

    数据可视化能让人们更直观的传递数据所要表达的信息.Python 中有两个专用于可视化的库,matplotlib 和 seaborn ,本文将介绍matplotlib. Matplotlib:基于Pyt ...

  3. python数据输出_python数据输出

    下面的是我的code, 但是最后的结果全部都是others,有哪位大神能帮忙看产生输出的最简单方法是使用print语句,可以通过用逗号分隔零个或多个表达式.这个函数传递表达式转换为一个字符串,如下结果 ...

  4. python交互式数据可视化_python数据可视化工具

    熟知python的人都知道,python上常用的一款数据可视化工具是Matplotlib,但是Matplotlib是静态的.那么,Python中除了matplotlib外,还有哪些数据可视化工具呢?其 ...

  5. python客户画像_Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

  6. python hist函数_Python数据可视化:一文读懂直方图和密度图

    一图胜千言,使用Python的matplotlib库,可以快速创建高质量的图形. 用matplotlib生成基本图形非常简单,只需要几行代码,但要创建复杂的图表,需要调用更多的命令和反复试验,这要求用 ...

  7. python数据获取及预处理_python数据预处理(入门)

    数据预处理是进行数据分析的第一步,如何获取干净的数据是分析效果的前提. 今天学习了几个数据预处理的入门级方法,做笔记啦!工具:python.sklearn 1.行归一化/正则化Normalizer 使 ...

  8. python 并行化 图像处理_Python数据预处理:使用Dask和Numba并行化加速

    如果你善于使用Pandas变换数据.创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作.单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Num ...

  9. python数据预处理_Python数据预处理——缺失值、重复值

    一.缺失值处理 isnull( ) .fillna( ) .dropna( ) (1)查看 缺失 查看数据集缺失,返回每列的缺失个数 df.isnull().sum() 查看某字段有缺失的行 df[d ...

最新文章

  1. 在freebsd下安装vim(Debian下类似)
  2. python编码规范手册-PEP8 Python 编码规范整理
  3. VTK:PolyData之ResamplePolyLine
  4. windows mobile5.0之“hello world”
  5. 详解最短路算法模板(dijkstra+floyd+spfa)
  6. java恐怖游戏_分享个经典恐怖游戏系列
  7. linux字符界面下安装鼠标,Linux下有趣的命令:安装oneko实现小猫追鼠标
  8. 删除高频分量matlab,关于FFT之后怎么提出该频率分量
  9. 2022-03-07 学习docker开发vue前端
  10. java bo对象_java的几种对象(PO,VO,DAO,BO,POJO)解释 (转)
  11. 招银网络Java后端笔试题
  12. HFSS、ANSYS Electronics Desktop安装完成后无法启动、无法使用、无法打开问题的解决办法。
  13. 85-94年河南农村娃们的童年记忆,追忆童年旧时光
  14. B站首页(推荐页)分析
  15. tif文件转为shp文件_从Tif文件转为shp文件(ArcMap,代码)、gdal打包问题
  16. LeetCode 904. 水果成篮
  17. 两个offer:rovi和凯捷中国,不知道如何选择
  18. 如何下载蓟州区卫星地图高清版大图
  19. php许愿墙mysql_基于Apache+php+mysql的许愿墙网站的搭建
  20. 数据安全建设的效益分析

热门文章

  1. Android 微信支付 判断用户手机是否安装微信客户端
  2. 文章生成器-原创文章生成器
  3. 文本框时间为日历格式
  4. Antv/L7中使用高德地图插件
  5. 2023/2/16/day1
  6. java 反斜杠_java反斜杠\的用法 | 学步园
  7. EasyClick 免Root对接联众过验证码
  8. 【转载】有了这个列表,程序员不愁没练手的小项目了
  9. sizeof()函数
  10. 营销人员如何开发新市场