关于文件的读写方面先放一下,接下来介绍数据清洗方面的知识。有时候数据对于特定的任务来说格式并不正确,需要转化为更加适合的数据形式。这里介绍数据清洗的有关基础知识,本篇博客先介绍如何处理缺失值。

一:处理缺失值

缺失数据在很多数据分析应用中都出现过,对于数值型数据,pandas使用浮点值NaN来表示缺失值。可以用isnull()对一直数组逐元素进行操作,返回布尔型判断结果,返回缺失值,而notnull相反。

在pandas中,用R语言中的编程惯例,将缺失值成为NA(not available),表示不存在的数据或者是不可观察的数据。而python内建的None值在对象数组也被当作NA处理。

可以用fillna填充缺失的数据,或使用'ffill'和'bfill'插值方法。

1. 过滤缺失值

用dropna过滤缺失值是非常常见的,它会返回Series中所有的非空数据及其索引值,和data[data.notnull()]是等价的。如下:

当处理DataFrame时,会复杂一点,dropna默认情况下会删除包含缺失值的行:

当传入参数how='all'时,将删除所有值均为NA的行:

想要用同样的方法删除列,传入参数axis=1即可:

过滤DataFrame的行的相关方法往往涉及时间序列数据,可以用thresh参数保留包含一定数量的观察值的行,如下:

二:补全缺失值

有时候需要用多种方法补全缺失值,而不是过滤缺失值,因为会丢弃其他数据。在大多数情况下,主要用fillna方法来补全缺失。里面可以用一个常数来替代缺失值。如下:

在调用fillna时使用字典,可以为不同列设定不同的填充值。

fillna返回的是一个新对象,但也可以修改已经存在的对象,用参数inplace=True即可。

还可以用method='fill'参数,但是用的少,这里就不说明了。

python的dropna 和notna的性能_python数据分析学习(7)数据清洗与准备(1)相关推荐

  1. python的dropna 和notna的性能_python轻松滤除缺失数据

    前言 缺失数据(missing data)在大部分数据分析应用中都很常见.Pandas的设计目标之一就是让缺失数据的处理任务尽量轻松. Pandas使用浮点值NAN(not a number)表示浮点 ...

  2. python客户画像_Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

  3. python可视化分析网易云音乐评论_Python数据可视化:网易云音乐歌单

    通过Python对网易云音乐华语歌单数据的获取,对华语歌单数据进行可视化分析. 可视化库不采用pyecharts,来点新东西. 使用matplotlib可视化库,利用这个底层库来进行可视化展示. 推荐 ...

  4. python中图形绘制技术的应用_python数据图形化—— matplotlib 基础应用

    matplotlib是python中常用的数据图形化工具,用法跟matlab有点相似.调用简单,功能强大.在Windows下可以通过命令行 pip install matplotlib 来进行安装. ...

  5. python 柱状图折线图共用一个图例_Python数据可视化–折线图–柱状图

    from matplotlib import pyplot import random x = list(range(0,100)) y = [random.randint(0,100) for r ...

  6. python词云图库一般装多久_Python数据可视化:词云库的讲解和如何制作词云

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 以下文章来源于仓储进化 ,作者 小无为 身边总是不经意间能看到词云的效果图.本章 ...

  7. python数据分析书单排行_Python数据分析学习日志(1. 书单)

    本人简介,2017年于北京交通大学毕业,电气硕士. 对数据分析很感兴趣,便开始学习利用Python进行数据处理,今后如有工作需要可能会涉及R语言. -------------------------- ...

  8. python怎么判断日期是星期几_python数据统计告诉你,是不是周四周五会跌的比较多...

    昨天在论坛看到有网友的一个提问: 对于很多投资来说,印象中最近这几年,尤其是前面的2016~2018年,周四跌的概率是比较大的,有时候会被戏谑为"法定砸盘日". 好奇百度了一下: ...

  9. python画饼状图的包_Python数据可视化:画饼状图、折线图、圈图

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. from math import pi import matplotlib ...

最新文章

  1. IIS 配置Http重定向到Https
  2. 哈工大中文信息处理_【NLP】哈工大车万翔教授 自然语言处理NLPer的核心竞争力是什么?19页ppt...
  3. python获取maco句柄_python之subprocess模块
  4. MyBatis中获取对应日期的记录的mapper语句
  5. zookeeper命令行(zkCli.shzkServer.sh)使用及四字命令
  6. ios 高德地图加载瓦片地图_IOS 高德地图 API 加载 WMS 服务
  7. 1002 写出这个数 (20分)
  8. SQL2005恢复只有mdf文件的数据库
  9. HDU2076 夹角有多大【水题】
  10. 绿城中国的数字化转型之大中台实践
  11. matplotlib画的图保存为emf格式
  12. java seek_java中seek()的用法,seek和seekfor有什么区别
  13. 带你实现电商商品同款识别算法
  14. RN路由-React Navigation组件5.x-基本原理(中文文档)
  15. 墨画子卿第一章第3节:挑衅
  16. 激光计算机基本原理,技巧:三分钟了解激光雕刻机的工作原理
  17. PHP 的 CLI 模式简介
  18. c语言中哪个是错误的常量,以下所列的C语言常量中,错误的是__________ 。
  19. 十分钟带你了解计算思维
  20. 互联网架构为什么要做服务化(Service)

热门文章

  1. 深圳一 AI 公司人脸数据泄露,超 256万 用户敏感信息在“裸奔”!
  2. Java 这一年:IntelliJ 称霸 IDE,Kotlin 成最大赢家!
  3. 程序员如何抓住工业互联网风口实现逆袭?
  4. 如何开发一款可以删除个人信息的社交软件?小扎做到了!
  5. 腾讯京东要建“反阿里联盟”?Python 或成 Excel 官方脚本语言;百度华为在一起 | 一周业界事
  6. 2018年秋计算机应用基础本科,广东开放大学远程教育专科2018年秋计算机应用基础Word模块测试...
  7. 有关javabean的说法不正确的是_7、关于JavaBean,下列叙述中不正确的是
  8. mysql递归查询所有子级,完整PDF
  9. java语言的主要特点有简单性,太厉害了!
  10. 最近被安排搞搜索接口优化,压测了4次,才勉强达到要求~