点击上方"可以叫我才哥"关注我们

今天我们就在jupyterlab里进行操作演示,本次推文内容主要以截图为主了。
有兴趣的可以公众号回复 "索引" 获取 演示原数据及 ipynb文件。
数据清洗中,我们经常需要从原始数据中通行列索引规则选择需要用于后续处理分析的数据,这便是本次的主要内容。

数据清洗(通过索引选择数据)

1.索引设置

我们在使用pandas读取文件数据时,可以设定初始的索引。
这里我用之前 爬取过的 拉勾网产品经理岗位数据进行演示如下:

读取数据时指定索引

1.1.reindex

reindex方法可以重新进行索引排序,如果某个索引值之前不存在则会引入缺失值。

reindex重新进行索引排序

1.2.set_index

set_index就是将某列设置为索引

set_index设置索引列

1.3.reset_index

reset_index就是重置索引(变为默认的索引 0到len()-1),比如可以把上面set_index设置的索引取消,,经常用在对数据进行处理(分组或透视处理)后

reset_index重置索引

1.4.rename

rename可以将行列索引标签名进行替换,用字典的形式

在这里插入图片描述

2.索引选择

2.1. iloc 整数标签

df数据
2.1.1. 行索引

行索引
2.1.2. 列索引

列索引
2.1.3. 混合索引

混合索引

2.2. loc 轴标签

2.2.1.行索引

行索引
2.2.2.列索引

列索引
2.2.3.混合索引

混合索引
2.2.4.函数式索引

函数式索引

2.3. []操作符方法

df[val]主要是选取某列或某些列序列,当然我们也可以通过切片形式选取行(这里是整数索引切片形式)

2.3.1.行索引

行索引
2.3.2.列索引

列索引
2.3.3.混合索引与函数式索引

混合索引与函数式索引
2.3.4.布尔索引

布尔索引可以理解为条件判断,根据条件判断选择满足的数据,是我们在数据清洗中最常见的手段之一。
布尔符号:'&','|','~':分别代表和and,或or,取反not单条件、且与或

布尔索引

取反、contains与isin

布尔索引

3.删除重复数据

duplicated方法 返回 是否重复的布尔列表

查看原始数据重复值情况

drop_duplicates方法删除重复数据,保留一条(可选第一条或最后一条)
keep = 'last' 保留最后一条
keep = 'first' 保留第一条

删除重复值

4.思考题

采取至少2种以上获取偶数行的方式

有兴趣的可以公众号回复 "索引" 获取 演示原数据及 ipynb文件

嗨,你还在看吗?

pandas 索引_Pandas学习笔记03数据清洗(通过索引选择数据)相关推荐

  1. linux pandas教程_Pandas 学习笔记

    1. 安装 如果做数据分析用途建议使用Anaconda,自带pandas numy 以及很多库,还有集成开发环境Spyder(自带的变量查看器很好用) WIN LINUX MAC均支持. 安装之后可以 ...

  2. MySQL 8——学习笔记03(插入、更新、删除 数据 [DML语句]、查询数据 [DQL语句])

    MySQL 8--学习笔记03(插入.更新.删除 数据 [DML语句]) 一.插入数据 1.1 插入所有字段.插入部分字段 1.2 同时插入多条记录(批量插入) 1.3 将查询结果插入到表中 二.更新 ...

  3. 安装命令:pip install xlrd ,pandas操作Excel学习笔记__7000

    pandas操作Excel学习笔记_loc和iloc_7000 pandas操作Excel学习笔记__7000 1.安装环境:pandas需要处理Excel的模块xlrd,所以需要提前安装xlrd.不 ...

  4. Python 基础学习笔记 03

    Python基础系列 Python 基础学习笔记 01 Python 基础学习笔记 02 Python 基础学习笔记 03 Python 基础学习笔记 04 Python 基础学习笔记 05 文章目录 ...

  5. ESP32 单片机学习笔记 - 03 - MCPWM脉冲输出/PCNT脉冲计数

    ESP32 单片机学习笔记 - 03 - MCPWM脉冲输出/PCNT脉冲计数 前言,继续上一篇的内容.因为上一篇刚好实验了iic和spi,形成一对.接下来讲pwm另起一篇. 目录 ESP32 单片机 ...

  6. 天池龙珠训练营-机器学习学习笔记-03 LightGBM 分类

    天池龙珠训练营-机器学习学习笔记-03 LightGBM 分类 本学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容,学习链接为:训练营 一 原理简介: 它是一款基于GBDT(梯度提升决策树)算法的 ...

  7. Git 的安装与初次使用 —— Git 学习笔记 03

    Git 的安装与初次使用 -- Git 学习笔记 03 Git 的安装与初次使用 -- Git 学习笔记 03 安装 Git 在 Linux 上安装 在 Windows 上安装 初次运行 Git 前的 ...

  8. JavaWeb黑马旅游网-学习笔记03【登陆和退出功能】

    Java后端 学习路线 笔记汇总表[黑马程序员] JavaWeb黑马旅游网-学习笔记01[准备工作] JavaWeb黑马旅游网-学习笔记02[注册功能] JavaWeb黑马旅游网-学习笔记03[登陆和 ...

  9. HTML/CSS学习笔记03【CSS概述、CSS选择器、CSS属性、CSS案例-注册页面】

    w3cschool菜鸟教程.CHM(腾讯微云):https://share.weiyun.com/c1FaX6ZD HTML/CSS学习笔记01[概念介绍.基本标签.表单标签][day01] HTML ...

最新文章

  1. 3d人脸重建 facescape 测试
  2. 机房配电柜、配电箱在安装时应该注意哪些“禁忌”?
  3. 用户名登陆的两种格式
  4. hdu 1007(最近点对)
  5. linux增加php进程数,linux - 调整php-fpm进程数之后,为什么负载飙升的厉害
  6. 电脑win10-重装系统
  7. dav1d 0.5.1:更快!
  8. 为什么我们要使用Async、Await关键字
  9. java redis 面试题_Java开发人员怎么面试 常见Redis面试题有哪些
  10. 为什么链接oracle报错,PG连接Oracle报错解决
  11. android项目实战博学谷源码_阿里爆款SpringBoot项目实战PDF+源码+视频分享
  12. 深入了解Java的SPI机制
  13. NLP自然语言处理-Pytorch情感分析简介
  14. 机器学习-百度笔试题
  15. 块截断编码图像压缩技术
  16. Jquery实现遮罩
  17. AVC编码中的规格 :High、Baseline、Main什么意思?还有High@L3.0、High@L4.0、High@L5.1等
  18. 判断是页面否为微信打开
  19. PythonStock(33)特别的巧,发现一个使用 vue 开发的股票系统应用,具备了一些基础的功能,可以拿过来直接跑起来。使用dockerfile进行构建,并跑起来
  20. 记一次腾讯面试:进程之间究竟有哪些通信方式?如何通信? ---- 告别死记硬背

热门文章

  1. Android笔记(七十) AlertDialog
  2. 关于SOA的四个基本观点 from MS
  3. mysql原生分页语句_mysql原生分页
  4. office online server收费吗_上海公司注册价格有乱收费吗?
  5. pptx和ppt计算机二级,计算机二级Ms office考试PPT考点总结.pptx
  6. java synchronized静态_Java中Synchronized的用法(简单介绍)
  7. php系统构建,增加知识: 如何使用PHPstudy为后端系统构建PHP源网站
  8. python通讯录管理程序的用户可行性_通讯录管理系统项目可行性分析
  9. 如何用python实现自动化_如何使用Python实现自动化水军评论
  10. linux php常用命令,php调用Linux系统常用命令