pandas清洗数据常用命令

安装jupyter notebook

启动 jupyter

可以在里面编写python代码

1、 加载数据df = pd.DataFrame(pd.read_excel(‘test.xlsx’))

2、显示数据的几行几列 (980,13)df.shap

3、去除显示信息时中间的省略号pd.set_option(‘display.width’,None)

{因为在pandas中默认读取文件显示是按照最小内存来读取的,所以使用这代码设置读取文件长度

没有限制即不省略中间的部分}

4、设置行与行之间不省略df.set_option(‘display.max_rows’, None)

{ 详情见:http://www.cnblogs.com/zhuPython/p/9258950.html }

5、是空值就显示True不是就false df.isnull()

和isnull相反df.notnull()

6、去除含有空值的行df.dropna()

7、对空值进行填充(任意值或0)df.fillna(0)

8、去除重复值df.drop_duplicates()

9、对指定值进行替换

{ 详见:https://www.jianshu.com/p/2557a805211f }

①、普通替换(只替换整个,不会查询部分)df[‘户型面积’] = df[‘户型面积’].replace(‘平米’,‘替换’)

{ 也就是只查询单元格中整个内容符合替换条件不,如果一部分符合不替换 加上inplace = true

参数对文本进行操作 }

②、可以替换成空即删除多余的内容 df[‘户型面积’] = df[‘户型面积’].str.replace(‘平米’,’’)

{ 这中形式同样可以解决①中的只查询替换整个单元格的问题 }

③、可以使用正则表达式替换df[‘户型面积’] = df[‘户型面积’].replace(‘平米’,‘替换’)

{ 要加参数reges = true表示使用正则表达式 }

10、把一列数据分割df[‘A’],df[‘B’] = df[‘AB’].str.split(’~’,1).str

11、检查该列是否都是字符 loandata[‘emp_length’].apply(lambda x: x.isalpha())

数字 loandata[‘emp_length’].apply(lambda x: x.isalnum())

字母loandata[‘emp_length’].apply(lambda x: x.isdigit())

12、统计该列各种字段的数量 df[‘城市’].value_counts()

13、用replace去除指定的值http://www.cnblogs.com/massquantity/massquantity/p/9280905.html

14、查看统计结果是false的所有列df2 = df[df[‘售价’].apply(lambda x: x.isalnum())==False]

15、dataframe转化为数组np.array(df)df.as_matrix()

16、异常值检查

juypter 不省略_常用pandas清洗数据命令相关推荐

  1. python数据预处理案例_对pandas进行数据预处理的实例讲解

    参加kaggle数据挖掘比赛,就第一个赛题Titanic的数据,学习相关数据预处理以及模型建立,本博客关注基于pandas进行数据预处理过程.包括数据统计.数据离散化.数据关联性分析 引入包和加载数据 ...

  2. 向mysql数据库发送指令_常用的MySQL数据库命令大全

    飞信2017V5.6.8860.0 官方正式版 类型:聊天其它大小:69.1M语言:中文 评分:9.6 标签: 立即下载 常用的MySQL命令大全 一.连接MySQL 格式: mysql -h主机地址 ...

  3. mysql 数据库命令大全_常用的MySQL数据库命令大全

    飞信2017V5.6.8860.0 官方正式版 类型:聊天其它大小:69.1M语言:中文 评分:9.6 标签: 立即下载 常用的MySQL命令大全 一.连接MySQL 格式: mysql -h主机地址 ...

  4. python清洗数据用什么包_格式化和清洗数据的Python工具包

    世界很杂乱,来自现实世界的数据也一样杂乱.近来一份调查报告显示数据科学家60%的时间都花在整理数据上.不幸的是,57%的人认为这是工作中最头疼的一部分. 整理数据非常消耗时间,不过也有许多工具被开发出 ...

  5. python 筛选重复数据和不重复数据_[Python] Pandas 对数据进行查找、替换、筛选、排序、重复值和缺失值处理...

    1. 数据文件 2. 读数据 import pandas as pd data = pd.read_csv('D:\git\python\code\第5章\产品统计表.csv') print(data ...

  6. 使用pandas清洗数据(中文字符串的正则使用)

    对于之前的从链家网爬取下来的福田区二手房的数据,只是为了提取信息.但是如果要进行数据分析必须对数据进行清理和转换.python的pandas库可以说是中等规模数据处理最好用的工具.下面我就来演示如何对 ...

  7. pe系统如何读取手机_常用的手机数据提取方法

    闲暇时间,随手记录,愿与诸位朋友分享.学识有限,不当之处,恳请各位大神不吝赐教,也是对我自己的学习提高过程! 言归正文 手机取证,从字面理解,可以分为取和证两个过程.取,把数据原原本本的从手机中提取出 ...

  8. mysql语句命令_常用MySQL语句(命令行)

    # 命令行客户端MySQLMySQL是一个关系型数据库管理系统 安装MySQL服务端软件使用: sudo apt-get install mysql-server 安装MySQL客户端软件使用: su ...

  9. MySQL数据库常用命令_常用SQL语句及命令_MySQL常用语句

    文章目录 一.常用的 SQL 语句 (一)查看当前登录用户 (二)查看当前数据库 (三)如何查看全部用户? (四)创建数据库 (五)选择要操作的数据库 (六)创建表 (七)查看表的结构 (八)往表中插 ...

最新文章

  1. Game as a Service —— 开源云游戏搭载WebRTC
  2. SecureCRT同时向多个终端发送命令
  3. 测试案例6种编写方法_一种编写测试的好方法
  4. 【4.0】jdbcTemplate
  5. 【读书笔记】【独立思考】2018-04-03(1)
  6. hdu 1281棋盘游戏(二分匹配)
  7. 又拍网架构-又一个用到python的网站(转载)
  8. 用wrk测试nginx/nodejs/golang
  9. 用JavaScript编写COM组件的步骤
  10. java的mime类型_MIME类型大全
  11. Eclipse切换IDE界面语言
  12. 二维码扫码登陆流程设计
  13. 74cms搭建 2021.03.13
  14. Java全栈工程师知识体系介绍
  15. C语言_习题4-5 换硬币
  16. Hive学习使用一周感悟
  17. UltraEdit 15.10注册码
  18. echarts5.0引入地图,背景渐变色,航线图,地图阴影
  19. 科目一科目四理论考试助手藏文驾考藏语版
  20. 码农从菜鸟到大牛的必须文章

热门文章

  1. TypeScript里string和String,真不是仅仅是大小写的区别
  2. 华为云举办AI经典论文复现活动,打造领先AI开发者学习社区
  3. 自从安上了“AI”,这些商务经理天天按时下班了
  4. 应对游戏业务的四大“崩溃”场景有妙招,安全畅玩不是梦!
  5. 程序员一定要知道的11个实用工具网站
  6. 使用inspector功能查看和管理契约
  7. 【华为云实战开发】13.如何在云端快速搭建python网站
  8. android打包闪退,使用最新hx 进行android打包闪退
  9. mysql可以创建多少条数据类型_mysql支持的数据类型
  10. 红橙Darren视频笔记 面试题 为什么view获取宽高为0 onCreate onResume view.post源码浅析(继承activity api27)