juypter 不省略_常用pandas清洗数据命令
pandas清洗数据常用命令
安装jupyter notebook
启动 jupyter
可以在里面编写python代码
1、 加载数据df = pd.DataFrame(pd.read_excel(‘test.xlsx’))
2、显示数据的几行几列 (980,13)df.shap
3、去除显示信息时中间的省略号pd.set_option(‘display.width’,None)
{因为在pandas中默认读取文件显示是按照最小内存来读取的,所以使用这代码设置读取文件长度
没有限制即不省略中间的部分}
4、设置行与行之间不省略df.set_option(‘display.max_rows’, None)
{ 详情见:http://www.cnblogs.com/zhuPython/p/9258950.html }
5、是空值就显示True不是就false df.isnull()
和isnull相反df.notnull()
6、去除含有空值的行df.dropna()
7、对空值进行填充(任意值或0)df.fillna(0)
8、去除重复值df.drop_duplicates()
9、对指定值进行替换
{ 详见:https://www.jianshu.com/p/2557a805211f }
①、普通替换(只替换整个,不会查询部分)df[‘户型面积’] = df[‘户型面积’].replace(‘平米’,‘替换’)
{ 也就是只查询单元格中整个内容符合替换条件不,如果一部分符合不替换 加上inplace = true
参数对文本进行操作 }
②、可以替换成空即删除多余的内容 df[‘户型面积’] = df[‘户型面积’].str.replace(‘平米’,’’)
{ 这中形式同样可以解决①中的只查询替换整个单元格的问题 }
③、可以使用正则表达式替换df[‘户型面积’] = df[‘户型面积’].replace(‘平米’,‘替换’)
{ 要加参数reges = true表示使用正则表达式 }
10、把一列数据分割df[‘A’],df[‘B’] = df[‘AB’].str.split(’~’,1).str
11、检查该列是否都是字符 loandata[‘emp_length’].apply(lambda x: x.isalpha())
数字 loandata[‘emp_length’].apply(lambda x: x.isalnum())
字母loandata[‘emp_length’].apply(lambda x: x.isdigit())
12、统计该列各种字段的数量 df[‘城市’].value_counts()
13、用replace去除指定的值http://www.cnblogs.com/massquantity/massquantity/p/9280905.html
14、查看统计结果是false的所有列df2 = df[df[‘售价’].apply(lambda x: x.isalnum())==False]
15、dataframe转化为数组np.array(df)df.as_matrix()
16、异常值检查
juypter 不省略_常用pandas清洗数据命令相关推荐
- python数据预处理案例_对pandas进行数据预处理的实例讲解
参加kaggle数据挖掘比赛,就第一个赛题Titanic的数据,学习相关数据预处理以及模型建立,本博客关注基于pandas进行数据预处理过程.包括数据统计.数据离散化.数据关联性分析 引入包和加载数据 ...
- 向mysql数据库发送指令_常用的MySQL数据库命令大全
飞信2017V5.6.8860.0 官方正式版 类型:聊天其它大小:69.1M语言:中文 评分:9.6 标签: 立即下载 常用的MySQL命令大全 一.连接MySQL 格式: mysql -h主机地址 ...
- mysql 数据库命令大全_常用的MySQL数据库命令大全
飞信2017V5.6.8860.0 官方正式版 类型:聊天其它大小:69.1M语言:中文 评分:9.6 标签: 立即下载 常用的MySQL命令大全 一.连接MySQL 格式: mysql -h主机地址 ...
- python清洗数据用什么包_格式化和清洗数据的Python工具包
世界很杂乱,来自现实世界的数据也一样杂乱.近来一份调查报告显示数据科学家60%的时间都花在整理数据上.不幸的是,57%的人认为这是工作中最头疼的一部分. 整理数据非常消耗时间,不过也有许多工具被开发出 ...
- python 筛选重复数据和不重复数据_[Python] Pandas 对数据进行查找、替换、筛选、排序、重复值和缺失值处理...
1. 数据文件 2. 读数据 import pandas as pd data = pd.read_csv('D:\git\python\code\第5章\产品统计表.csv') print(data ...
- 使用pandas清洗数据(中文字符串的正则使用)
对于之前的从链家网爬取下来的福田区二手房的数据,只是为了提取信息.但是如果要进行数据分析必须对数据进行清理和转换.python的pandas库可以说是中等规模数据处理最好用的工具.下面我就来演示如何对 ...
- pe系统如何读取手机_常用的手机数据提取方法
闲暇时间,随手记录,愿与诸位朋友分享.学识有限,不当之处,恳请各位大神不吝赐教,也是对我自己的学习提高过程! 言归正文 手机取证,从字面理解,可以分为取和证两个过程.取,把数据原原本本的从手机中提取出 ...
- mysql语句命令_常用MySQL语句(命令行)
# 命令行客户端MySQLMySQL是一个关系型数据库管理系统 安装MySQL服务端软件使用: sudo apt-get install mysql-server 安装MySQL客户端软件使用: su ...
- MySQL数据库常用命令_常用SQL语句及命令_MySQL常用语句
文章目录 一.常用的 SQL 语句 (一)查看当前登录用户 (二)查看当前数据库 (三)如何查看全部用户? (四)创建数据库 (五)选择要操作的数据库 (六)创建表 (七)查看表的结构 (八)往表中插 ...
最新文章
- Game as a Service —— 开源云游戏搭载WebRTC
- SecureCRT同时向多个终端发送命令
- 测试案例6种编写方法_一种编写测试的好方法
- 【4.0】jdbcTemplate
- 【读书笔记】【独立思考】2018-04-03(1)
- hdu 1281棋盘游戏(二分匹配)
- 又拍网架构-又一个用到python的网站(转载)
- 用wrk测试nginx/nodejs/golang
- 用JavaScript编写COM组件的步骤
- java的mime类型_MIME类型大全
- Eclipse切换IDE界面语言
- 二维码扫码登陆流程设计
- 74cms搭建 2021.03.13
- Java全栈工程师知识体系介绍
- C语言_习题4-5 换硬币
- Hive学习使用一周感悟
- UltraEdit 15.10注册码
- echarts5.0引入地图,背景渐变色,航线图,地图阴影
- 科目一科目四理论考试助手藏文驾考藏语版
- 码农从菜鸟到大牛的必须文章
热门文章
- TypeScript里string和String,真不是仅仅是大小写的区别
- 华为云举办AI经典论文复现活动,打造领先AI开发者学习社区
- 自从安上了“AI”,这些商务经理天天按时下班了
- 应对游戏业务的四大“崩溃”场景有妙招,安全畅玩不是梦!
- 程序员一定要知道的11个实用工具网站
- 使用inspector功能查看和管理契约
- 【华为云实战开发】13.如何在云端快速搭建python网站
- android打包闪退,使用最新hx 进行android打包闪退
- mysql可以创建多少条数据类型_mysql支持的数据类型
- 红橙Darren视频笔记 面试题 为什么view获取宽高为0 onCreate onResume view.post源码浅析(继承activity api27)