Python数据分析之pandas常用命令整理!
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
导入pandas库:
import pandas as pd
导入Series, DataFrame:
from pandas import Series, DataFrame
pandas常用命令
读取excel文件:
df=pd.read_excel(fpath,sheet_name=name,usecols=[n,m,...])
创建数据表:
pd.DataFrame(dict, columns=dict.index, index=[dict.columnnum])
一、数据表信息查看
1.查看维度:
df.shape
2.查看数据格式
每一列数据的格式:
df.dtypes
查看某一列数据的格式:
df['列名'].dtype
3.查看数据表基本信息(列名称、数据格式、所占空间等):
df.info()
4.判断数据是否是空值:
判断整个数据表数据是否为空值:
df.isnull()
判断某一列数据是否为空值:
df['列名'].isnull()
5.查看某一列的唯一值:
df['列名'].unique()
6.查看数据表的值:
df.values
7.查看数据表索引:
df.index
8.查看列名称:
df.columns
9.查看前n行数据:
df.head(n)#默认前5行数据
10.查看后n行数据:
df.tail(n)#默认后5行数据
二、数据清洗
1.用0填充NA:
df.fillna(value=0)#生成副本,不影响原df,添加参数inplace=True修改原df
2.用列均值对列NA进行填充:
df['列名'].fillna(df['列名'].mean())
3.删除含有缺失值的行:
df.dropna()
4.更改某一列数据的数据格式:
df['列名'].astype('int')
5.更改列名称:
df.rename(columns={'原列名: '新列名'})
6.删除后出现的重复值:
df['列名'].drop_duplicates()
7.删除先出现的重复值:
df['列名'].drop_duplicates(keep='last')
8.数据替换:
df['列名'].replace('原数据', '新数据')
三、数据处理
数据读取
1.数据表合并
1.1两表合并
合并列
df_inner=pd.merge(df1,df2,how='inner')#交集,类似sql语句inner join
df_left=pd.merge(df1,df2,how='left')#类似sql语句left join
df_right=pd.merge(df1,df2,how='right')#类似sql语句right join
df_outer=pd.merge(df1,df2,how='outer')#并集
合并行
pd.concat([df1,df2],axis=0,ignore_index=True)#ignore_index=True,重置索引,默认False
1.2多表合并(合并行)
pd.concat([df1,df2,...],axis=0,ignore_index=True)
2.数据排序和排名:
2.1数据排序
df.sort_values(by=['列名'])
df.sort_values(by=['列1','列2'])
2.2数据排名
df['列名'].rank()
3.数据修改
如果c_adress列的值==‘山东汕头’,则显示为'广东',否则显示为原数据
np.where(df1['c_adress']=='广东汕头','广东',df1['c_adress'])
四、数据选取
1.选取单行:df.loc['行标签']、df.iloc[n:]
2.选取单列:df['列标签']、df.loc[:,'列标签']df.iloc[:,n]
3.选取数据区域
df.loc[['行标签1','行标签2',...],[列标签1','列标签2',...]]
df.iloc[n:m,[n,m,k,...]]
五、数据筛选
1.使用大于、小于、等于进行数据筛选
2.使用或(|)、与(&)、非(~)进行数据筛选
3.使用.isin进行数据筛选
4.使用query函数进行数据筛选
5.使用.str进行数据筛选
六、分类汇总
1.统计每一列数据中非空的数量
df.count()
2.按某字段对所有的列进行汇总计数
df.groupby('字段').count()
3.按某字段对某列进行汇总计数
df.groupby('字段')['列名'].count()
4.按两个字段对某列进行汇总计数
df.groupby(['字段1','字段2'])['列名'].count()
5.按某字段进行分类计算某列的数量、合计和均值
df.groupby('字段')['列名'].agg(len,np.sum,np.mean)
七、统计分析
创建数据表
1.数据抽样
df.sample(n=None,frac=None,replace=False,weights=None,random_state=None, axis=None)[source]
1.1随机抽取n行
df.sample(n)
1.2按比例抽取
df.sample(frac=n)
1.3按抽样权重抽取
df.sample(n,weights=weights)
1.4无放回抽样
df.sample(n,replace=False)
1.5有放回抽样
2.计算最大值:max(axis=0/1)
3.计算最小值:min(axis=0/1)
4.计算均值:mean(axis=0/1)
5.计算标准差:std()
6.计算方差:var()
7.数据表描述性统计
df.describe()
8.计算协方差
计算两个字段间的协方差系数:df['列1'].cov(df['列2'])
计算数据表中所有字段间的协方差系数:df.cov()
9.计算相关性系数(接近1为正相关,接近-1为负相关,0为不相关)
计算两个字段间的相关性系数:df['列1'].corr(df['列2'])
计算数据表中所有字段间的相关性系数:df.corr()
发布于 2019-09-28
Python数据分析之pandas常用命令整理!相关推荐
- python常用命令汇总-python数据分析之pandas常用命令整理
原标题:python数据分析之pandas常用命令整理 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型 ,提供了高效地 ...
- python pandas 分类汇总用法_python数据分析之pandas常用命令整理
原标题:python数据分析之pandas常用命令整理 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型 ,提供了高效地 ...
- 【Python数据分析】pandas常用基础数据分析代码
目录 一.获取老番茄数据 二.python数据分析 1.读取数据源 2.查看数据概况 3.查看异常值 4.1.查看最大值(max函数) 4.2.查看最小值(min函数) 5.1.查看TOP3的视频(n ...
- python 数据分析day4 Pandas 之 DataFrame
DataFrame 一. 创建DataFrame 1. 二维数组创建 2. 字典创建 3. JSON创建 4. 读取Excel或CSV文件创建 5. 读数据库(MySQL)创建 二. 常用属性 三. ...
- lldb 常用命令整理
lldb 常用命令整理 -- 飘云 推荐一个不用下载就可以玩app游戏的网站,http://h5-apps.com,更新速度绝对最快,真爽啊 lldb命令支持缩写,自己慢慢研究吧 优雅人生飘云原创整理 ...
- python常用命令汇总-Python爬虫框架Scrapy常用命令总结
本文实例讲述了Python爬虫框架Scrapy常用命令.分享给大家供大家参考,具体如下: 在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令. 全局命令不需要依靠Scrapy项目就可以 ...
- docker常用命令_docker常用命令整理
docker常用命令整理 代码狂魔 • 5 天前 • 技术积累 • 14 • 0 前面已经把docker是什么和 docker怎么安装已经写了,现在我将常用命令做一个整理,方便日后查阅 常用命令 do ...
- android 常用命令,Android开发常用命令整理
一些命令,不常用就忘记了,特整理在这里,忘了就查查.. · alias 用于定义和查询别名,但不保存.修改home目录下.bashrc保存定义别名格式,不加参数即查询别名:alias c ...
- CMake常用命令整理
CMake常用命令整理 转自:https://zhuanlan.zhihu.com/p/315768216 CMake 是什么我就不用再多说什么了,相信大家都有接触才会看一篇文章.对于不太熟悉的开发人 ...
- pandas 常用函数整理
pandas常用函数整理,作为个人笔记. 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档. 约定 from pandas import Series, DataFrame im ...
最新文章
- Scala中的foreach方法和map方法
- linux 中安装 JDK
- java date加一天_Java日期时间API系列15-----Jdk8中API类,java日期计算2,年月日时分秒的加减等...
- SQL敲了mySQL变了_MySQL-Front肿么导出SQL文件
- 梦断代码阅读笔记 03
- [bzoj2819]Nim
- 基于吸盘的scara机械臂
- 一个屌丝程序员的青春(二四一)
- 为什么会显示贵州云服务器,为什么云服务器都在贵州
- onos中引入外部依赖
- 这不是结束,而是另一次重逢的开始
- 打印机设备与计算机连接类型,电脑打印机的连接方式 打印机的种类有哪些
- iOS播放器之基于VLCKit的自定义播放器
- java中英文切换_中英文切换
- 【⏰亲】今天冬至,早些回家!
- kitt2bag 解决“Failed to find match for field intensity”问题
- PTA 古风排版 (20 分)队列方法
- 康永,给残酷社会的善意短信
- 2016.11.29遇到的问题
- linux源代码阅读组合vim tags taglist
热门文章
- oracle中字母A或B是否包含在字符串中
- 跨域 No 'Access-Control-Allow-Origin' header is present on the requested resource
- 数据库MySql阶段总结
- OPPO Monitor Platform:从应用请求到后端处理,自研解决服务化架构系统监控难题...
- vmare 如何与主机共享相应的文件
- MYSQL have_innodb DISABLED无法创建innodb类型的表
- 网吧网络综合问题讨论和解决方案
- 在C#中使用SQL语句什么情况需要使用‘单引号’和“双引号”
- DeadObjectException
- Codeforces Beta Round #1 B. Spreadsheets 模拟