pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

导入pandas库

import pandas as pd

导入Series, DataFrame

from pandas import Series, DataFrame

pandas常用命令

读取excel文件

df=pd.read_excel(fpath,sheet_name=name,usecols=[n,m,...])

创建数据表

pd.DataFrame(dict, columns=dict.index, index=[dict.columnnum])

一、数据表信息查看

1.查看维度

df.shape

2.查看数据格式

每一列数据的格式:

df.dtypes

查看某一列数据的格式:

df['列名'].dtype

3.查看数据表基本信息(列名称、数据格式、所占空间等):

df.info()

4.判断数据是否是空值

判断整个数据表数据是否为空值:

df.isnull()

判断某一列数据是否为空值:

df['列名'].isnull()

5.查看某一列的唯一值

df['列名'].unique()

6.查看数据表的值

df.values 

7.查看数据表索引

df.index

8.查看列名称

df.columns

9.查看前n行数据

df.head(n)#默认前5行数据

10.查看后n行数据

df.tail(n)#默认后5行数据

二、数据清洗

1.用0填充NA

df.fillna(value=0)#生成副本,不影响原df,添加参数inplace=True修改原df

2.用列均值对列NA进行填充

df['列名'].fillna(df['列名'].mean())

3.删除含有缺失值的行

df.dropna()

4.更改某一列数据的数据格式

df['列名'].astype('int')

5.更改列名称

df.rename(columns={'原列名: '新列名'})

6.删除后出现的重复值

df['列名'].drop_duplicates()

7.删除先出现的重复值

df['列名'].drop_duplicates(keep='last')

8.数据替换

df['列名'].replace('原数据', '新数据')

三、数据处理

数据读取

1.数据表合并

1.1两表合并

合并列

df_inner=pd.merge(df1,df2,how='inner')#交集,类似sql语句inner join

df_left=pd.merge(df1,df2,how='left')#类似sql语句left join

df_right=pd.merge(df1,df2,how='right')#类似sql语句right join

df_outer=pd.merge(df1,df2,how='outer')#并集

合并行

pd.concat([df1,df2],axis=0,ignore_index=True)#ignore_index=True,重置索引,默认False

1.2多表合并(合并行)

pd.concat([df1,df2,...],axis=0,ignore_index=True)

2.数据排序和排名

2.1数据排序

df.sort_values(by=['列名'])

df.sort_values(by=['列1','列2'])

2.2数据排名

df['列名'].rank()

3.数据修改

如果c_adress列的值==‘山东汕头’,则显示为'广东',否则显示为原数据

np.where(df1['c_adress']=='广东汕头','广东',df1['c_adress'])

四、数据选取

1.选取单行:df.loc['行标签']、df.iloc[n:]

2.选取单列:df['列标签']、df.loc[:,'列标签']df.iloc[:,n]

3.选取数据区域

df.loc[['行标签1','行标签2',...],[列标签1','列标签2',...]]

df.iloc[n:m,[n,m,k,...]]

五、数据筛选

1.使用大于、小于、等于进行数据筛选

2.使用或(|)、与(&)、非(~)进行数据筛选

3.使用.isin进行数据筛选

4.使用query函数进行数据筛选

5.使用.str进行数据筛选

六、分类汇总

1.统计每一列数据中非空的数量

df.count()

2.按某字段对所有的列进行汇总计数

df.groupby('字段').count()

3.按某字段对某列进行汇总计数

df.groupby('字段')['列名'].count()

4.按两个字段对某列进行汇总计数

df.groupby(['字段1','字段2'])['列名'].count()

5.按某字段进行分类计算某列的数量、合计和均值

df.groupby('字段')['列名'].agg(len,np.sum,np.mean)

七、统计分析

创建数据表

1.数据抽样

df.sample(n=None,frac=None,replace=False,weights=None,random_state=None, axis=None)[source]

1.1随机抽取n行

df.sample(n)

1.2按比例抽取

df.sample(frac=n)

1.3按抽样权重抽取

df.sample(n,weights=weights)

1.4无放回抽样

df.sample(n,replace=False)

1.5有放回抽样

2.计算最大值:max(axis=0/1)

3.计算最小值:min(axis=0/1)

4.计算均值:mean(axis=0/1)

5.计算标准差:std()

6.计算方差:var()

7.数据表描述性统计

df.describe()

8.计算协方差

计算两个字段间的协方差系数:df['列1'].cov(df['列2'])

计算数据表中所有字段间的协方差系数:df.cov()

9.计算相关性系数(接近1为正相关,接近-1为负相关,0为不相关)

计算两个字段间的相关性系数:df['列1'].corr(df['列2'])

计算数据表中所有字段间的相关性系数:df.corr()

发布于 2019-09-28

Python数据分析之pandas常用命令整理!相关推荐

  1. python常用命令汇总-python数据分析之pandas常用命令整理

    原标题:python数据分析之pandas常用命令整理 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型 ,提供了高效地 ...

  2. python pandas 分类汇总用法_python数据分析之pandas常用命令整理

    原标题:python数据分析之pandas常用命令整理 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型 ,提供了高效地 ...

  3. 【Python数据分析】pandas常用基础数据分析代码

    目录 一.获取老番茄数据 二.python数据分析 1.读取数据源 2.查看数据概况 3.查看异常值 4.1.查看最大值(max函数) 4.2.查看最小值(min函数) 5.1.查看TOP3的视频(n ...

  4. python 数据分析day4 Pandas 之 DataFrame

    DataFrame 一. 创建DataFrame 1. 二维数组创建 2. 字典创建 3. JSON创建 4. 读取Excel或CSV文件创建 5. 读数据库(MySQL)创建 二. 常用属性 三. ...

  5. lldb 常用命令整理

    lldb 常用命令整理 -- 飘云 推荐一个不用下载就可以玩app游戏的网站,http://h5-apps.com,更新速度绝对最快,真爽啊 lldb命令支持缩写,自己慢慢研究吧 优雅人生飘云原创整理 ...

  6. python常用命令汇总-Python爬虫框架Scrapy常用命令总结

    本文实例讲述了Python爬虫框架Scrapy常用命令.分享给大家供大家参考,具体如下: 在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令. 全局命令不需要依靠Scrapy项目就可以 ...

  7. docker常用命令_docker常用命令整理

    docker常用命令整理 代码狂魔 • 5 天前 • 技术积累 • 14 • 0 前面已经把docker是什么和 docker怎么安装已经写了,现在我将常用命令做一个整理,方便日后查阅 常用命令 do ...

  8. android 常用命令,Android开发常用命令整理

    一些命令,不常用就忘记了,特整理在这里,忘了就查查.. ·        alias 用于定义和查询别名,但不保存.修改home目录下.bashrc保存定义别名格式,不加参数即查询别名:alias c ...

  9. CMake常用命令整理

    CMake常用命令整理 转自:https://zhuanlan.zhihu.com/p/315768216 CMake 是什么我就不用再多说什么了,相信大家都有接触才会看一篇文章.对于不太熟悉的开发人 ...

  10. pandas 常用函数整理

    pandas常用函数整理,作为个人笔记. 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档. 约定 from pandas import Series, DataFrame im ...

最新文章

  1. Scala中的foreach方法和map方法
  2. linux 中安装 JDK
  3. java date加一天_Java日期时间API系列15-----Jdk8中API类,java日期计算2,年月日时分秒的加减等...
  4. SQL敲了mySQL变了_MySQL-Front肿么导出SQL文件
  5. 梦断代码阅读笔记 03
  6. [bzoj2819]Nim
  7. 基于吸盘的scara机械臂
  8. 一个屌丝程序员的青春(二四一)
  9. 为什么会显示贵州云服务器,为什么云服务器都在贵州
  10. onos中引入外部依赖
  11. 这不是结束,而是另一次重逢的开始
  12. 打印机设备与计算机连接类型,电脑打印机的连接方式 打印机的种类有哪些
  13. iOS播放器之基于VLCKit的自定义播放器
  14. java中英文切换_中英文切换
  15. 【⏰亲】今天冬至,早些回家!
  16. kitt2bag 解决“Failed to find match for field intensity”问题
  17. PTA 古风排版 (20 分)队列方法
  18. 康永,给残酷社会的善意短信
  19. 2016.11.29遇到的问题
  20. linux源代码阅读组合vim tags taglist

热门文章

  1. oracle中字母A或B是否包含在字符串中
  2. 跨域 No 'Access-Control-Allow-Origin' header is present on the requested resource
  3. 数据库MySql阶段总结
  4. OPPO Monitor Platform:从应用请求到后端处理,自研解决服务化架构系统监控难题...
  5. vmare 如何与主机共享相应的文件
  6. MYSQL have_innodb DISABLED无法创建innodb类型的表
  7. 网吧网络综合问题讨论和解决方案
  8. 在C#中使用SQL语句什么情况需要使用‘单引号’和“双引号”
  9. DeadObjectException
  10. Codeforces Beta Round #1 B. Spreadsheets 模拟