数据科学 | Pandas新手入门

在Python中常用的数据分析工具中，我们通常使用pandas软件包。本文主要介绍pandas的常见操作。

1 数据框的生成与特性

1.1 数据框的生成

pandas以类似字典的方式来生成数据集。

import numpy as np
import pandas as pdd0 = {'x1':5,'x2':989}
d1 = {'x2':np.arange(3),'x1':([4.5,9],8),'x3':(1,2,5.7)}
d2 = {'x3':{'m':3,'n':5},'x2':([4.3],[9.0])}
df = pd.DataFrame([d0,d1,d2])
r2 = df.loc[2,'x3']['m']
r2

引用数据框中的数据，使用iloc和loc命令。loc根据数据框的行名index来索引对应的行。iloc是根据行号来索引，行号从0开始，逐次加1。

r1 = df.iloc[1,0][0]
r1
r2 = df.loc[2,'x3']['m']
r2
r3 = df.x1[1]
r3

数据框生成的两种写法：一种是使用字典的方式，另一种使用numpy包，生成向量后，再生成数据集。

d1 = {'x1':[1,2,3,4],'y1':[23,4,5,6]}
df1 = pd.DataFrame(d1)
df1
import numpy as np
d1 =np.array([[1,2,3,4],[23,4,5,6]]).T
df1 = pd.DataFrame(d1,columns=['x1','y1'])
df1

1.2 数据框的描述性统计

首先产生一个数据框。

import numpy as np
np.random.seed(523)
name = ['x1','x2','x3','y']
df = pd.DataFrame(np.random.randn(7,4),columns=name)
df['sex'] = ['F']*3 + ['M'] * 4
df

查看前两行。

df.head(2)

查看后三行。

df.tail(3)

输出一些描述性统计指标。

df.describe()

查看数据集的变量名称。

df.columns

查看数据的变量行名。

df.index

可以修改行名。

df.index = ['A','B','C','D','E','F','G']

输出最后3个变量的头4行。

df[df.columns[2:]][:4]

数据框的元素个数。

df.size

数据框的形状。

df.shape

1.3 数据框行列名修改

df.rename(columns={'x1':'price','x2':'length'},inplace=True)
df.columns
df.index = np.arange(2,9)
df
df['price2']=np.copy(df.price)
df2 = df.set_index('price2')
df2

把现有index的反向作为新的index。

new_index = df2.index[::-1]
df2 = df2.reindex(new_index)
df2

把原来的index变为一个变量。

df2.reset_index()

把原来的index去掉。

df2.reset_index(drop=True)

2 常见类型文件的存取

保存csv文件和xlsx文件。

import os
import pandas as pd
##当前文件所在位置
os.getcwd()
##创建文件夹Data
os.makedirs('/Data', exist_ok=True)
## 保存csv文件
df.to_csv('Data/Df.csv',index=False) ##不加入行名
df.to_csv('Data/Df2.csv',index=True) ##保存行名
## 保存xlsx文件
dfexcel = pd.ExcelWriter('Data/Df.xlsx')
df.to_excel(dfexcel,'dfexcel',index=True)
df.to_excel(dfexcel,'dfexcel2',startrow=2,startcol=3,index=True)
dfexcel.save()

读取excel数据。

## 读取excel数据
dfxls = pd.read_excel('Data/Df.xlsx','dfexcel',index_col=0)
dfxls

3 数据框的简单计算和数据操作

3.1 数据的生成和转置

np.random.seed(523)
df = pd.DataFrame(np.random.randn(7,4),columns=['A','B','C','D'])
#df['sex']=['F']*3+['M']*4
df.index = range(1,8)
df

数据框转置，df.T。

df2 = df.T
df2
df2.columns = ['A','B','C','D','E','F','G']
df2.index=range(1,5)
df2

3.2 数据框的加法减法

只有变量名、行名、数据类型对的上的元素才能相加，不匹配的元素相加会显示为NaN。

df3=df-df2
df3

3.3 计算变量的增长率

使用错位相减方法，计算变量A的增长率。

df['A_growth'] = df['A']/(df['A']-df['A'].diff())-1
df

3.4 通过变量的值筛选数据

选择A小于0，或者增长率大于1的A,B,C和A_growth列，下面两种写法结果一致。

df.loc[(df['A']<0)|(df.A_growth>1),['A','B','C','A_growth']]
df.loc[(df['A']<0)|(df.A_growth>1)][['A','B','C','A_growth']]

3.5 按照多个变量进行排序

把数据df中的每个数据按type进行降序排序，type内每类进行升序排序。

df['type'] = ['type1']*2+['type2']*2+['type1']*2+['type3']
df.sort_values(by=['type','B'],ascending=[False,True])

3.6 根据变量条件建立新变量

根据数据df中的A建立新变量AType,大于0为positive，小于等于0 为negtive。

df.loc[df.A>0,'AType']='positive'
df.loc[df.A<=0,'AType']='negtive'
df

3.7 在已有的数据框中插新变量

使用insert函数将id插入到第0列。若插入同名变量，需设置allow_duplicates=True。

df.insert(loc=0,column='id',value=np.random.randn(7))
df
df.insert(5,'id',0,allow_duplicates=True)
df

3.8 删除数据框的变量和观测值

使用drop变量,删除数据框df中的1，3，5行以及id变量。

df_new = df.drop(index=[1,3,5],columns='id')
df_new

4 长宽数据转换及数据集之间的合并

4.1 长宽数据转换

使用melt实现宽数据转长数据。id_vars是要保留的主字段，var_name拉长的分类变量，value_name拉长的度量值名称。

import pandas as pd
import numpy as np
df=pd.DataFrame({
"名称":["苹果","香蕉","橘子","梨","葡萄"],
"产地":["A","B","C","D","E"],
"Sale2013":[5000,3500,2300,2100,3100],
"Sale2014":[5050,3800,2900,2500,3300],
"Sale2015":[5050,3800,2900,2500,3300],
"Sale2016":[5050,3800,2900,2500,3300]})
df
df1=df.melt(id_vars=["名称","产地"],   #要保留的主字段
var_name="Year",                     #拉长的分类变量
value_name="Sale")                  #拉长的度量值名称
df1

长数据转为宽数据可以通过透视的功能实现，类似于excel中的透视表功能。用pivot方法实现。index为透视的索引，columns是透视的列，values是透视的值。

df2 = df1.pivot(index='Year',columns=['名称','产地'],values='Sale').T
df2

4.2 数据合并

使用merge进行合并，on为合并的关键字段，how为连接方式，merge函数默认连接方式是inner，另外有left,right,outer等，当两个数据集合并的列名不相同时用left_on,right_on。

import pandas as pd
import numpy as np
df1=pd.DataFrame({'key':['a','b','c','d','e'],'data2':np.arange(5)})
print(df1)
df2=pd.DataFrame({'key':['a','b','c'],'data1':np.arange(3)})
print(df2)
df=pd.merge(df1,df2,on='key',how='inner')
print(df)
df=pd.merge(df1,df2,on='key',how='left')
print(df)
df=pd.merge(df1,df2,on='key',how='right')
print(df)
df=pd.merge(df1,df2,on='key',how='outer')
print(df)
df1=df1.rename(columns={'key':'key1'})
df_new=pd.merge(df1,df2,left_on='key1',right_on='key',how='left')
print(df_new)

本文内容主要来自吴喜之和张敏老师编著《Python 数据科学的手段》，源码已上传到我的Github的OpenDataScience中，有需要的读者可以阅览下载。