dataframe格式知识点总结

标题# dataframe格式知识点总结

1、DataFrame的创建

DataFrame是一种表格型数据结构，它含有一组有序的列，每列可以是不同的值。DataFrame既有行索引，也有列索引，它可以看作是由Series组成的字典，不过这些Series公用一个索引。
DataFrame的创建有多种方式，不过最重要的还是根据dict进行创建，以及读取csv或者txt文件来创建。这里主要介绍这两种方式。
参考链接：https://www.jianshu.com/p/8024ceef4fe2

根据字典创建

import pandas as pd
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],'year':[2000,2001,2002,2001,2002],'pop':[1.5,1.7,3.6,2.4,2.9]}
dataframe1 = pd.DataFrame(data)
print('创建的dataframe1如下：\n',dataframe1)

创建的dataframe1如下：state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9

DataFrame的行索引是index，列索引是columns，我们可以在创建DataFrame时指定索引的值：

dataframe2 = pd.DataFrame(data,index=['one','two','three','four','five'],columns=['year','state','pop','debt'])
print('创建的dataframe2如下：\n',dataframe2)

创建的dataframe2如下：year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN

使用嵌套字典也可以创建DataFrame，此时外层字典的键作为列，内层键则作为索引:

pop = {'Nevada':{2001:2.4,2002:2.9},'Ohio':{2000:1.5,2001:1.7,2002:3.6}}
frame3 = pd.DataFrame(pop)
frame3

	Nevada	Ohio
2001	2.4	1.7
2002	2.9	3.6
2000	NaN	1.5

我们可以用index，columns，values来访问DataFrame的行索引，列索引以及数据值，数据值返回的是一个二维的ndarray

frame3.values

array([[2.4, 1.7],[2.9, 3.6],[nan, 1.5]])

frame3.Nevada

2001    2.4
2002    2.9
2000    NaN
Name: Nevada, dtype: float64

2.读取文件

读取文件生成DataFrame最常用的是read_csv,read_table方法。该方法中几个重要的参数如下所示：

参数	描述
header	默认第一行为columns，如果指定header=None，则表明没有索引行，第一行就是数据
index_col	默认作为索引的为第一列，可以设为index_col为-1，表明没有索引列
nrows	表明读取的行数
sep或delimiter	分隔符，read_csv默认是逗号，而read_table默认是制表符
encoding	编码格式

其他创建DataFrame的方式有很多，比如我们可以通过读取mysql或者mongoDB来生成，也可以读取json文件等等，这里就不再介绍。

3.DataFrame轴的概念

在DataFrame的处理中经常会遇到轴的概念，这里先给大家一个直观的印象，我们所说的axis=0即表示沿着每一列或行标签\索引值向下执行方法，axis=1即
表示沿着每一行或者列标签模向执行对应的方法。

4.DataFrame一些性质

索引、切片

我们可以根据列名来选取一列，返回一个Series:

frame3['Nevada']

2001    2.4
2002    2.9
2000    NaN
Name: Nevada, dtype: float64

我们还可以选取多列或者多行：

import numpy as np
data = pd.DataFrame(np.arange(16).reshape((4,4)),index = ['Ohio','Colorado','Utah','New York'],columns=['one','two','three','four'])
#取列
data[['two','three']]

	two	three
Ohio	1	2
Colorado	5	6
Utah	9	10
New York	13	14

#取行
data[:2]

	one	two	three	four
Ohio	0	1	2	3
Colorado	4	5	6	7

#取特定的行和列
data[['two','three']][:2]

	two	three
Ohio	1	2
Colorado	5	6

当然，在选取数据的时候，我们还可以根据逻辑条件来选取：

#用于筛选特定的数据
data[data['three']>5]

	one	two	three	four
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

pandas提供了专门的用于索引DataFrame的方法，即使用ix方法进行索引,不过ix在最新的版本中已经被废弃了，如果要是用标签，最好使用loc方法，如果使用下标，最好使用iloc方法：

data

	one	two	three	four
Ohio	0	1	2	3
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

data.loc['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int32

data.iloc[0:3,2]

Ohio         2
Colorado     6
Utah        10
Name: three, dtype: int32

type(data.iloc[0:3,2])

pandas.core.series.Series

修改数据

可以使用一个标量修改DataFrame中的某一列，此时这个标量会广播到DataFrame的每一行上

data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],'year':[2000,2001,2002,2001,2002],'pop':[1.5,1.7,3.6,2.4,2.9]
}
frame2 = pd.DataFrame(data,index=['one','two','three','four','five'],columns=['year','state','pop','debt'])
frame2
frame2['debt']=16.5
frame2

	year	state	pop	debt
one	2000	Ohio	1.5	16.5
two	2001	Ohio	1.7	16.5
three	2002	Ohio	3.6	16.5
four	2001	Nevada	2.4	16.5
five	2002	Nevada	2.9	16.5

也可以使用一个列表来修改，不过要保证列表的长度与DataFrame长度相同：

frame2.debt = np.arange(5)
frame2

	year	state	pop	debt
one	2000	Ohio	1.5	0
two	2001	Ohio	1.7	1
three	2002	Ohio	3.6	2
four	2001	Nevada	2.4	3
five	2002	Nevada	2.9	4

可以使用一个Series，此时会根据索引进行精确匹配：

val = pd.Series([-1.2,-1.5,-1.7],index=['two','four','five'])
frame2['debt'] = val
frame2

	year	state	pop	debt
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	-1.2
three	2002	Ohio	3.6	NaN
four	2001	Nevada	2.4	-1.5
five	2002	Nevada	2.9	-1.7

重新索引

使用reindex方法对DataFrame进行重新索引。对DataFrame进行重新索引，可以重新索引行，列或者两个都修改，如果只传入一个参数，则会从新索引行：

frame = pd.DataFrame(np.arange(9).reshape((3,3)),index=[1,4,5],columns=['Ohio','Texas','California'])
frame2 = frame.reindex([1,2,4,5])
frame2

	Ohio	Texas	California
1	0.0	1.0	2.0
2	NaN	NaN	NaN
4	3.0	4.0	5.0
5	6.0	7.0	8.0

states = ['Texas','Utah','California']
frame.reindex(columns=states)

	Texas	Utah	California
1	1	NaN	2
4	4	NaN	5
5	7	NaN	8

填充数据只能按行填充，此时只能对行进行重新索引：

frame = pd.DataFrame(np.arange(9).reshape((3,3)),index = ['a','c','d'],columns = ['Ohio','Texas','California'])
frame.reindex(['a','b','c','d'],method = 'bfill')
#frame.reindex(['a','b','c','d'],method = 'bfill',columns=states) 报错

	Ohio	Texas	California
a	0	1	2
b	3	4	5
c	3	4	5
d	6	7	8

丢弃指定轴上的值

可以使用drop方法丢弃指定轴上的值，不会对原DataFrame产生影响,指定行时axis = 0,指定列时axis = 1(axis缺省值为0)

#原值
frame

	Ohio	Texas	California
a	0	1	2
c	3	4	5
d	6	7	8

import pandas as pd
import numpy as np
frame = pd.DataFrame(np.arange(9).reshape((3,3)),index = ['a','c','d'],columns = ['Ohio','Texas','California'])
new_frame = frame.drop('a',axis=0)

#丢弃后
new_frame

	Ohio	Texas	California
c	3	4	5
d	6	7	8

new_frame = frame.drop(['Ohio'],axis=1)
#丢弃后
new_frame

	Texas	California
a	1	2
c	4	5
d	7	8

算术运算

DataFrame在进行算术运算时会进行补齐，在不重叠的部分补足NA：

df1 = pd.DataFrame(np.arange(9).reshape((3,3)),columns=list('bcd'),index=['Ohio','Texas','Colorado'])
df2 = pd.DataFrame(np.arange(12).reshape((4,3)),columns = list('bde'),index=['Utah','Ohio','Texas','Oregon'])
df1 + df2

	b	c	d	e
Colorado	NaN	NaN	NaN	NaN
Ohio	3.0	NaN	6.0	NaN
Oregon	NaN	NaN	NaN	NaN
Texas	9.0	NaN	12.0	NaN
Utah	NaN	NaN	NaN	NaN

可以使用fill_value方法填充NA数据，不过两个df中都为NA的数据，该方法不会填充

df1.add(df2,fill_value=0)
df1

	b	c	d
Ohio	0	1	2
Texas	3	4	5
Colorado	6	7	8