pandas的基本功能与常用的数学统计方法

python高级应用与数据分析学习笔记 13

1、pandas的基本功能

1）数据文件读取文本数据读取

2）索引、选取和数据过滤

3）算术运算和数据对齐

4）函数的应用和映射

5）重置索引

2、数据文件读取文本数据读取

2.1 直接读取文本数据

data01.csv文件

name,age,source
张伊曼,27,90
张巧玲,27,90
张诗诗,27,90
张思思,27,90

data02.txt文件

张伊曼:27:90
张巧玲:27:90
张诗诗:27:90
张思思:27:90

import numpy as np
import pandas as pddf = pd.read_csv('data01.csv')                       #默认sep=','
print("data01.csv文件的原始数据==========================")
print(df)df = pd.read_csv('data01.csv',header=None)           #去除表头
print("data01.csv文件的去表头数据==========================")
print(df)df = pd.read_csv('data02.txt',sep=':',header=None)   #根据文本数据更换sep
print("data02.txt.txt文件的原始数据==========================")
print(df)

2.2 代码生成数据文件然后在读取

#1.2 代码生成数据文件然后再读取
df0 = pd.DataFrame(np.arange(18).reshape((6, 3)))
df0.columns = ['张伊曼', '张巧玲', '张诗诗']
print("df0=============================")
print(df0)
df0.to_csv('df0.csv', index=False)print("df1=============================")
df1 = pd.read_csv('df0.csv')
print(df1)

注意：当设置index的值，就会变成如图的样子：

#1.2 代码生成数据文件然后再读取
df0 = pd.DataFrame(np.arange(18).reshape((6, 3)))
df0.columns = ['张伊曼', '张巧玲', '张诗诗']
df0.index = ['a1', 'a2', 'a3','a4', 'a5', 'a6']
print("df0=============================")
print(df0)
df0.to_csv('df0.csv')print("df1=============================")
df1 = pd.read_csv('df0.csv')
print(df1)

3、数据过滤获取

3.1 大概知识点介绍

1}、pandas中缺省值NaN的4种处理方法：1 isnull 2 notnull 3 dropna 4 fillna

2}、df.dropna() 默认丢弃只要包含nan数据的行 axis=1则是丢弃列 how=’any’默认如果设置how=’all’则表示全部为nan才丢弃

3}、df.fillna() 默认填充数据，用法与df.dropna()参不多

3.2 dropna()的用法

# 2、数据过滤
#2.1 dropna()的用法
dict0 = {'语文': [90, 80, 60],'数学': [99, 70, 89],'外语': [98, 10, 75],'物理': 90
}
df0 = pd.DataFrame(dict0)
df0['数学'][1] = np.nanprint("df0原数据===============================")
print(df0)print("df0.dropna()===============================")
print(df0.dropna())       #默认删除有缺省值所在的行print("df0.dropna(axis=1)===============================")
print(df0.dropna(axis=1)) #默认删除有缺省值所在的列print("df0.dropna(how='all',axis=1)===============================")
df0.ix[1] = np.nan
print(df0.dropna(how='all')) #当所有元素是缺省值的时候 才删除print("df0.dropna(how='any',axis=1)===============================")
df0['外语'][0] = np.nan
print(df0.dropna(how='any')) #当所有元素有一个是缺省值的时候 才删除

3.3 fillna() 的用法

# #2.2 fillna()的用法
df0 = pd.DataFrame(np.random.random((7, 3)))
df3 = df0
print('df0的原始数据=================================')
print(df0)df0.ix[:4, 1] = np.nan
print('df0.ix[:4, 1] = np.nan 数据=================================')
print(df0)print('df0.ix[:2, 2] = np.nan 数据=================================')
df0.ix[:2, 2] = np.nan
print(df0)print('将所有的缺省的数据填充为1=================================')
print(df0.fillna(1))print('将所有的缺省数据分别填充为1和2=================================')
print(df3.fillna({1: 1, 2: 2}))

3、Series与DataFrame数据去重的方法

unique方法用于获取Series或DataFrame某列中的唯一值数组（去重数据后的数组)
value_counts方法用于计算一个Series或DataFrame某列中各值的出现频率
isin方法用于判断矢量化集合的成员资格，是否在里面，可用于选取Series中或DataFrame列中数据的子集

3.1 Series

# 数据去重
s1 = pd.Series(['a', 'b', 'c', 'b', 'a'])
print("s1的原始数据==============================")
print(s1)print("数据去重方法：s1.unique()==============================")
print(s1.unique())   #注意：s1.unique()返回的类型也是Seriesprint("单个值出现的个数：s1.value_counts()['a']==============================")
print(s1.value_counts()['a'])print("值是否存在的方法：s1.isin(['a', 'b'])==============================")
print(s1.isin(['a', 'b']))

3.2 DataFrame

···
df0 = pd.DataFrame(np.random.randint(10, 16, (3, 3)), columns=[‘张伊曼’, ‘张巧玲’, ‘张诗诗’])
print(“df0==============================”)
print(df0)

print(“df0.ix[0].unique()==============================”)
print(df0.ix[0].unique())

print(“df0[‘张伊曼’].unique()==============================”)
print(df0[‘张伊曼’].unique())

print(“df0[‘张伊曼’].value_counts()==============================”)
print(df0[‘张伊曼’].value_counts())

print(“df0.ix[0].value_counts()==============================”)
print(df0.ix[0].value_counts())

print(“df0[‘张伊曼’].isin([11])==============================”)
print(df0[‘张伊曼’].isin([11]))
···

4、pandas常用的数学统计方法

count 计算非NA值的数量
describe 针对Series或DataFrame列计算统计
min/max/sum 计算最小值最大值总和
argmin argmax 计算能够获取到最小值和最大值的索引位置（整数）
idxmin idxmax 计算能够获取到最小值和最大值的索引值
quantile 计算样本的分位数（0到1）
mean 值的平均数
median 值的中位数
mad 根据平均值计算平均绝对距离差
var 样本数值的方差
std 样本值的标准差
cumsum 样本值的累计和
cummin cummax 样本的累计最小值最大值
cumprod 样本值的累计积
pct_change 计算百分数变化
相关系数.corr() 以及协方差cov()

基本示例：

df0 = pd.DataFrame(np.random.randint(1,10,(4, 3)))
print("df0===============================")
print(df0)print("df0.describe()===============================")
print(df0.describe())print("df0.median()===============================")
print(df0.median())print("df0.var()===============================")
print(df0.var())print("df0.std()===============================")
print(df0.std())print("df0.corr()===============================")
print(df0.corr())print("df0.cov()===============================")
print(df0.cov())