Pandas 简易教程

  • 1.Pandas简介
  • 2.创建
    • 2.1创建dataFrame
    • 2.2创建Series
  • 3.dataframe数据访问
    • 3.1 获取一列--列标签
    • 3.2 获取多列--列标签列表
    • 3.3 获取一行--行标签.loc()
    • 3.4 获取多行--行切片操作.loc()
    • 3.5 index 获取行列信息--df.iloc()
    • 3.6 获取一个元素
    • 3.7 布尔值选择数据
  • 4.dataframe删除操作
    • 4.1 DataFrame.drop()
    • 4.2 删除一列--del,pop
  • 5.dataframe 合并追加操作
    • 5.1 追加一行
    • 5.2 追加一列
    • 5.3 合并操作-- pd.concat()
  • 6.dataframe统计操作
    • 6.1求均值
    • 6.2 df.describe()
    • 6.4 df.T
    • 6.4 df排序
      • 6.4.1 按行/列名称排序--df.sort_index()
      • 6.4.2 按某一行/列值排序
    • 6.5 查看df数据的头部/尾部
    • 6.6 df 与numpy.array 相互转换
    • 6.7 分位点
  • 7.文件读写
    • 7.1 pd.read_csv() 读CSV文件
    • 7.2 pd.to_csv() 写csv文件
    • 7.3 df.read_excel() 读 excel 文件
    • 7.4 df.to_excel()
  • 8.统计绘图(待)
    • 8.1 DataFrame.hist()
  • 9.常用方法清单

1.Pandas简介

是什么
Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型标记型数据。

Pandas 的主要数据结构: Series(一维数据)DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。

Pandas 的优势

1.处理浮点与非浮点数据里的缺失数据,表示为NaN
2.成熟的 IO 工具:读取文本文件(CSV 等支持分隔符的文件)、Excel 文件;
3.把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象;

Pandas 可用于,数据处理 整个流程中:
数据整理与清洗->数据分析与建模->数据可视化与制表

Pandas 里,绝大多数方法都不改变原始的输入数据,而是复制数据,生成新的对象。 一般来说,原始输入数据不变更稳妥。(内存管理问题)

2.创建

2.1创建dataFrame

1.不指定数据创建,然后填入数据

>>> dfa=pd.DataFrame()
>>> dfa["A"]=np.array([1,2,3,4])
>>> dfaA
0  1
1  2
2  3
3  4

2.numpy数组创建

>>> dfb= pd.DataFrame(np.random.randn(3, 4), index=["day1","day2","day3"], columns=list('ABCD'))
>>> dfbA         B         C         D
day1  0.292165 -0.514650 -1.013541  0.206613
day2  1.255805 -0.504385 -0.121249 -0.041156
day3  0.083240 -0.887587  0.792058 -0.144602

3.字典创建

data = {"id" : ["Jack", "Sarah", "Mike"],"age" : [18, 35, 20],"cash" : [10.53, 500.7, 13.6]}
df = pd.DataFrame(data)                                     # 默认列名
print(df)
df2 = pd.DataFrame(data, index=["one", "two", "three"])     # 设定列名
print(df2)

输出:

      id  age    cash
0   Jack   18   10.53
1  Sarah   35  500.70
2   Mike   20   13.60id  age    cash
one     Jack   18   10.53
two    Sarah   35  500.70
three   Mike   20   13.60

2.2创建Series

系列其实构成了dataframe中的一列,默认的情况下,系列的索引是非负整数列

s = pd.Series({"a" : 4, "b": 9, "c" : 16}, name="number")
print(s)

输出

a     4
b     9
c    16
Name: number, dtype: int64

3.dataframe数据访问

系列类似于数组,可以使用下标索引,支持向量化操作。由很多的系列构成dataFrame,所以对dataFrame的操作也与系列中类似。

# 系列的访问
print(s[0], s[:3])      # 下标,切片
print(s["a"])           # 索引
print(np.sqrt(s))# dataFrame 的增删查改
print(df["id"])                     # 查
df["rich"] = df["cash"] > 200.0     # 增
print(df)
del(df["rich"])                     # 删除
print(df)

输出:

----------
4 a     4    #print(s[0], s[:3]) 的结果
b     9
c    16
Name: number, dtype: int64
4
a    2.0
b    3.0
c    4.0
Name: number, dtype: float64
0     Jack
1    Sarah
2     Mike
Name: id, dtype: objectid  age    cash   rich
0   Jack   18   10.53  False
1  Sarah   35  500.70   True
2   Mike   20   13.60  Falseid  age    cash
0   Jack   18   10.53
1  Sarah   35  500.70
2   Mike   20   13.60

3.1 获取一列–列标签

>>> df["A"]
2013-01-01   -0.512998
2013-01-02    0.851308
2013-01-03    0.154169
Freq: D, Name: A, dtype: float64

3.2 获取多列–列标签列表

(列标签需要放在List中,否着无法访问)

>>> df[["A","B"]]A         B
2013-01-01 -0.512998  1.674901
2013-01-02  0.851308  0.090532
2013-01-03  0.154169  0.761327

3.3 获取一行–行标签.loc()

>>> df.loc["2013-01-01"]
A   -0.512998
B    1.674901
C   -0.447253
D    1.888928
Name: 2013-01-01 00:00:00, dtype: float64

3.4 获取多行–行切片操作.loc()

不能用df.loc[[“2013-01-01”,“2013-01-02”]])

>>> df[0:2]A         B         C         D
2013-01-01 -0.512998  1.674901 -0.447253  1.888928
2013-01-02  0.851308  0.090532 -0.407433  0.320288

3.5 index 获取行列信息–df.iloc()

类似于numpy矩阵的索引操作
1.获取一行

>>> df.iloc[0]
A   -0.512998
B    1.674901
C   -0.447253
D    1.888928
Name: 2013-01-01 00:00:00, dtype: float64
>>> df.iloc[0,:]
A   -0.512998
B    1.674901
C   -0.447253
D    1.888928
Name: 2013-01-01 00:00:00, dtype: float64

2.获取多行–行索引切片

>>> df.iloc[0:2]A         B         C         D
2013-01-01 -0.512998  1.674901 -0.447253  1.888928
2013-01-02  0.851308  0.090532 -0.407433  0.320288

3.行列切片

-0.512997918520904
>>> df.iloc[0:2,1:2]B
2013-01-01  1.674901
2013-01-02  0.090532

3.6 获取一个元素

>>> df.loc["2013-01-01", 'A']
-0.512997918520904>>> df.at["2013-01-01", 'A']
-0.512997918520904>>> df.iloc[0,0]
-0.512997918520904

3.7 布尔值选择数据

>>> df[df.A > 0]A         B         C         D
2013-01-02  0.851308  0.090532 -0.407433  0.320288
2013-01-03  0.154169  0.761327 -0.488159 -0.498190

利用.reset_index(drop=True) 重新设置行标号

4.dataframe删除操作

4.1 DataFrame.drop()

DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)

参数:

labels 要删除的行,列的标签,用列表给定
axis 默认为0,指删除行;删除columns时要指定axis=1
index 直接指定要删除的行索引
columns 直接指定要删除的列名称
inplace =False,默认该删除操作不改变原数据,而是返回一个执行删除操作后的新
=True,则会直接在原数据上进行删除操作,删除后无法返回。

因此,删除行列有两种方式:

1)labels=None,axis=0 的组合
2)index或columns直接指定要删除的行或列

df.drop(['B', 'C'], axis=1)  # 删除"B","C"列
df.drop([0, 1])              # 删除0,1行
df.drop(columns=['B', 'C'])     # 删除"B","C"列
df.drop(index=[0, 1])       # 删除0,1行

按列标号删除列

DF.drop([DF.columns[[0,1, 3]]], axis=1,inplace=True) # Note: zero indexed

4.2 删除一列–del,pop

 >>> del df["A"]          # 删除列A
>>> dfB         C         D
2013-01-01  1.674901 -0.447253  1.888928
2013-01-02  0.090532 -0.407433  0.320288
2013-01-03  0.761327 -0.488159 -0.498190
>>> B=df.pop("B")           # 将第B列弹出,起到输出某一列的作用
>>> dfC         D
2013-01-01 -0.447253  1.888928
2013-01-02 -0.407433  0.320288
2013-01-03 -0.488159 -0.498190
>>> B
2013-01-01    1.674901
2013-01-02    0.090532
2013-01-03    0.761327
Freq: D, Name: B, dtype: float64
>>>

5.dataframe 合并追加操作

5.1 追加一行

>>> df1 = pd.DataFrame(np.random.randn(2, 4), columns=['A', 'B', 'C', 'D'])
>>> df1A         B         C         D
0 -0.559292  0.198070 -0.114022 -1.622667
1  0.794817  0.682684  1.476562  0.163302
>>> row=pd.DataFrame(np.random.randn(1, 4), columns=['A', 'B', 'C', 'D'])
>>> df1.append(row,ignore_index=True)A         B         C         D
0 -0.559292  0.198070 -0.114022 -1.622667
1  0.794817  0.682684  1.476562  0.163302
2 -1.181575 -0.272601 -1.752255 -0.859897

5.2 追加一列

直接df[“列名”]=一列数据:df, numpy.array

5.3 合并操作-- pd.concat()

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False,copy=True)
参数
objs Series,DataFrame或Panel对象的序列或映射
ignore_index True: 拼接轴上的坐标从0-n-1排布
>>> df1 = pd.DataFrame(np.random.randn(3, 4))
>>> df2 = pd.DataFrame(np.random.randn(3, 4))
>>> df10         1         2         3
0  2.360959 -1.855941 -0.079708  0.533404
1  0.891633 -1.918339 -1.069706  1.069652
2  0.469251  0.198839 -1.661338  1.449165
>>> df20         1         2         3
0  0.697094 -0.003241 -1.077108  0.713898
1 -0.788362  0.616115 -0.123818  1.385414
2 -0.422057 -1.759653  1.094616  0.109523
>>> pd.concat([df1,df2])     # 原有的行标签直接拼接0         1         2         3
0  2.360959 -1.855941 -0.079708  0.533404
1  0.891633 -1.918339 -1.069706  1.069652
2  0.469251  0.198839 -1.661338  1.449165
0  0.697094 -0.003241 -1.077108  0.713898
1 -0.788362  0.616115 -0.123818  1.385414
2 -0.422057 -1.759653  1.094616  0.109523
>>> pd.concat([df1,df2],ignore_index=True)   # 忽略原有标签,标签直重新排列0         1         2         3
0  2.360959 -1.855941 -0.079708  0.533404
1  0.891633 -1.918339 -1.069706  1.069652
2  0.469251  0.198839 -1.661338  1.449165
3  0.697094 -0.003241 -1.077108  0.713898
4 -0.788362  0.616115 -0.123818  1.385414
5 -0.422057 -1.759653  1.094616  0.109523
>>> pd.concat([df1,df2]).index
Int64Index([0, 1, 2, 0, 1, 2], dtype='int64')
>>> pd.concat([df1,df2],ignore_index=True).index
RangeIndex(start=0, stop=6, step=1)

参考资料:https://blog.csdn.net/zzpdbk/article/details/79232661

6.dataframe统计操作

6.1求均值

1.求列均值

>>> df.mean()
A    0.164160
B    0.842253
C   -0.447615
D    0.570342
dtype: float64

2.求行均值

>>> df.mean(1)
2013-01-01    0.650894
2013-01-02    0.213674
2013-01-03   -0.017713
Freq: D, dtype: float64

6.2 df.describe()

查看数据统计摘要

df.describe()A         B         C         D
count  6.000000  6.000000  6.000000  6.000000
mean   0.073711 -0.431125 -0.687758 -0.233103
std    0.843157  0.922818  0.779887  0.973118
min   -0.861849 -2.104569 -1.509059 -1.135632
25%   -0.611510 -0.600794 -1.368714 -1.076610
50%    0.022070 -0.228039 -0.767252 -0.386188
75%    0.658444  0.041933 -0.034326  0.461706
max    1.212112  0.567020  0.276232  1.071804

6.4 df.T

转置操作

>>> dfC         D
2013-01-01 -0.447253  1.888928
2013-01-02 -0.407433  0.320288
2013-01-03 -0.488159 -0.498190
>>> df.T2013-01-01  2013-01-02  2013-01-03
C   -0.447253   -0.407433   -0.488159
D    1.888928    0.320288   -0.498190

6.4 df排序

6.4.1 按行/列名称排序–df.sort_index()

>>> dfC         D
2013-01-01 -0.447253  1.888928
2013-01-02 -0.407433  0.320288
2013-01-03 -0.488159 -0.498190
>>> df.sort_index(axis=1, ascending=False)D         C
2013-01-01  1.888928 -0.447253
2013-01-02  0.320288 -0.407433
2013-01-03 -0.498190 -0.488159
>>> df.sort_index(axis=0, ascending=False)C         D
2013-01-03 -0.488159 -0.498190
2013-01-02 -0.407433  0.320288
2013-01-01 -0.447253  1.888928

6.4.2 按某一行/列值排序

按值排序(指定按某一列的值)

>>> df.sort_values(by='C')C         D
2013-01-03 -0.488159 -0.498190
2013-01-01 -0.447253  1.888928
2013-01-02 -0.407433  0.320288

df.sort_values(by=‘2013-01-03’) 报错

6.5 查看df数据的头部/尾部

df.head()A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401df.tail(3)A         B         C         D
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988

6.6 df 与numpy.array 相互转换

DataFrame.to_numpy() 转化成NumPy 数据类型,输出不包含行索引和列标签。当dataframe各列的数据类型不同时,该操作耗费系统资源较大。

>>> dfC         D
2013-01-01 -0.447253  1.888928
2013-01-02 -0.407433  0.320288
2013-01-03 -0.488159 -0.498190
>>> df.to_numpy()
array([[-0.44725345,  1.88892814],[-0.40743299,  0.32028762],[-0.4881592 , -0.49818956]])

6.7 分位点

df.quantile(a)

a就是分位点参数[0,1]

7.文件读写

7.1 pd.read_csv() 读CSV文件

0.读入csv 文件,返回一个df数据

pd.read_csv(filepath , header , parse_dates , index_col)

1.给数据加上一个从0开始的列索引

df=pd.read_csv(“test.csv”,header=None)

2.给的数据加上一个从m开始n-1结束的索引

df=pd.read_csv(“test.csv”,header=None,names=range(m,n))

3.指定数据的第一行为列索引

df=pd.read_csv(“test.csv”,header=0)

4.指定每个列的名称

col_label =[“A”, “B”, “C”]
df = pd.read_csv(“test.csv”, names = col_label)

参考博文:https://www.jianshu.com/p/ebb64a159104

7.2 pd.to_csv() 写csv文件

pd.to_csv(“test.csv”,sep=’?’,header=0,index=0,float_format=’%.2f’,)

sep=’?’ 数据保存时分隔符,默认为逗号
header=0 不保留列名
index=0 不保留行名
float_format=’%.2f’ 浮点数保留两位小数
columns=[‘name’] 保留特定的列
mode=“a” 追加一行数据

df.to_csv(“test.csv”,mode=“a”,header=False,index=False)
#df 为一行新数据

参考博文:https://blog.csdn.net/toshibahuai/article/details/79034829

7.3 df.read_excel() 读 excel 文件

df.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False,dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, **kwds)
必要参数
io Excel的存储路径
sheet_name 定位要读取的子表,整型数字(表格序号,从0开始)、列表名或SheetN
data_path = "./data2.xlsx"
excel = pd.read_excel(path, sheet_name = 0)

参考博文:https://blog.csdn.net/weixin_38546295/article/details/83537558

7.4 df.to_excel()

to_excel()会直接覆盖原来所有的数据表

df = .....
df.to_excel(file_name, sheet_name="xxx")

借助ExcelWriter间接保留原有数据表

#----encoding: utf8------
import pandas as pd
excel_file = "123.xlsx"
writer = pd.ExcelWriter(excel_file)
df_sheet1 = pd.read_excel(excel_file, sheet_name="Sheet1")   # 保持原有的sheet不变
df_sheet1.to_excel(writer, sheet_name="Sheet1")
# 新建处理后数据表
post_process_list = ["sheet2", "sheet3"]
for sheet_name_str in post_process_list:df_sheet = pd.read_excel(excel_file, sheet_name=sheet_name_str)# do some process....df_sheet.sort_values("delta_s", inplace=True)df_sheet.to_excel(writer, sheet_name=sheet_name_str )
writer.save()

8.统计绘图(待)

8.1 DataFrame.hist()

使用DataFrame.hist()方法创建直方图, 该方法是matplotlib pyplot API的包装器。

DataFrame.hist()函数参数接口:

DataFrame.hist(data, column=None, by=None, grid=True, xlabelsize=None, xrot=None, ylabelsize=None, yrot=None, ax=None, sharex=False, sharey=False, figsize=None, layout=None, bins=10, **kwds)

DataFrame.hist()函数返回:

matplotlib.AxesSubplot或numpy.ndarray。

DataFrame.hist()用例:

import pandas as pd
info = pd.DataFrame({
‘length’: [2, 1.7, 3.6, 2.4, 1], ‘width’: [4.2, 2.6, 1.6, 5.1, 2.9]
})
hist = info.hist(bins=4)

提示:
1.列标会显示在直方图上
2.bins:决定了直方的条数,默认为10条
3. 绘图之后,还需要plt.show(),或者保存
4. DataFrame.hist()返回axes 那么就可以设置子图属性啥的?

9.常用方法清单

方法 用途
pd.get_dummies() 将类别变量转换成one-hot 编码
Series.isnull() 判断系列中是否含有空值
Series.is_unique() 判断系列中是否存在重复值
Series.value_counts() 统计系列中所有取值出现的次数
DataFrame.mean() 计算行列均值
DataFrame.dropna() 删除数据缺失的行或者列
DataFrame.drop_duplicates() 删除所有重复的行或者列
DataFrame.head() 返回数据的前5行,查看数据格式
DataFrame.tail() 返回数据框的后5行,查看数据格式
df.corr() 计算各列的相关系数,参数可选项pearson,kendall,spearman

df.corr()参考博文:https://blog.csdn.net/walking_visitor/article/details/85128461

全文参考博文:https://www.pypandas.cn/docs/

python模块(6)-Pandas 简易使用教程相关推荐

  1. Python模块(8)-sklearn 简易使用教程

    sklearn 简易使用教程 1.scikit-learn的数据集 2.scikit-learn 的训练和预测 scikit-learn 是在Numpy,SciPy,Matplotlib三个模块上编写 ...

  2. Python模块(7)-SciPy 简易使用教程

    SciPy 简易使用教程 1. 符号计算 2. 函数向量化 3. 波形处理scipy.signal 3.1 滤波器 3.2 波峰定位 基于numpy的一个高级模块,为数学,物理,工程等方面的科学计算提 ...

  3. Python模块(1)-Argparse 简易使用教程

    argparse 简易使用教程 1基本函数 2例子程序演示 3常用参数解释 4argparse模块整理的缘起 1基本函数 argparse是Python中用于命令行中进行参数解析的一个模块,可以自动生 ...

  4. python模块(5)-Matplotlib 简易使用教程

    Matplotlib简易使用教程 0.matplotlib的安装 1.导入相关库 2.画布初始化 2.1 隐式创建 2.2 显示创建 2.3 设置画布大小 2.4 plt.figure()常用参数 3 ...

  5. Python模块(2)-Numpy 简易使用教程

    Numpy模块 简易使用教程 1.数组创建 2.数组基本属性-维度.尺寸.数据类型 3.数组访问-索引.切片.迭代 4.数组的算术运算-加减乘除.转置求逆.极大极小 5.通用函数-sin,cos,ex ...

  6. Python模块(3)--PIL 简易使用教程

    PIL模块-用与记 1.图片导入Image.open() 2.图像显示.show() 4.查看图片属性.format,.size,.mode 3.图像格式转换.convert() 4.图像模式&quo ...

  7. Python模块之Pandas模块学习笔记

    目录 一.模块的安装 二.数据结构 1. DataFrame的创建 2. DataFrame索引的修改 3. DataFrame数据信息查看 三.文件的读取和写入 1. 读取 2. 写入 四. 数据的 ...

  8. pandas简易学习教程/练习(2)

    pandas是Python处理数据的一个数据分析处理库,这里的代码我都是在anaconda的Jupyter Notebook上运行的,这是个交互式平台可以立马看到结果(很方便),当然也可以在pycha ...

  9. Python模块之Pandas 格式化数据

    目录 一.style格式化数据 1.所有列格式化 2.指定列格式化 (1) 使用字典对指定列格式化 (2) 使用lambda对指定列格式化 (3) 使用 na_rep设置空值的显示 (4) 内置样式函 ...

最新文章

  1. logisitic和softmax函数
  2. Django搭建个人博客(二)
  3. luogu1975 [国家集训队]排队
  4. ValueError: Shape mismatch: The shape of labels (received (768,)) should equal the shape of logits e
  5. ASP.NET跨页面传值技巧总结【转】
  6. iOS-如何返回某个字符串的拼音助记码
  7. Daily Scrum 11.18
  8. 冯珊珊_模拟器企业衡泰信签约冯珊珊,推动高尔夫运动下沉
  9. 隐藏PHP扩展名-修改apache
  10. 爱的十个秘密--10.热情的力量
  11. 关于 Appium 各种版本的安装,都在这里
  12. AAAI 2019 使用循环条件注意力结构探索回答立场检测任务
  13. Atitit 算法之道 attilax著 1. 第二部分(Part II) 排序与顺序统计(Sorting and Order Statistics) 1 2. 第六章 堆排序(Heapsort)
  14. 基于MVC模式的超市仓库管理系统的设计与实现
  15. 包含类别变量的中介模型检验方法
  16. 如何使用计算机对文件修改密码,如何给文件夹设置一个密码?(电脑怎么给文件夹设置密码?)...
  17. 数字电子技术课程设计报告——电子脉搏测试仪的设计
  18. 【ceph】ceph分布式存储MDS(各种状态、源码)
  19. 长尾理论,长尾示意图,读书笔记
  20. for (char c : s)这种循环方式的使用

热门文章

  1. 第四节:框架前期准备篇之进程外Session的两种配置方式
  2. 无法嵌入互操作类型 请改用适用的接口_西门子COMOS软件开发定制学习7-嵌入谷歌浏览器内核...
  3. python matplotlib画散点图_python matplotlib库绘制散点图例题解析
  4. win7关机快捷键_电脑快捷键大全(上)
  5. 【JS 逆向百例】网洛者反爬练习平台第四题:JSFuck 加密
  6. 【CodeForces - 467C】George and Job(dp,思维)
  7. ACM算法 -- 数论 -- 开灯关灯问题(数论,整数分解,因子个数,公式推导)
  8. 2.Explore Your Data
  9. docker php 乱码,如何解决docker安装zabbix5.0界面乱码
  10. mysql的传播特性_spring事务传播特性和mysql事务隔离级别