pandas学习过程-01

每天一点点，记录工作中实操可行

pandas学习过程-01

1:导入库

import numpy as np
import pandas as pd

2.1:生成对象：用值列表生成Series时，pandas默认自动生成整数索引

s = pd.Series([1,3,5,np.nan,6,8])
s
Out[74]:
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

2.2 用含日期时间索引与标签的NumPy数组生成DataFrame

dates = pd.date_range('20200101',periods=6)
dates
Out[75]:
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04','2020-01-05', '2020-01-06'],
dtype='datetime64[ns]', freq='D')

以上边日期为行，ABCD为列，随机生成6行4列的DataFrame

df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
df
Out[77]: A         B         C         D
2020-01-01 -0.186522 -0.110911 -0.677208 -1.510193
2020-01-02 -1.037148  0.848960 -0.248920 -0.424194
2020-01-03 -0.307357  0.057476 -0.492490  0.842967
2020-01-04 -0.072732 -2.194408  1.881095  0.057340
2020-01-05  0.686951  1.920957 -1.163407 -1.448014
2020-01-06  0.311975  0.898658 -0.699130 -1.201424

2.3 用Series字典对象生成DataFrame

df2 = pd.DataFrame({'A':1., #a列1'B':pd.Timestamp('20200102'), #b列2020-01-02'C':pd.Series(1,index=list(range(4)),dtype='float32'),#1，浮点'D':np.array([3]*4,dtype='int32'),#3，整数'E':pd.Categorical(['test','train','test','train']),#内容'F':'foo'#内容})
df2
Out[79]: A          B    C  D      E    F
0  1.0 2020-01-02  1.0  3   test  foo
1  1.0 2020-01-02  1.0  3  train  foo
2  1.0 2020-01-02  1.0  3   test  foo
3  1.0 2020-01-02  1.0  3  train  foo

DataFrame的列有不同的类型

df2.dtypes
Out[80]:
A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

3：查看数据：查看头尾几行

df.head(2) #查看前2行，如果不写数字即默认前5行
Out[81]: A         B         C         D
2020-01-01 -0.186522 -0.110911 -0.677208 -1.510193
2020-01-02 -1.037148  0.848960 -0.248920 -0.424194

df.tail(3)#查看后3行，如果不写数字即默认后5行
Out[82]: A         B         C         D
2020-01-04 -0.072732 -2.194408  1.881095  0.057340
2020-01-05  0.686951  1.920957 -1.163407 -1.448014
2020-01-06  0.311975  0.898658 -0.699130 -1.201424

4：df.index 显示索引与列名

df.index #显示索引
Out[83]:
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04','2020-01-05', '2020-01-06'],dtype='datetime64[ns]', freq='D')

df.columns #显示列名
Out[84]: Index(['A', 'B', 'C', 'D'], dtype='object')

5:转置数据

df.T #转置数据
Out[85]: 2020-01-01  2020-01-02  2020-01-03  2020-01-04  2020-01-05  2020-01-06
A   -0.186522   -1.037148   -0.307357   -0.072732    0.686951    0.311975
B   -0.110911    0.848960    0.057476   -2.194408    1.920957    0.898658
C   -0.677208   -0.248920   -0.492490    1.881095   -1.163407   -0.699130
D   -1.510193   -0.424194    0.842967    0.057340   -1.448014   -1.201424

6：describe() 可以快速查看数据的统计摘要

df.describe()#快速查看数据的统计摘要
Out[86]: A         B         C         D
count  6.000000  6.000000  6.000000  6.000000
mean  -0.100805  0.236788 -0.233343 -0.613920
std    0.586257  1.393773  1.078633  0.943746
min   -1.037148 -2.194408 -1.163407 -1.510193
25%   -0.277148 -0.068814 -0.693650 -1.386366
50%   -0.129627  0.453218 -0.584849 -0.812809
75%    0.215798  0.886233 -0.309813 -0.063043
max    0.686951  1.920957  1.881095  0.842967

7：按轴排序

df.sort_index(axis=1,ascending=False) #按轴排序
Out[87]: D         C         B         A
2020-01-01 -1.510193 -0.677208 -0.110911 -0.186522
2020-01-02 -0.424194 -0.248920  0.848960 -1.037148
2020-01-03  0.842967 -0.492490  0.057476 -0.307357
2020-01-04  0.057340  1.881095 -2.194408 -0.072732
2020-01-05 -1.448014 -1.163407  1.920957  0.686951
2020-01-06 -1.201424 -0.699130  0.898658  0.311975

8：按值排序

df.sort_values(by='B') #按值排序，按B列顺序排序
Out[88]: A         B         C         D
2020-01-04 -0.072732 -2.194408  1.881095  0.057340
2020-01-01 -0.186522 -0.110911 -0.677208 -1.510193
2020-01-03 -0.307357  0.057476 -0.492490  0.842967
2020-01-02 -1.037148  0.848960 -0.248920 -0.424194
2020-01-06  0.311975  0.898658 -0.699130 -1.201424
2020-01-05  0.686951  1.920957 -1.163407 -1.448014

pandas学习过程-01相关推荐

熊猫书来了！最全的pandas介绍！
"告别痛苦,快乐学习pandas"是Datawhale社区和耿远昊发起"Joyful pandas"开源项目的初衷.历经两年的精心打磨,它终于要以熊猫书< ...
胡锐锋：组队学习分享（队长）
组队学习分享(队长) 自我介绍胡锐锋,现为Datawhale成员,目前担任<统计学习方法习题解答>开源项目的负责人,已工作近8年,由大数据平台研发工程师转变成一位项目管理人.我的人生目标 ...
机器学习-数据科学库（第六天）
37.pandas时间序列01 现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况, ...
python中的numpy模块和pandas模块的区别_python的numpy模块- 01.pandas基本数据类型
01.pandas基本数据类型 import pandas as pd import numpy as np from pandas import Series,DataFrame 1. Series ...
数据导入与预处理-拓展-pandas时间数据处理01
数据导入与预处理-拓展-pandas时间数据处理01 Pandas时序数据系列博客 Pandas时间序列数据处理 1.好用的Python库 2.Pandas历史 3.时序数据处理 3.1 时序中的基本 ...
理想国pandas教程（版本01）
Pandas介绍简介 2008年WesMcKinney开发出的库专门用于数据挖掘的开源python库以Numpy为基础,借力Numpy模块在计算方面性能高的优势基于matplotlib,能够简 ...
01、python数据分析与机器学习实战——python数据分析处理库-Pandas
pandas介绍 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的. Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具. panda ...
pandas内置数据集_Pandas数据分析实战01——Abalone Data Set（鲍鱼数据集）
> 打算从基础开始学习数据分析,给自己一个整理内容和学习消化的时间,所以,这也将成为我的学习笔记. 1. 数据描述原始数据集包括六个属性:Gender,Length,Diameter,Heig ...
pandas、pyecharts绘制基金走势图-01
纯属练手! 最近基金的消息比较热门,自己页在支付宝上买了点.查看各个基金的走势时,需要不断打开页面进行查看,比较麻烦.正好在尝试pandas.pyecharts,所以拿来练练手. 目标: 可以一次性查 ...

pandas学习过程-01

pandas学习过程-01相关推荐

最新文章

热门文章