pandas学习过程-01
每天一点点,记录工作中实操可行
pandas学习过程-01
1:导入库
import numpy as np
import pandas as pd
2.1:生成对象:用值列表生成Series时,pandas默认自动生成整数索引
s = pd.Series([1,3,5,np.nan,6,8])
s
Out[74]:
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
2.2 用含日期时间索引与标签的NumPy数组生成DataFrame
dates = pd.date_range('20200101',periods=6)
dates
Out[75]:
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04','2020-01-05', '2020-01-06'],
dtype='datetime64[ns]', freq='D')
以上边日期为行,ABCD为列,随机生成6行4列的DataFrame
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
df
Out[77]: A B C D
2020-01-01 -0.186522 -0.110911 -0.677208 -1.510193
2020-01-02 -1.037148 0.848960 -0.248920 -0.424194
2020-01-03 -0.307357 0.057476 -0.492490 0.842967
2020-01-04 -0.072732 -2.194408 1.881095 0.057340
2020-01-05 0.686951 1.920957 -1.163407 -1.448014
2020-01-06 0.311975 0.898658 -0.699130 -1.201424
2.3 用Series字典对象生成DataFrame
df2 = pd.DataFrame({'A':1., #a列1'B':pd.Timestamp('20200102'), #b列2020-01-02'C':pd.Series(1,index=list(range(4)),dtype='float32'),#1,浮点'D':np.array([3]*4,dtype='int32'),#3,整数'E':pd.Categorical(['test','train','test','train']),#内容'F':'foo'#内容})
df2
Out[79]: A B C D E F
0 1.0 2020-01-02 1.0 3 test foo
1 1.0 2020-01-02 1.0 3 train foo
2 1.0 2020-01-02 1.0 3 test foo
3 1.0 2020-01-02 1.0 3 train foo
DataFrame的列有不同的类型
df2.dtypes
Out[80]:
A float64
B datetime64[ns]
C float32
D int32
E category
F object
dtype: object
3:查看数据:查看头尾几行
df.head(2) #查看前2行,如果不写数字即默认前5行
Out[81]: A B C D
2020-01-01 -0.186522 -0.110911 -0.677208 -1.510193
2020-01-02 -1.037148 0.848960 -0.248920 -0.424194
df.tail(3)#查看后3行,如果不写数字即默认后5行
Out[82]: A B C D
2020-01-04 -0.072732 -2.194408 1.881095 0.057340
2020-01-05 0.686951 1.920957 -1.163407 -1.448014
2020-01-06 0.311975 0.898658 -0.699130 -1.201424
4:df.index 显示索引与列名
df.index #显示索引
Out[83]:
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04','2020-01-05', '2020-01-06'],dtype='datetime64[ns]', freq='D')
df.columns #显示列名
Out[84]: Index(['A', 'B', 'C', 'D'], dtype='object')
5:转置数据
df.T #转置数据
Out[85]: 2020-01-01 2020-01-02 2020-01-03 2020-01-04 2020-01-05 2020-01-06
A -0.186522 -1.037148 -0.307357 -0.072732 0.686951 0.311975
B -0.110911 0.848960 0.057476 -2.194408 1.920957 0.898658
C -0.677208 -0.248920 -0.492490 1.881095 -1.163407 -0.699130
D -1.510193 -0.424194 0.842967 0.057340 -1.448014 -1.201424
6:describe() 可以快速查看数据的统计摘要
df.describe()#快速查看数据的统计摘要
Out[86]: A B C D
count 6.000000 6.000000 6.000000 6.000000
mean -0.100805 0.236788 -0.233343 -0.613920
std 0.586257 1.393773 1.078633 0.943746
min -1.037148 -2.194408 -1.163407 -1.510193
25% -0.277148 -0.068814 -0.693650 -1.386366
50% -0.129627 0.453218 -0.584849 -0.812809
75% 0.215798 0.886233 -0.309813 -0.063043
max 0.686951 1.920957 1.881095 0.842967
7:按轴排序
df.sort_index(axis=1,ascending=False) #按轴排序
Out[87]: D C B A
2020-01-01 -1.510193 -0.677208 -0.110911 -0.186522
2020-01-02 -0.424194 -0.248920 0.848960 -1.037148
2020-01-03 0.842967 -0.492490 0.057476 -0.307357
2020-01-04 0.057340 1.881095 -2.194408 -0.072732
2020-01-05 -1.448014 -1.163407 1.920957 0.686951
2020-01-06 -1.201424 -0.699130 0.898658 0.311975
8:按值排序
df.sort_values(by='B') #按值排序,按B列顺序排序
Out[88]: A B C D
2020-01-04 -0.072732 -2.194408 1.881095 0.057340
2020-01-01 -0.186522 -0.110911 -0.677208 -1.510193
2020-01-03 -0.307357 0.057476 -0.492490 0.842967
2020-01-02 -1.037148 0.848960 -0.248920 -0.424194
2020-01-06 0.311975 0.898658 -0.699130 -1.201424
2020-01-05 0.686951 1.920957 -1.163407 -1.448014
pandas学习过程-01相关推荐
- 熊猫书来了!最全的pandas介绍!
"告别痛苦,快乐学习pandas"是Datawhale社区和耿远昊发起"Joyful pandas"开源项目的初衷.历经两年的精心打磨,它终于要以熊猫书< ...
- 胡锐锋:组队学习分享(队长)
组队学习分享(队长) 自我介绍 胡锐锋,现为Datawhale成员,目前担任<统计学习方法习题解答>开源项目的负责人,已工作近8年,由大数据平台研发工程师转变成一位项目管理人.我的人生目标 ...
- 机器学习-数据科学库(第六天)
37.pandas时间序列01 现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况, ...
- python中的numpy模块和pandas模块的区别_python的numpy模块- 01.pandas基本数据类型
01.pandas基本数据类型 import pandas as pd import numpy as np from pandas import Series,DataFrame 1. Series ...
- 数据导入与预处理-拓展-pandas时间数据处理01
数据导入与预处理-拓展-pandas时间数据处理01 Pandas时序数据系列博客 Pandas时间序列数据处理 1.好用的Python库 2.Pandas历史 3.时序数据处理 3.1 时序中的基本 ...
- 理想国pandas教程(版本01)
Pandas介绍 简介 2008年WesMcKinney开发出的库 专门用于数据挖掘的开源python库 以Numpy为基础,借力Numpy模块在计算方面性能高的优势 基于matplotlib,能够简 ...
- 01、python数据分析与机器学习实战——python数据分析处理库-Pandas
pandas介绍 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的. Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具. panda ...
- pandas内置数据集_Pandas数据分析实战01——Abalone Data Set(鲍鱼数据集)
> 打算从基础开始学习数据分析,给自己一个整理内容和学习消化的时间,所以,这也将成为我的学习笔记. 1. 数据描述 原始数据集包括六个属性:Gender,Length,Diameter,Heig ...
- pandas、pyecharts绘制基金走势图-01
纯属练手! 最近基金的消息比较热门,自己页在支付宝上买了点.查看各个基金的走势时,需要不断打开页面进行查看,比较麻烦.正好在尝试pandas.pyecharts,所以拿来练练手. 目标: 可以一次性查 ...
最新文章
- Error: could not open 'D:\Program Files\Java\jre7\lib\amd64\jvm.cfg'
- oracle 11g中密码过期问题
- 服务器异常代码413问题
- 计算机网络课程设计子网划分,计算机网络实验三 子网掩码与划分子网
- 图片批量重命名编号_碾压市面上90%“批量改名、批量重命名软件”
- Python 序列操作之切片
- java中properties作用,java中Properties有什么用,举例说明?
- 通过实际的例子,介绍 SAP ABAP 里的 Repository Information System 的使用技巧
- .NET使用VS2010开发Web Service
- 前端学习(3092):vue+element今日头条管理-发布更新
- 初识设计模式(装饰者模式)
- 自定义request链路跟踪
- android开源2016_2016 Hacktoberfest点燃了开源的参与
- 2021年衡阳仁爱中学高考成绩查询,南岳衡阳蒸湘仁爱中学简介
- 以太网共同发明者去世,享年71岁
- (详解)----冒泡排序---(图解)
- WPS - 数据对比在excel中经常用到,那么如何在excel中进行数据对比呢?
- 短信平台API接口demo示例-JAVA/Message/XSend
- 电脑桌面显示两个计算机,电脑如何用两个显示器_怎么一台主机两个显示器-win7之家...
- 大数据环境下的微软 再见PC