Datawhale组队-Pandas(下)时序数据(打卡)
Pandas可以处理任何领域的时序数据(time series),使用Numpy的datetime64
和timedelta64
类型,Pandas整合了来自其他Python库的大量功能,如Scikits.TimeSeries,并为处理时间序列数据创建了大量新功能。
一、时序的创建
1.四类时间变量
名称 |
描述 |
元素类型 |
创建方式 |
Datetimes(时间点/时刻) |
描述特定日期或时间点 |
Timestamp |
to_datetime或date_range |
Timespans(时间段/时期) |
由时间点定义的一段时期 |
Period |
Period或period_range |
Dateoffsets(相对时间差) |
一段时间的相对大小 (与夏/冬令时无关) |
Dateoffset |
DateOffset |
Timedeltas(绝对时间差) |
一段时间的绝对大小 (与夏/冬令时有关) |
Timedelta |
to_timedelta或 timedelta_range |
对于时间序列数据,传统的做法是在Series或DataFrame索引中表示时间分量,这样就可以对时间元素执行操作。但是,Series和DataFrame也可以直接支持作为数据本身的时间组件。当传递到这些构造函数时,Series和DataFrame扩展了对日期时间、时间增量和期间数据的数据类型支持和功能。然而,DateOffset数据将作为对象数据存储。
#在index加入时间成分,dtype为int64
pd.Series(range(3), index=pd.date_range('2000', freq='D', periods=3))
#直接定义时间成分,dtype为datetime64[ns]
pd.Series(pd.date_range('2000', freq='D', periods=3))
2.时间点的创建
Timestamped是将值与时间点相关联的最基本的时间序列数据类型。对于pandas objects来说,这意味着使用时间点。
(a)to_datetime方法
Pandas在时间点建立的输入格式规定上给了很大的自由度,下面的语句都能正确建立同一时间点
print(pd.to_datetime('2020.1.1'))
print(pd.to_datetime('2020 1.1'))
print(pd.to_datetime('2020 1 1'))
print(pd.to_datetime('2020 1-1'))
print(pd.to_datetime('2020-1 1'))
print(pd.to_datetime('2020-1-1'))
print(pd.to_datetime('2020/1/1'))
print(pd.to_datetime('1.1.2020'))
print(pd.to_datetime('1.1 2020'))
print(pd.to_datetime('1 1 2020'))
print(pd.to_datetime('1 1-2020'))
print(pd.to_datetime('1-1 2020'))
print(pd.to_datetime('1-1-2020'))
print(pd.to_datetime('1/1/2020'))
print(pd.to_datetime('20200101'))
print(pd.to_datetime('2020.0101'))#pd.to_datetime('2020\\1\\1') #报错
#pd.to_datetime('2020`1`1') #报错
#pd.to_datetime('2020.1 1') #报错
#pd.to_datetime('1 1.2020') #报错
利用format参数强制匹配
print(pd.to_datetime('2020\\1\\1',format='%Y\\%m\\%d'))
print(pd.to_datetime('2020`1`1',format='%Y`%m`%d'))
print(pd.to_datetime('2020.1 1',format='%Y.%m %d'))
print(pd.to_datetime('1 1.2020',format='%d %m.%Y'))
也可使用列表将其转为时间点索引
pd.Series(range(2),index=pd.to_datetime(['2020/1/1','2020/1/2']))
查看类型
type(pd.to_datetime(['2020/1/1','2020/1/2']))
对于DataFrame,如果列已经按照时间顺序排好,则利用to_datetime可自动转换
df = pd.DataFrame({'year': [2020, 2020],'month': [1, 1], 'day': [1, 2]})
pd.to_datetime(df)
(b)时间精度与范围限制
Timestamp的精度远远不止day,可以最小到纳秒ns,同时它的范围为
pd.to_datetime('2020/1/1 00:00:00.123456789')#最小范围
print(pd.Timestamp.min) #output:Timestamp('1677-09-21 00:12:43.145225')
#最大范围
print(pd.Timestamp.min) #output:Timestamp('2262-04-11 23:47:16.854775807')
(c)date_range方法
start/end/periods(时间点个数)/freq(间隔方法)是该方法最重要的参数,给定了其中的3个,剩下的一个就会被却sing
freq参数如下:
符号 |
D/B |
W |
M/Q/Y |
BM/BQ/BY |
MS/QS/YS |
BMS/BQS/BYS |
H |
T |
S |
描述 |
日/工作日 |
周 |
月末 |
月/季/年末日 |
月/季/年末工作日 |
月/季/年初日 |
时 |
分钟 |
秒 |
3.Dateoffset对象
(a)DateOffset与Timedelta的区别
Timedelta绝对时间差的特点指无论是冬令时还是夏令时,增减1day都只计算24小时
DateOffset相对时间差指,无论一天是23/24/25小时,增减1day都与当天相同的时间保持一致
例如,英国当地时间 2020年03月29日,01:00:00 时钟向前调整 1 小时 变为 2020年03月29日,02:00:00,开始夏令时
ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki')
ts + pd.Timedelta(days=1)
ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki')
ts + pd.DateOffset(days=1)
可去除tz属性,就可使两者保持一致。
(b)增减一段时间
pd.Timestamp('2020-01-01') + pd.DateOffset(minutes=20) - pd.DateOffset(weeks=2)
(c)各类常用offset对象
pd.Timestamp('2020-01-01') + pd.offsets.Week(2) #增加两星期
pd.Timestamp('2020-01-01') + pd.offsets.BQuarterBegin(1) #营业季度开始
(d)序列的offset操作
利用apply函数
pd.Series(pd.offsets.BYearBegin(3).apply(i) for i in pd.date_range('20200101',periods=3,freq='Y'))
直接使用对象加减
pd.date_range('20200101',periods=3,freq='Y') + pd.offsets.BYearBegin(3)
定制offset,可以指定weekmask和holidays参数
pd.Series(pd.offsets.CDay(3,weekmask='Wed Fri',holidays='2020010').apply(i)for i in pd.date_range('20200105',periods=3,freq='D'))
二、时序的索引及属性
1.索引切片
rng = pd.date_range('2020','2021', freq='W')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts['2020-01-26':'20200726'].head() #日期从01-26,到07-26,字符自己转换成合理的
2.子集索引
#只取7月份数据
ts['2020-7'].head()
#支持混合形态索引
ts['2011-1':'20200726'].head()
3.时间点的属性
采用dt对象可以轻松获得关于时间的信息
#2020年有52个星期
pd.Series(ts.index).dt.week
#每星期是在几号
pd.Series(ts.index).dt.day
利用strftime修改时间格式
pd.Series(ts.index).dt.strftime('%Y-间隔1-%m-间隔2-%d').head()
对于datetime对象可以直接通过属性获取信息
#每个星期所在的月份
pd.date_range('2020','2021', freq='W').month
#每个星期所在的月份
pd.date_range('2020','2021', freq='W').weekday #The number of the day of the week with Monday=0, Sunday=6
三、重采样
重采样,就是指resample函数,它可以看做时序版本的groupby函数
1.resample对象的基本操作
采样频率一般设置为上面提到的offset字符
df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),columns=['A', 'B', 'C'])
r = df_r.resample('3min')
r.sum()
2.采样聚合
df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),columns=['A', 'B', 'C'])
r = df_r.resample('3T')#只求一个值
r['A'].mean()
#表示多个
r['A'].agg([np.sum, np.mean, np.std])
#使用lambda
r.agg({'A': np.sum,'B': lambda x: max(x)-min(x)})
3.采样组的迭代
采样组的迭代和groupby迭代完全类似,对于每一个组都可以分别做相应操作
small = pd.Series(range(6),index=pd.to_datetime(['2020-01-01 00:00:00', '2020-01-01 00:30:00', '2020-01-01 00:31:00','2020-01-01 01:00:00','2020-01-01 03:00:00','2020-01-01 03:05:00']))
resampled = small.resample('H')
for name, group in resampled:print("Group: ", name)print("-" * 27)print(group, end="\n\n")
四、窗口函数
1.Rolling
(a)常用聚合
s = pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2020', periods=1000))
#
s.rolling(window=50)
#
s.rolling(window=50).mean()
#min_periods是指需要的非缺失数据点数量阈值
s.rolling(window=50,min_periods=3).mean()
此外,还有count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函数
(b)rolling的apply聚合
使用apply聚合时,只需记住传入的是window大小的Series,输出的必须是标量即可,
#计算变异系数
s.rolling(window=50,min_periods=3).apply(lambda x:x.std()/x.mean()).head()
(c)基于时间的Rolling
可选closed='right'(默认)\'left'\'both'\'neither'参数,决定端点的包含情况
s.rolling('15D').mean().head()
#添加closed
s.rolling('15D', closed='right').sum().head()
2.Expanding
(a)expanding函数
普通的expanding函数等价与rolling(window=len(s),min_periods=1),是对序列的累计计算,apply也适用
#rolling
s.rolling(window=len(s),min_periods=1).sum().head()
#expanding
s.expanding().sum().head()
#apply
s.expanding().apply(lambda x:sum(x)).head()
(b)几个特别的Expanding类型函数
cumsum/cumprod/cummax/cummin都是特殊expanding累计计算方法
shift/diff/pct_change都是涉及到了元素关系
①shift是指序列索引不变,但值向后移动
②diff是指前后元素的差,period参数表示间隔,默认为1,并且可以为负
③pct_change是值前后元素的变化百分比,period参数与diff类似
Datawhale组队-Pandas(下)时序数据(打卡)相关推荐
- Data Whale第20期组队学习 Pandas学习—时序数据
Data Whale第20期组队学习 Pandas学习-时序数据 一.时序中的基本对象 二.时间戳 2.1 Timestamp的构造与属性 2.2 Datetime序列的生成 2.3 dt对象 2.4 ...
- Datawhale组队学习-金融时序数据挖掘实践-Task01数据探索与分析
Datawhale组队学习-金融时序数据挖掘实践-Task01数据探索与分析 在二手车交易价格预测之后,本菜鸟又加入了金融时序数据挖掘实践的学习.两个项目都是结构化数据,都着重于对数据本身的探索. ...
- Pandas处理时序数据(初学者必会)!
↑↑↑关注后"星标"Datawhale每日干货 & 每月组队学习,不错过Datawhale干货 作者:耿远昊,Datawhale成员,华东师范大学 时序数据是指时间序列数据 ...
- pandas基于时序数据计算模型预测推理需要的统计数据(累计时间、长度变化、变化率、方差、均值、最大、最小等):范围内的统计量、变化率、获得数据集最后的几条数据的统计量、变化率、获得范围内的统计量
pandas基于时序数据计算模型预测推理需要的统计数据(累计时间.长度变化.变化率.方差.均值.最大.最小等):范围内的统计量.变化率.获得数据集最后的几条数据的统计量.变化率.获得范围内的统计量 目 ...
- pandas基于时序数据计算模型预测推理需要的统计数据(累计时间、长度变化、变化率、方差、均值、最大、最小等):数据持续的时间(分钟)、获得某一节点之后的数据总变化量、获得范围内的统计量
pandas基于时序数据计算模型预测推理需要的统计数据(累计时间.长度变化.变化率.方差.均值.最大.最小等):数据持续的时间(分钟).获得某一节点之后的数据总变化量.获得范围内的统计量 目录
- pandas之时序数据
pandas之时序数据 一. 时序的创建 时间点的创建 (1)to_datetime方法 pandas在时间点进阿里的输入格式在规定上给了很大的自由度,下面都可以: pd.to_datetime('2 ...
- DataWhale组队-Pandas(下)缺失数据(打卡)
1.缺失值概要 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下从缺失值产生的原因及影响扥方面展开分析. (1)缺失值产生的原因 1)有些信息暂时无法获取,或 ...
- Datawhale组队-Pandas(下)分类数据(打卡)
Categoricals是pandas的一种数据类型,对应于统计学中的Categorical variables(分类变量),分类变量是有限且固定的可能值,例如:gender(性别).血型.国籍等,与 ...
- Datawhale组队-Pandas(下)文本数据(打卡)
一.string类型的性质 1.string和object的区别 string类型和object不同之处有三: 字符存取方法(string accessor methods,如str.count)会返 ...
最新文章
- H-Net:基于无监督注意的立体深度估计
- UA池和IP代理池使用
- 存储过程——创建通用存储过程(七)
- 【暴力】Codeforces Round #398 (Div. 2) A. Snacktower
- 阿里菜鸟-算法(一面)
- uniapp 生成二维码长按保存_工程设备巡检如何用二维码管理?
- ZStack CMP多云管理平台有何不同?
- Java后端开发实习记录
- Eclipse —— 官网下载地址
- 台式计算机硬件组装应按什么步骤顺序进行,计算机硬件组装正确步骤
- 【转】S60 V3 常见问题解决方法...
- texlive2020 安装_texlive测试是否安装成功
- 色彩空间(一):色彩空间基础
- 最新版cleanmymac4.11.3专业的Mac清理软件
- android读sdcard大文件系统,Android中使用SDcard读取文件
- 数据库_之常用API的使用
- Android Studio | 5种Log | android.util.Log
- python实验心得体会范文大全_万能实验报告心得体会5篇范文
- EHR_ERAL_KAYANG店铺提点方案相关函数
- 美国克莱姆森大学计算机专业排名,2014年美国研究生计算机专业排名
热门文章
- WinDBG 技巧:如何生成Dump 文件(.dump 命令)
- 真格量化——GFTD策略
- pycharm 离线安装插件
- extjs2.0 文件上传_extjs数据存储与传输
- python安装多久_python安装与使用
- loading gif 透明_搞笑GIF:有这样的女朋友下班哪里都不想去
- android studio运行手机时出错怎么解决_小程序 android ios h5解决方案
- caffe caffe.cpp 程序入口分析
- TCP/ip通信模式
- smtplib python教程_Python使用poplib模块和smtplib模块收发电子邮件的教程