Pandas中resample方法详解

Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法。重新取样时间序列数据。

方便的时间序列的频率转换和重采样方法。对象必须具有类似datetime的索引(DatetimeIndex、PeriodIndex或TimedeltaIndex),或将类似datetime的值传递给on或level关键字。

DataFrame.resample(rule, axis=0, closed=None, label=None, convention='start', kind=None, loffset=None, base=None, on=None, level=None, origin='start_day', offset=None)

参数详解是:

参数 说明
rule 表示目标转换的偏移量字符串或对象
freq 表示重采样频率,例如‘M’、‘5min’,Second(15)
how=‘mean’ 用于产生聚合值的函数名或数组函数,例如‘mean’、‘ohlc’、np.max等,默认是‘mean’,其他常用的值由:‘first’、‘last’、‘median’、‘max’、‘min’
axis=0 哪个轴用于向上采样或向下采样。对于序列,这将默认为0,即沿着行。必须是DatetimeIndex, TimedeltaIndex或PeriodIndex。默认是纵轴,横轴设置axis=1
fill_method = None 升采样时如何插值,比如‘ffill’、‘bfill’等
closed = ‘right’ 在降采样时,各时间段的哪一段是闭合的,‘right’或‘left’,默认‘right’
label= ‘right’ 在降采样时,如何设置聚合值的标签,例如,9:30-9:35会被标记成9:30还是9:35,默认9:35
convention = None 当重采样时期时,将低频率转换到高频率所采用的约定(start或end)。默认‘end’
kind = None 聚合到时期(‘period’)或时间戳(‘timestamp’),默认聚合到时间序列的索引类型
loffset = None 调整重新取样的时间标签
base 对于平均细分1天的频率,为累计间隔的“起源”。例如,对于“5min”频率,基数可以从0到4。默认值为0。
on 对于数据流,要使用列而不是索引进行重采样。列必须与日期时间类似。
level 对于多索引,用于重采样的级别(名称或数字)。级别必须与日期时间相似
origin 要调整分组的时间戳。起始时区必须与索引的时区匹配。如果没有使用时间戳,也支持以下值:epoch:原点是1970-01-01’;start ': origin是timeseries的第一个值;“start_day”:起源是timeseries午夜的第一天;
offset 加到原点的偏移时间增量
index = pd.date_range('1/1/2000', periods=9, freq='T')
series = pd.Series(range(9), index=index)
series
'''
2000-01-01 00:00:00  0
2000-01-01 00:01:00  1
2000-01-01 00:02:00  2
2000-01-01 00:03:00  3
2000-01-01 00:04:00  4
2000-01-01 00:05:00  5
2000-01-01 00:06:00  6
2000-01-01 00:07:00  7
2000-01-01 00:08:00  8
Freq: T, dtype: int64
'''

将该系列数据采样到3分钟箱中,并对落入箱中的时间戳的值求和。

series.resample('3T').sum()
'''
2000-01-01 00:00:00   3
2000-01-01 00:03:00  12
2000-01-01 00:06:00  21
Freq: 3T, dtype: int64
'''

如上所述,将系列下采样到3分钟的容器中,但请使用右侧边缘而不是左侧标记每个容器。 请注意,用作标签的存储桶中的值不包含在其标记的存储桶中。 例如,在原始系列中,存储区2000-01-01 00:03:00包含值3,但重新采样的存储区中标有2000-01-01 00:03:00的总和值不包含3( 如果是,则总和为6,而不是3)。 要包括此值,请关闭bin间隔的右侧,如下面的示例所示。

series.resample('3T', label='right').sum()
'''
2000-01-01 00:03:00     3
2000-01-01 00:06:00    12
2000-01-01 00:09:00    21
Freq: 3T, dtype: int64
'''

如上所述,将系列降采样到3分钟的箱中,但关闭箱间隔的右侧。

series.resample('3T', label='right', closed='right').sum()
'''
2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15
Freq: 3T, dtype: int64
'''

将系列上采样到30秒档中。

series.resample('30S').asfreq()[0:5]   # Select first 5 rows
'''
2000-01-01 00:00:00   0.0
2000-01-01 00:00:30   NaN
2000-01-01 00:01:00   1.0
2000-01-01 00:01:30   NaN
2000-01-01 00:02:00   2.0
Freq: 30S, dtype: float64'''

将该系列上采样到30秒的箱子中,并使用pad方法填充NaN值。

series.resample('30S').pad()[0:5]
'''
2000-01-01 00:00:00    0
2000-01-01 00:00:30    0
2000-01-01 00:01:00    1
2000-01-01 00:01:30    1
2000-01-01 00:02:00    2
Freq: 30S, dtype: int64
'''

将序列上采样到30秒的箱子中,并使用bfill方法填充NaN值。

series.resample('30S').bfill()[0:5]
'''
2000-01-01 00:00:00    0
2000-01-01 00:00:30    1
2000-01-01 00:01:00    1
2000-01-01 00:01:30    2
2000-01-01 00:02:00    2
Freq: 30S, dtype: int64
'''

通过apply传递一个自定义函数

def custom_resampler(array_like):return np.sum(array_like) + 5
series.resample('3T').apply(custom_resampler)
'''
2000-01-01 00:00:00     8
2000-01-01 00:03:00    17
2000-01-01 00:06:00    26
Freq: 3T, dtype: int64
'''

对于具有PeriodIndex的系列,可以使用关键字约定来控制是使用规则的开始还是结束。
使用“开始”约定按季度重新取样。值被分配到该期间的第一季度。

s = pd.Series([1, 2], index=pd.period_range('2012-01-01',freq='A',periods=2))
s
'''
2012    1
2013    2
Freq: A-DEC, dtype: int64
'''     s.resample('Q', convention='start').asfreq()
'''
2012Q1    1.0
2012Q2    NaN
2012Q3    NaN
2012Q4    NaN
2013Q1    2.0
2013Q2    NaN
2013Q3    NaN
2013Q4    NaN
Freq: Q-DEC, dtype: float64
'''

使用“结束”惯例按月重新计算季度数。将值赋给该期间的最后一个月。

q = pd.Series([1, 2, 3, 4], index=pd.period_range('2018-01-01',freq='Q',periods=4))
q
'''
2018Q1    1
2018Q2    2
2018Q3    3
2018Q4    4
Freq: Q-DEC, dtype: int64
'''q.resample('M', convention='end').asfreq()
'''
2018-03    1.0
2018-04    NaN
2018-05    NaN
2018-06    2.0
2018-07    NaN
2018-08    NaN
2018-09    3.0
2018-10    NaN
2018-11    NaN
2018-12    4.0
Freq: M, dtype: float64
'''

对于DataFrame对象,关键字on可用于指定列,而不是用于重新采样的索引。

d = dict({'price': [10, 11, 9, 13, 14, 18, 17, 19],'volume': [50, 60, 40, 100, 50, 100, 40, 50]})
df = pd.DataFrame(d)
df['week_starting'] = pd.date_range('01/01/2018',periods=8,freq='W')
df
'''price  volume week_starting
0     10      50    2018-01-07
1     11      60    2018-01-14
2      9      40    2018-01-21
3     13     100    2018-01-28
4     14      50    2018-02-04
5     18     100    2018-02-11
6     17      40    2018-02-18
7     19      50    2018-02-25
'''
df.resample('M', on='week_starting').mean()
'''price  volume
week_starting
2018-01-31     10.75    62.5
2018-02-28     17.00    60.0
'''

对于具有多索引的数据流,关键字级别可用于指定需要在哪个级别进行重采样。

days = pd.date_range('1/1/2000', periods=4, freq='D')
d2 = dict({'price': [10, 11, 9, 13, 14, 18, 17, 19],'volume': [50, 60, 40, 100, 50, 100, 40, 50]})
df2 = pd.DataFrame(d2,index=pd.MultiIndex.from_product([days,['morning','afternoon']]))
df2
'''price  volume
2000-01-01 morning       10      50afternoon     11      60
2000-01-02 morning        9      40afternoon     13     100
2000-01-03 morning       14      50afternoon     18     100
2000-01-04 morning       17      40afternoon     19      50
'''df2.resample('D', level=0).sum()
'''price  volume
2000-01-01     21     110
2000-01-02     22     140
2000-01-03     32     150
2000-01-04     36      90
'''

如果您想基于固定的时间戳调整容器的开始:

start, end = '2000-10-01 23:30:00', '2000-10-02 00:30:00'
rng = pd.date_range(start, end, freq='7min')
ts = pd.Series(np.arange(len(rng)) * 3, index=rng)
ts
'''
2000-10-01 23:30:00     0
2000-10-01 23:37:00     3
2000-10-01 23:44:00     6
2000-10-01 23:51:00     9
2000-10-01 23:58:00    12
2000-10-02 00:05:00    15
2000-10-02 00:12:00    18
2000-10-02 00:19:00    21
2000-10-02 00:26:00    24
Freq: 7T, dtype: int64
'''ts.resample('17min').sum()
'''
2000-10-01 23:14:00     0
2000-10-01 23:31:00     9
2000-10-01 23:48:00    21
2000-10-02 00:05:00    54
2000-10-02 00:22:00    24
Freq: 17T, dtype: int64
'''ts.resample('17min', origin='epoch').sum()
'''
2000-10-01 23:18:00     0
2000-10-01 23:35:00    18
2000-10-01 23:52:00    27
2000-10-02 00:09:00    39
2000-10-02 00:26:00    24
Freq: 17T, dtype: int64
'''ts.resample('17min', origin='2000-01-01').sum()
'''
2000-10-01 23:24:00     3
2000-10-01 23:41:00    15
2000-10-01 23:58:00    45,
2000-10-02 00:15:00    45
Freq: 17T, dtype: int64
'''

如果你想用偏移时间增量来调整bins的开始,下面两行是等效的:

ts.resample('17min', origin='start').sum()
'''
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq: 17T, dtype: int64
'''ts.resample('17min', offset='23h30min').sum()
'''
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq: 17T, dtype: int64
'''

要替换弃用的base实参,现在可以使用offset,在这个例子中,它等价于base=2:

ts.resample('17min', offset='2min').sum()
'''
2000-10-01 23:16:00     0
2000-10-01 23:33:00     9
2000-10-01 23:50:00    36
2000-10-02 00:07:00    39
2000-10-02 00:24:00    24
Freq: 17T, dtype: int64
'''

要替换已弃用的loffset参数:

from pandas.tseries.frequencies import to_offset
loffset = '19min'
ts_out = ts.resample('17min').sum()
ts_out.index = ts_out.index + to_offset(loffset)
ts_out
'''
2000-10-01 23:33:00     0
2000-10-01 23:50:00     9
2000-10-02 00:07:00    21
2000-10-02 00:24:00    54
2000-10-02 00:41:00    24
Freq: 17T, dtype: int64
'''

Pandas中resample方法详解相关推荐

  1. python resample函数_Pandas中resample方法详解

    Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法. 方法的格式是: DataFrame.resample(rule, h ...

  2. numpy中reshape方法详解

    numpy中reshape方法详解_zhanggonglalala的博客-CSDN博客_reshape

  3. JavaScript中getBoundingClientRect()方法详解

    JavaScript中getBoundingClientRect()方法详解 getBoundingClientRect() 这个方法返回一个矩形对象,包含四个属性:left.top.right和bo ...

  4. php中魔术方法详解

    〝 古人学问遗无力,少壮功夫老始成 〞php中魔术方法详解,在php中有一类方法,很奇怪常,那就是只要满足一定条件,就会自己执行,那就是php中的魔术方法,码字不易,出精品更难,没有特别幸运,那么请先 ...

  5. python read_excel 参数_对Python 2.7 pandas 中的read_excel详解

    对Python 2.7 pandas 中的read_excel详解 发布时间:2020-08-28 03:32:56 来源:脚本之家 阅读:106 作者:G_66_hero 导入pandas模块: i ...

  6. Js中apply方法详解说明

    Js apply 方法 详解 我在一开始看到JavaScript的函数apply和call时,非常的模糊,看也看不懂,最近在网上看到一些文章对apply方法和call的一些示例,总算是看的有点眉目了, ...

  7. python中new方法详解及_Python中new方法的详解

    new_ 方法是什么? __new__方法其实就是创建对象的方法 new()方法是在类准备将自身实例化时调用. 一个类可以有多个位置参数和多个命名参数,而在实例化开始之后,在调用 init()方法之前 ...

  8. 浅谈嵌入式MCU软件开发之S32K1xx系列MCU启动过程及重映射代码到RAM中运行方法详解

    内容提要 注:本文摘自NXP工程师胡恩伟的微信公众号"汽车电子expert成长之路",大家感兴趣可以关注一下. 引言 1. S32K1xx系列MCU启动过程详解(startup_S ...

  9. php call()函数,PHP中__call()方法详解

    前面给大家介绍了<__construct(),类的构造函数><__destruct(),类的析构函数>,下面继续给大家介绍PHP中__call()方法. __call(),在对 ...

最新文章

  1. 怎样的中奖算法能让人信服(转)
  2. 云计算将为移动医疗带来哪些新机遇?
  3. c# json datatable_KoobooJson一款高性能且轻量的JSON库
  4. php为什么都不想去二次开发,php学习误区:不要盲目的去读程序
  5. 【渝粤教育】国家开放大学2018年春季 7392-22FMatlab语言及其应用 参考试题
  6. Yeslab现任明教教主ISE课程前七部分免费发布
  7. python--类与GUI编程框架
  8. 单元测试:unittest.TestCase
  9. 【React深入】深入分析虚拟DOM的渲染原理和特性
  10. 数字化园区、智慧园区、物业管理、园区设备、房屋资源、维修业务、巡查管理、招商管理、商业租售管理,收支管理,合同管理,人员管理,日常维护,巡检管理,报检报修、物业驾驶舱、axure原型、rp原型
  11. Java-抽象类第一篇认识抽象类
  12. STM32F205转GD32F205晶振不能起振,什么原因?
  13. 可达性分析算法GC Roots
  14. selenium使用AutoIt工具上传附件
  15. python绘图之Times New Roman字体以及Helvetica字体
  16. 波动方程,达朗贝尔解和亥姆霍兹方程
  17. 图像缩放、旋转、翻转、平移
  18. 怎么在jq中添加html样式,jquery怎么添加css样式
  19. 预测大盘最准确的指标_一辈子死记一个指标,完全弄透彻,即可预测一个月的股市升跌!...
  20. N4BiasFieldCorrection

热门文章

  1. sprint 1 的总结
  2. c语言情书相关活动策划案,三行情书活动策划案
  3. 外包两年跳进外企和大厂,简历污点不是外包经历,是技术太差
  4. TensorFlow之设备(device)详解
  5. ​华为轮值董事长胡厚崑:没有自建芯片厂计划;​苹果赔偿1亿美元给App开发者;Git.io停用|极客头条
  6. PSO粒子群算法优化BP神经网络(PSO-BPNN)回归预测MATLAB代码
  7. 1100. 校庆 (25 分)
  8. 交通安全与智能控制专业学计算机吗,交通安全与智能控制专业就业前景怎么样...
  9. 上饶师范学院C语言试卷,13级普通科试卷A卷.doc
  10. 淘宝详情页分发推荐算法总结:用户即时兴趣强化