python按照日期筛选数据_Pandas日期数据处理:如何按日期筛选、显示及统计数据...
前言
pandas有着强大的日期数据处理功能,本期我们来了解下pandas处理日期数据的一些基本功能,主要包括以下三个方面:
按日期筛选数据
按日期显示数据
按日期统计数据
运行环境为 windows系统,64位,python3.5。
1 读取并整理数据
首先引入pandas库
import pandas as pd
从csv文件中读取数据
df = pd.read_csv('date.csv', header=None)
print(df.head(2))
0 1
0 2013-10-24 3
1 2013-10-25 4整理数据
df.columns = ['date','number']
df['date'] = pd.to_datetime(df['date']) #将数据类型转换为日期类型
df = df.set_index('date') # 将date设置为index
print(df.head(2))
print(df.tail(2))
print(df.shape)
number
date
2013-10-24 3
2013-10-25 4
number
date
2017-02-14 6
2017-02-22 6
(425, 1)df的行数一共是425行。
查看Dataframe的数据类型
print(type(df))
print(df.index)
print(type(df.index))
DatetimeIndex(['2013-10-24', '2013-10-25', '2013-10-29', '2013-10-30',
'2013-11-04', '2013-11-06', '2013-11-08', '2013-11-12',
'2013-11-14', '2013-11-25',
...
'2017-01-03', '2017-01-07', '2017-01-14', '2017-01-17',
'2017-01-23', '2017-01-25', '2017-01-26', '2017-02-07',
'2017-02-14', '2017-02-22'],
dtype='datetime64[ns]', name='date', length=425, freq=None)
构造Series类型数据
s = pd.Series(df['number'], index=df.index)
print(type(s))
s.head(2)
date
2013-10-24 3
2013-10-25 4
Name: number, dtype: int64
2 按日期筛选数据
按年度获取数据
print('---------获取2013年的数据-----------')
print(df['2013'].head(2)) # 获取2013年的数据
print(df['2013'].tail(2)) # 获取2013年的数据
---------获取2013年的数据-----------
number
date
2013-10-24 3
2013-10-25 4
number
date
2013-12-27 2
2013-12-30 2
获取2016至2017年的数据
print('---------获取2016至2017年的数据-----------')
print(df['2016':'2017'].head(2)) #获取2016至2017年的数据
print(df['2016':'2017'].tail(2)) #获取2016至2017年的数据
---------获取2016至2017年的数据-----------
number
date
2016-01-04 4
2016-01-07 6
number
date
2017-02-14 6
2017-02-22 6
获取某月的数据
print('---------获取某月的数据-----------')
print(df['2013-11']) # 获取某月的数据
---------获取某月的数据-----------
number
date
2013-11-04 1
2013-11-06 3
2013-11-08 1
2013-11-12 5
2013-11-14 2
2013-11-25 1
2013-11-29 1
获取具体某天的数据
请注意dataframe类型的数据,获取具体某天的数据时,跟series是有些差异的,详细情况如下述代码所示:
# 按日期筛选数据
print('---------获取具体某天的数据-----------')
# 获取具体某天的数据
print(s['2013-11-06'])
# 获取具体某天的数据,用datafrme直接选取某天时会报错,而series的数据就没有问题
# print(df['2013-11-06'])
#可以考虑用区间来获取某天的数据
print(df['2013-11-06':'2013-11-06'])
---------获取具体某天的数据-----------
3
number
date
2013-11-06 3dataframe的truncate函数可以获取某个时期之前或之后的数据,或者某个时间区间的数据
但一般建议直接用切片(slice),这样更为直观,方便
# dataframe的truncate函数可以获取某个时期之前或之后的数据,或者某个时间区间的数据
# 但一般建议直接用切片(slice),这样更为直观,方便
print('---------获取某个时期之前或之后的数据-----------')
print('--------after------------')
print(df.truncate(after = '2013-11'))
print('--------before------------')
print(df.truncate(before='2017-02'))
---------获取某个时期之前或之后的数据-----------
--------after------------
number
date
2013-10-24 3
2013-10-25 4
2013-10-29 2
2013-10-30 1
--------before------------
number
date
2017-02-07 8
2017-02-14 6
2017-02-22 6
3 按日期显示数据
3.1 to_period()方法
请注意df.index的数据类型是DatetimeIndex;
df_peirod的数据类型是PeriodIndex
按月显示,但不统计
df_period = df.to_period('M') #按月显示,但不统计
print(type(df_period))
print(type(df_period.index))
# 请注意df.index的数据类型是DatetimeIndex;
# df_peirod的数据类型是PeriodIndex
print(df_period.head())
number
date
2013-10 3
2013-10 4
2013-10 2
2013-10 1
2013-11 1
按季度显示,但不统计
print(df.to_period('Q').head()) #按季度显示,但不统计
number
date
2013Q4 3
2013Q4 4
2013Q4 2
2013Q4 1
2013Q4 1
按年度显示,但不统计
print(df.to_period('A').head()) #按年度显示,但不统计
number
date
2013 3
2013 4
2013 2
2013 1
2013 1
3.2 asfreq()方法
按年度频率显示
df_period.index.asfreq('A') # 'A'默认是'A-DEC',其他如'A-JAN'
PeriodIndex(['2013', '2013', '2013', '2013', '2013', '2013', '2013', '2013',
'2013', '2013',
...
'2017', '2017', '2017', '2017', '2017', '2017', '2017', '2017',
'2017', '2017'],
dtype='period[A-DEC]', name='date', length=425, freq='A-DEC')
df_period.index.asfreq('A-JAN') # 'A'默认是'A-DEC',其他如'A-JAN'
PeriodIndex(['2014', '2014', '2014', '2014', '2014', '2014', '2014', '2014',
'2014', '2014',
...
'2017', '2017', '2017', '2017', '2017', '2017', '2017', '2018',
'2018', '2018'],
dtype='period[A-JAN]', name='date', length=425, freq='A-JAN')按年度频率在不同情形下的显示,可参考下图所示:
按季度频率显示
df_period.index.asfreq('Q') # 'Q'默认是'Q-DEC',其他如“Q-SEP”,“Q-FEB”
PeriodIndex(['2013Q4', '2013Q4', '2013Q4', '2013Q4', '2013Q4', '2013Q4',
'2013Q4', '2013Q4', '2013Q4', '2013Q4',
...
'2017Q1', '2017Q1', '2017Q1', '2017Q1', '2017Q1', '2017Q1',
'2017Q1', '2017Q1', '2017Q1', '2017Q1'],
dtype='period[Q-DEC]', name='date', length=425, freq='Q-DEC')
df_period.index.asfreq('Q-SEP') # 可以显示不同的季度财年,“Q-SEP”,“Q-FEB”
# df_period.index = df_period.index.asfreq('Q-DEC') # 可以显示不同的季度财年,“Q-SEP”,“Q-FEB”
# print(df_period.head())
PeriodIndex(['2014Q1', '2014Q1', '2014Q1', '2014Q1', '2014Q1', '2014Q1',
'2014Q1', '2014Q1', '2014Q1', '2014Q1',
...
'2017Q2', '2017Q2', '2017Q2', '2017Q2', '2017Q2', '2017Q2',
'2017Q2', '2017Q2', '2017Q2', '2017Q2'],
dtype='period[Q-SEP]', name='date', length=425, freq='Q-SEP')按季度频率在不同情形下的显示,可参考下图所示:
按月度频率显示
df_period.index.asfreq('M') # 按月份显示
PeriodIndex(['2013-10', '2013-10', '2013-10', '2013-10', '2013-11', '2013-11',
'2013-11', '2013-11', '2013-11', '2013-11',
...
'2017-01', '2017-01', '2017-01', '2017-01', '2017-01', '2017-01',
'2017-01', '2017-02', '2017-02', '2017-02'],
dtype='period[M]', name='date', length=425, freq='M')
按工作日显示
method 1
df_period.index.asfreq('B', how='start') # 按工作日期显示
PeriodIndex(['2013-10-01', '2013-10-01', '2013-10-01', '2013-10-01',
'2013-11-01', '2013-11-01', '2013-11-01', '2013-11-01',
'2013-11-01', '2013-11-01',
...
'2017-01-02', '2017-01-02', '2017-01-02', '2017-01-02',
'2017-01-02', '2017-01-02', '2017-01-02', '2017-02-01',
'2017-02-01', '2017-02-01'],
dtype='period[B]', name='date', length=425, freq='B')method 2
df_period.index.asfreq('B', how='end') # 按工作日期显示
PeriodIndex(['2013-10-31', '2013-10-31', '2013-10-31', '2013-10-31',
'2013-11-29', '2013-11-29', '2013-11-29', '2013-11-29',
'2013-11-29', '2013-11-29',
...
'2017-01-31', '2017-01-31', '2017-01-31', '2017-01-31',
'2017-01-31', '2017-01-31', '2017-01-31', '2017-02-28',
'2017-02-28', '2017-02-28'],
dtype='period[B]', name='date', length=425, freq='B')
4 按日期统计数据
4.1按日期统计数据
按周统计数据
print(df.resample('w').sum().head())
# “w”,week
number
date
2013-10-27 7.0
2013-11-03 3.0
2013-11-10 5.0
2013-11-17 7.0
2013-11-24 NaN
按月统计数据
print(df.resample('M').sum().head())
# "MS"是每个月第一天为开始日期, "M"是每个月最后一天
number
date
2013-10-31 10
2013-11-30 14
2013-12-31 27
2014-01-31 16
2014-02-28 4
按季度统计数据
print(df.resample('Q').sum().head())
# "QS"是每个季度第一天为开始日期, "Q"是每个季度最后一天
number
date
2013-12-31 51
2014-03-31 73
2014-06-30 96
2014-09-30 136
2014-12-31 148
按年统计数据
print(df.resample('AS').sum())
# "AS"是每年第一天为开始日期, "A是每年最后一天
number
date
2013-01-01 51
2014-01-01 453
2015-01-01 743
2016-01-01 1552
2017-01-01 92关于日期的类型,按参考下图所示来选择合适的分期频率:
4.2 按日期统计后,按年或季度或月份显示
按年统计并显示
print(df.resample('AS').sum().to_period('A'))
# 按年统计并显示
number
date
2013 51
2014 453
2015 743
2016 1552
2017 92
按季度统计并显示
print(df.resample('Q').sum().to_period('Q').head())
# 按季度统计并显示
number
date
2013Q4 51
2014Q1 73
2014Q2 96
2014Q3 136
2014Q4 148
按月度统计并显示
print(df.resample('M').sum().to_period('M').head())
# 按月度统计并显示
number
date
2013-10 10
2013-11 14
2013-12 27
2014-01 16
2014-02 4
更多精彩内容请关注微信公众号:
“Python数据之道”
python按照日期筛选数据_Pandas日期数据处理:如何按日期筛选、显示及统计数据...相关推荐
- Python数据处理(一)——以美国各州统计数据为例
编写本篇文章的目的:了解Python数据处理的基本步骤,计算美国各州的人口密度,数据来源:https://github.com/jakevdp/data-USstates/ ,共3张数据表格:stat ...
- python pandas处理excel 统计数据_pandas数据分析输出excel产生文本形式存储的百分比数据,如何处理?...
Apple iPhone 11 (A2223) 128GB 黑色 移动联通电信4G手机 双卡双待 4999元包邮 去购买 > 关键词: python.pandas.to_excel.文本形式存储 ...
- mysql双重分组没有值也要显示_mysql 统计数据,按照日期分组,把没有数据的日期也展示出来...
因为业务需求,要统计每天的新增用户并且要用折线图的方式展示. 如果其中有一天没有新增用户的话,这一天就是空缺的,在绘制折线图的时候是不允许的,所有要求把没有数据的日期也要在图表显示. 查询2019-0 ...
- hightmaps 按地图上显示的统计数据
离extjs 至 easyui 到html5到hightchars 再到hightmaps.Exjts和easyui很相似,extjs是重量级的,easyui轻量级的.比extjs容易上手.照着dem ...
- Axure中后台管理信息系统通用原型方案 /框架模板/数据仪表/团队协作/会员管理/电商系统/资金统计/数据监控/销量统计/订单管理/客户管理/团队协作/职务管理/业务信息/员工管理/即时通讯
本作品是一套通用型的中后台管理系统原型设计方案,可以帮助你快速输出标准和美观的中后台产品原型方案,极大的节省协作成本和提升工作效率.这套方案提供了12套不同类型的登录界面和系统框架,并涵盖了大量的常用 ...
- 数据科学原理与数据处理
数据科学原理与数据处理 1 Python行业分析 通过Stack OverFlow专业网站的大数据统计,Python相关技术模块访问量最大的簇是数据科学相关,然后才是后台开发. 1.1 数据处理流程 ...
- python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...
说明 文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
- 用Python玩转统计数据:取样、计算相关性、拆分训练模型和测试
导读:本文会介绍一些技术,帮你更好地理解数据,以及探索特征之间的关系. 本文使用Python建立对数据的理解.我们会分析变量的分布,捋清特征之间的关系.最后,你会学习给样本分层,并将数据集拆分成测试集 ...
- Python--Redis实战:第五章:使用Redis构建支持程序:第2节:计数器和统计数据...
上一篇文章:Python--Redis实战:第五章:使用Redis构建支持程序:第1节:使用Redis来记录日志 下一篇文章:Python--Redis实战:第五章:使用Redis构建支持程序:第3节 ...
最新文章
- 鸿蒙系统的升级名单,首批升级鸿蒙系统的名单确认,华为安卓系统将成为过去式!...
- ds哈希查找—二次探测再散列_大白话之哈希表和哈希算法
- 覆盖所有面试知识点,持续更新中
- Exchange_Server_2013在Windows_2008_R2部署
- 线性存储(链表存储)
- 你是多大年龄感觉自己开窍了,明白许多人世间的道理?
- 调用图片文件夹中的任意图片随机显示_hexo框架下,实现图片一键式上传到七牛云
- 关于Spring Cloud Netflix
- fps类游戏c语言源程序,95k的FPS游戏!用C++和汇编编写
- 李学龙当选美国计算机杰出科学家的报道,我校李学龙教授当选美国医学与生物工程院会士...
- 网上选课系统算法了解
- 【C语言】球从100米自由落下,每次落地后反跳回原高度的一半。当10次落地时,共经过多少米,第10次反弹多高。
- 个人项目(二)-- 自助点餐系统
- ubuntu-16.04.6安装教程
- [GXYCTF2019]禁止套娃--详解
- 【Vue】Vue移动端页面自适应解决方案
- Python 通过文本生成词云
- 微信小程序后台返回的JSON字符串转JSON报错问题解决方案
- PostMan script教程
- 智能安防是趋势 几大重点领域深入探讨
热门文章
- Codeforces Round #228 (Div. 2)
- jQuery-图片上传裁剪插件--imgAreaSelect(分析一) 放大缩小
- QQ空间小秘书 V1.70 Beta1 ~~ 天空原创软件
- Spring AOP示例教程 - Aspect,Advice,Pointcut,JoinPoint,Annotations,XML Configuration
- Running PostgreSQL using Docker Compose
- 高性能分布式事物中间件Sharding-Sphere介绍
- docker certbot 一键申请https证书、证书过期续订、续订成功自动重启服务
- 【静态站点(一)】之 静态网站生成器
- google search console的使用
- 拼图登陆拼图二维码验证_如何使用拼图快速轻松地构建静态网站