用pandas填充时间序列缺失值
用pandas填充时间序列缺失值
例如,下有时间缺失值:
Date_time current_demand Temp_Mean humidity_Mean
0 2018-05-01 00:00 15951.0 300.904267 49.600000
1 2018-05-01 00:15 16075.0 300.904267 49.600000
2 2018-05-01 00:30 15977.0 300.904267 49.600000
3 2018-05-01 00:45 15945.0 300.837600 50.333333
4 2018-05-01 01:00 15868.0 298.889333 59.133333
5 2018-05-01 01:15 15583.0 298.889333 59.133333
6 2018-05-01 01:30 15470.0 298.756000 59.800000
7 2018-05-01 01:45 15301.0 298.756000 59.800000
8 2018-05-01 02:15 14946.0 298.756000 59.800000
9 2018-05-01 02:30 14736.0 298.756000 59.800000
10 2018-05-01 02:45 14630.0 298.502333 59.000000
11 2018-05-01 03:15 14350.0 298.502333 59.000000
csv文件(修改):
Date_time,current_demand,Temp_Mean,humidity_Mean
2018-05-01 00:00,15951.0,300.904267,49.600000
2018-05-01 00:15,16075.0,300.904267,49.600000
2018-05-01 00:30,15977.0,300.904267,49.600000
2018-05-01 00:45,15945.0,300.837600,50.333333
2018-05-01 01:00,15868.0,298.889333,59.133333
2018-05-01 01:15,15583.0,298.889333,59.133333
2018-05-01 01:30,15470.0,298.756000,59.800000
2018-05-01 01:45,15301.0,298.756000,59.800000
2018-05-01 02:15,14946.0,298.756000,59.800000
2018-05-01 02:30,14736.0,298.756000,59.800000
2018-05-01 02:45,14630.0,298.502333,59.000000
2018-05-01 03:15,14350.0,298.502333,59.000000
import pandas as pd
import numpy as npdf = pd.read_csv(r'submission.csv',sep = ',')
df.shapedf['Date_time'] = pd.to_datetime(df['Date_time'])
grouper = pd.Grouper(key='Date_time', freq='15T')
res = df.groupby(grouper).first().ffill().reset_index()
res
结果如下:
转载于:https://cloud.tencent.com/developer/ask/127509
用pandas填充时间序列缺失值相关推荐
- R语言时间序列数据的合并(merge time series):使用merge函数合并时间序列数据、使用zoo包中的na.spline函数使用三次样条方法(cubic spline)填充时间序列缺失值
↵ R语言时间序列数据的合并(merge time series):使用merge函数合并时间序列数据.使用zoo包中的na.spline函数使用三次样条方法(cubic spline)填充时间序列缺 ...
- pandas用均值填充nan_如何填补Pandas中的缺失值(机器学习入门篇)
在使用python里的pandas库进行数据分析工作时,很多时候我们都会遇到这样一个问题:数据缺失.这也是大部分数据分析工作所会遇到的之一.而正确处理缺失值,也是我们在数据分析中数据预处理环节的关键的 ...
- pandas数据清洗(缺失值、异常值和重复值处理)
1. 缺失值处理 处理方式: 直接删除 填充缺失值 真值转换法 不处理 ( 数据分析和建模应用中很多模型对于缺失值有容忍度或灵活的处理方法,因此在预处理阶段可以不做处理.常见的能够自动处理缺失值的模 ...
- Pandas处理数据缺失值
写在篇前 在数据处理实践中,数据不可能十全十美,总会由于总总原因,比如不可测.测量结果丢失等原因使得部分数据缺失,处理缺失值的策略一般分为以下两种: 通过维持一个覆盖全局的掩码表示缺失值 a) ...
- python时间序列缺失值_时间序列数据如何插补缺失值?
在多元时间序列中,数据缺失的情况十分普遍.最近我在做这方面的literature review,在这里回顾总结一下 . 时间序列缺失值处理方法主要分为三大类: 第一类是直接删除法,该方法可能会舍弃数据 ...
- pandas创建时间序列仿真数据并过滤(filter)时间数据:头尾数据、某年的数据、某年某月的数据、某年某月某日的数据、某个时间范围内的数据、truncate函数查看特定时间之前护着之后的数据
pandas创建时间序列仿真数据并过滤(filter)时间数据:头尾数据.某年的数据.某年某月的数据.某年某月某日的数据.某个时间范围内的数据.truncate函数查看特定时间之前护着之后的数据 目录
- R语言使用xgboost构建回归模型:vtreat包为xgboost回归模型进行数据预处理(缺失值填充、缺失值标识、离散变量独热onehot编码)、构建出生体重的xgboost模型回归模型
R语言使用xgboost构建回归模型:vtreat包为xgboost回归模型进行数据预处理(缺失值填充.缺失值标识.离散变量独热onehot编码).构建出生体重的xgboost模型回归模型 目录
- Pandas处理时间序列数据的20个关键知识点
时间序列数据有许多定义,它们以不同的方式表示相同的含义.一个简单的定义是时间序列数据包括附加到顺序时间点的数据点. 时间序列数据的来源是周期性的测量或观测.许多行业都存在时间序列数据.举几个例 ...
- pandas用众数填充缺失值_缺而不失——pandas中常见缺失值处理方法
缺失值的处理是一件艺术活,最高的境界应该是缺而不失.pandas中提供了非常丰富的工具来对缺失值进行处理.这里主要是对常用方法的简要介绍. 注:不同地区和软件对缺失值的表示方法不同,在用pandas读 ...
最新文章
- Thinkphp 源码分析
- Spark Streaming 编程新手入门指南
- webdriver+python 对三大浏览器的支持
- 面试题—Mysql篇
- vagrant打造自己的开发环境~~我也来一发
- 为推广5G 4G网络降速?三大运营商回应:不存在的!
- [leetcode]Length of Last Word
- 基于java的飞机大战雷电游戏的开发与设计#毕业设计
- halcon 深度学习标注_Halcon教程之-HALCON 18.05正式发布,深度学习不再需要GPU
- OpenGL制作简易地图(一)
- conda create创建虚拟环境失败
- 测试war包(免费)
- Chrome灵魂插件
- Linux安装配置ssh 基于unbantu22.04.1 LTS版本
- linux 查看系统命令
- 一些完整的Android开源app项目
- 国外优秀的域名注册商介绍
- 《Very Deep Convolutional Networks for Large-Scale Image Recognition》——VGG论文总结
- 《计算机科学导论》一导读
- 虚拟机搭建单机版Hadoop教程(惨痛经历)
热门文章
- java中三种常见内存溢出错误的处理方法
- Mybatis中mapper文件中的两层循环
- mysql 1100_mysql数据库选择,有1100个用户,每个用户每月生成一张表,使用中该表内每秒上传一条数据,数据量很大...
- gis怎么改鼠标滚轮缩放_PhotoShop缩放画面的快捷方式
- 未公开接口主要指以下哪几类_Java8的 Stream 函数式接口,你了解多少?
- Web服务 源码编译安装LAMP架构
- python 写txt 换行_python中写入txt文件需要换行,以及\r 和\n
- android中判断sim卡状态和读取联系人资料的方法
- java与c/c++进行socket通信的一些问题
- mysql设计技巧_MySQL库表设计小技巧