这是当初刚进公司时,leader给的一个独立练手小项目,关于时间序列预测,情景比较简单,整个过程实现下来代码也仅100多行,但完成过程中踩了很多坑,觉的有必要分(tu)享(cao)一下。完整代码和样例数据放到了我的github上(文章仅粘贴部分):

https://github.com/scarlettgin/cyclical_series_predict

1、背景

公司平台上有不同的api,供内部或外部调用,这些api承担着不同的功能,如查询账号、发版、抢红包等等。日志会记录下每分钟某api被访问了多少次,即一个api每天会有1440条记录(1440分钟),将每天的数据连起来观察,有点类似于股票走势的意思。我想通过前N天的历史数据预测出第N+1天的流量访问情况,预测值即作为合理参考,供新一天与真实值做实时对比。当真实流量跟预测值有较大出入,则认为有异常访问,触发报警。

2、数据探索

我放了一份样例数据在data文件夹下,

看一下数据大小和结构

data = pd.read_csv(filename)

print('size: ',data.shape)

print(data.head())

data.png

数据大小:

共10080条记录,即10080分钟,七天的数据。

字段含义:

date:时间,单位分钟

count:该分钟该api被访问的次数

画图看一下序列的走势:(一些画图等探索类的方法放在了test_stationarity.py 文件中,包含时间序列图,移动平均图,有兴趣的可以自己尝试下)。

def draw_ts(timeseries):

timeseries.plot()

plt.show()

data = pd.read_csv(path)

data = data.set_index('date')

data.index = pd.to_datetime(data.index)

ts = data['count']

draw_ts(ts)

序列.png

看这糟心的图,那些骤降为0的点这就是我遇到的第一个坑,我当初一拿到这份数据就开始做了。后来折腾了好久才发现,那些骤降为0的点是由于数据缺失,ETL的同学自动补零造成的,沟通晚了(TДT)。

把坑填上,用前后值的均值把缺失值补上,再看一眼:

填充好缺失值的序列.png

发现这份数据有这样几个特点,在模型设计和数据预处理的时候要考虑到:

1、这是一个周期性的时间序列,数值有规律的以天为周期上下波动,图中这个api,在每天下午和晚上访问较为活跃,在早上和凌晨较为稀少。在建模之前需要做分解。

2、我的第二个坑:数据本身并不平滑,骤突骤降较多,而这样是不利于预测的,毕竟模型需要学习好正常的序列才能对未知数据给出客观判断,否则会出现频繁的误报,令气氛变得十分尴尬( ´Д`),所以必须进行平滑处理。

3、这只是一个api的序列图,而不同的api的形态差距是很大的,毕竟承担的功能不同,如何使模型适应不同形态的api也是需要考虑的问题。

3、预处理

3.1 划分训练测试集

前六天的数据做训练,第七天做测试集。

class ModelDecomp(object):

def __init__(self, file, test_size=1440):

self.ts = self.read_data(file)

self.test_size = test_size

self.train_size = len(self.ts) - self.test_size

self.train = self.ts[:len(self.ts)-test_size]

self.test = self.ts[-test_size:]

3.2 对训练数据进行平滑处理

消除数据的毛刺,可以用移动平均法,我这里没有采用,因为我试过发现对于我的数据来说,移动平均处理完后并不能使数据平滑,我这里采用的方法很简单,但效果还不错:把每个点与上一点的变化值作为一个新的序列,对这里边的异常值,也就是变化比较离谱的值剃掉,用前后数据的均值填充,注意可能会连续出现变化较大的点:

def _diff_smooth(self, ts):

dif = ts.diff().dropna() # 差分序列

td = dif.describe() # 描述性统计得到:min,25%,50%,75%,max值

high = td['75%'] + 1.5 * (td['75%'] - td['25%']) # 定义高点阈值,1.5倍四分位距之外

low = td['25%'] - 1.5 * (td['75%'] - td['25%']) # 定义低点阈值,同上

# 变化幅度超过阈值的点的索引

forbid_index = dif[(dif > high) | (dif < low)].index

i = 0

while i < len(forbid_index) - 1:

n = 1 # 发现连续多少个点变化幅度过大,大部分只有单个点

start = forbid_index[i] # 异常点的起始索引

while forbid_index[i+n] == start + timedelta(minutes=n):

n += 1

i += n - 1

end = forbid_index[i] # 异常点的结束索引

# 用前后值的中间值均匀填充

value = np.linspace(ts[start - timedelta(minutes=1)], ts[end + timedelta(minutes=1)], n)

ts[start: end] = value

i += 1

self.train = self._diff_smooth(self.train)

draw_ts(self.train)

平滑后的训练数据:

平滑后的训练序列.png

3.3 将训练数据进行周期性分解

采用statsmodels工具包:

from statsmodels.tsa.seasonal import seasonal_decompose

decomposition = seasonal_decompose(self.ts, freq=freq, two_sided=False)

# self.ts:时间序列,series类型;

# freq:周期,这里为1440分钟,即一天;

# two_sided:观察下图2、4行图,左边空了一段,如果设为True,则会出现左右两边都空出来的情况,False保证序列在最后的时间也有数据,方便预测。

self.trend = decomposition.trend

self.seasonal = decomposition.seasonal

self.residual = decomposition.resid

decomposition.plot()

plt.show()

分解图.png

第一行observed:原始数据;第二行trend:分解出来的趋势部分;第三行seasonal:周期部分;最后residual:残差部分。

我采用的是seasonal_decompose的加法模型进行的分解,即 observed = trend + seasonal + residual,另还有乘法模型。在建模的时候,只针对trend部分学习和预测,如何将trend的预测结果加工成合理的最终结果?当然是再做加法,后面会详细写。

4、模型

4.1 训练

对分解出来的趋势部分单独用arima模型做训练:

def trend_model(self, order):

self.trend.dropna(inplace=True)

train = self.trend[:len(self.trend)-self.test_size]

#arima的训练参数order =(p,d,q),具体意义查看官方文档,调参过程略。

self.trend_model = ARIMA(train, order).fit(disp=-1, method='css')

4.2 预测

预测出趋势数据后,加上周期数据即作为最终的预测结果,但更重要的是,我们要得到的不是具体的值,而是一个合理区间,当真实数据超过了这个区间,则触发报警,误差高低区间的设定来自刚刚分解出来的残差residual数据:

d = self.residual.describe()

delta = d['75%'] - d['25%']

self.low_error, self.high_error = (d['25%'] - 1 * delta, d['75%'] + 1 * delta)

预测并完成最后的加法处理,得到第七天的预测值即高低置信区间:

def predict_new(self):

'''

预测新数据

'''

#续接train,生成长度为n的时间索引,赋给预测序列

n = self.test_size

self.pred_time_index= pd.date_range(start=self.train.index[-1], periods=n+1, freq='1min')[1:]

self.trend_pred= self.trend_model.forecast(n)[0]

self.add_season()

def add_season(self):

'''

为预测出的趋势数据添加周期数据和残差数据

'''

self.train_season = self.seasonal[:self.train_size]

values = []

low_conf_values = []

high_conf_values = []

for i, t in enumerate(self.pred_time_index):

trend_part = self.trend_pred[i]

# 相同时间点的周期数据均值

season_part = self.train_season[

self.train_season.index.time == t.time()

].mean()

# 趋势 + 周期 + 误差界限

predict = trend_part + season_part

low_bound = trend_part + season_part + self.low_error

high_bound = trend_part + season_part + self.high_error

values.append(predict)

low_conf_values.append(low_bound)

high_conf_values.append(high_bound)

# 得到预测值,误差上界和下界

self.final_pred = pd.Series(values, index=self.pred_time_index, name='predict')

self.low_conf = pd.Series(low_conf_values, index=self.pred_time_index, name='low_conf')

self.high_conf = pd.Series(high_conf_values, index=self.pred_time_index, name='high_conf')

4.3 评估:

对第七天作出预测,评估的指标为均方根误差rmse,画图对比和真实值的差距:

md = ModelDecomp(file=filename, test_size=1440)

md.decomp(freq=1440)

md.trend_model(order=(1, 1, 3)) # arima模型的参数order

md.predict_new()

pred = md.final_pred

test = md.test

plt.subplot(211)

plt.plot(md.ts) # 平滑过的训练数据加未做处理的测试数据

plt.title(filename.split('.')[0])

plt.subplot(212)

pred.plot(color='blue', label='Predict') # 预测值

test.plot(color='red', label='Original') # 真实值

md.low_conf.plot(color='grey', label='low') # 低置信区间

md.high_conf.plot(color='grey', label='high') # 高置信区间

plt.legend(loc='best')

plt.title('RMSE: %.4f' % np.sqrt(sum((pred.values - test.values) ** 2) / test.size))

plt.tight_layout()

plt.show()

预测结果.png

可以看到,均方根误差462.8,相对于原始数据几千的量级,还是可以的。测试数据中的两个突变的点,也超过了置信区间,能准确报出来。

5、结语

前文提到不同的api形态差异巨大,本文只展示了一个,我在该项目中还接触了其他形态的序列,有的有明显的上升或下降趋势;有的开始比较平缓,后面开始增长... ... ,但是都属于典型的周期性时间序列,它的核心思想很简单:做好分解,做好预测结果的还原,和置信区间的设置,具体操作可根据具体业务逻辑做调整,祝大家建模愉快:-D。

python短期预测图_用Python预测「周期性时间序列」的正确姿势相关推荐

  1. python可以p图_用Python来P图!简直耍开PS几条街!

    写在前面 PS作为世界四大发明之一可以说被广大网友用到了极致,只有你想不到的没有我P不了的,任何正经的图片在都可以变成搞笑图片(比如下图)当然也可以用ps做一点正经的事情. 作为一个爱折腾的程序猿能用 ...

  2. Python识别表格图_使用Python究竟可以做什么?下面是Python的3个主要应用

    原文传送门: https://medium.com/free-code-camp/what-can-you-do-with-python-the-3-main-applications-518db9a ...

  3. 利用python画分形图_使用 Python 绘制 Mandelbrot 分形图

    以前收集的关于Mandelbrot分形图的Python脚本,Mandelbrot集合的图像因它洛可可式繁复卷曲华丽的风格而受到大众的欣赏和赞叹,与其他分形图案一起,是许多艺术家和设计师的灵感来源. 是 ...

  4. python画美图_用python做个街拍美图手册

    今天分享一篇在家就能养眼的技能,用python爬取街拍美女高清大图,然后批量插入word中,制作街拍美图手册,闲的时候就能拿出来养养眼.本文涉及知识主要包括Ajax动态加载网页爬取.requests保 ...

  5. python画河流图_《Python数据可视化之Matplotlib与Pyecharts》之主题河流图

    11.7.2  不同类型商品销售情况分析 为了分析该企业不同类型商品的销售额情况,绘制了不同商品销售额的主题河流图,Python代码如下: # -*- coding: utf-8 -*- # -*- ...

  6. python截长图_利用 Python + Selenium 实现对页面的指定元素截图(可截长图元素)

    对WebElement截图 WebDriver.Chrome自带的方法只能对当前窗口截屏,且不能指定特定元素.若是需要截取特定元素或是窗口超过了一屏,就只能另辟蹊径了. WebDriver.Phant ...

  7. python动态仪表图_《Python数据可视化之Matplotlib与Pyecharts》之仪表盘

    11.3.2  企业2019年销售业绩完成率 为了分析该企业在2019年的销售业绩完成情况,绘制了销售额的仪表盘,Python代码如下: # -*- coding: utf-8 -*- #声明Note ...

  8. python制作流动图_利用Python生成GIF动图

    一.PIL库 1.PIL库的概括: PIL(Python Image Library)是python的第三方图像处理库,但是由于其强大的功能与众多的使用人数,几乎已经被认为是python官方图像处理库 ...

  9. gdp python 变迁动图_用 Python 带你看各国 GDP 变迁

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 周萝卜源自:萝卜大杂烩 PS:如有需要Python学习资料的小伙伴可 ...

  10. gdp python 变迁动图_用 Python 带你看各国 GDP 变迁|python3教程|python入门|python教程...

    https://www.xin3721.com/eschool/pythonxin3721/ 前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联 ...

最新文章

  1. mysql innodb表分区
  2. linux查看出口IP
  3. Ajax实现--jQuery
  4. linux登录密码破解
  5. Python字典(dict )的几种遍历方式
  6. dom4j读取xml信息
  7. Teradata天睿公司推出适用各种部署环境的全球最强分析数据库
  8. Oracle .NET Core Beta驱动已出,自己动手写EF Core Oracle
  9. Hbase shell练习题
  10. 西南科技大学OJ题 带权无向图存储判定1064
  11. Qt图形视图框架:图形形状图形项
  12. android 热补丁工具,Hotfix补丁工具报错排查步骤
  13. c盘中的软件怎么转到D盘,将c盘软件转移到d盘
  14. VCL语法教程——1.变量及labels
  15. 执念斩长河专升本复习11月总结
  16. ORACLE 获取配置信息 USERENV函数
  17. 纯js实现选择色卡效果
  18. 机器学习:python实现LDA降维算法
  19. python基本数据类型1
  20. 【MySQL】MySQL的数据类型

热门文章

  1. iOS开发中的错误整理,再一次整理通过通知中心来处理键盘,一定记得最后关闭通知中心...
  2. Python使用TCPServer编写(多线程)Socket服务
  3. 戴尔:未来就绪的IT
  4. OpenStack单点部署及使用简单教程(附:部署好的VMware虚拟机)
  5. 话里话外:明白比智慧更重要
  6. 12.企业应用架构模式 --- 对象-关系结构模式
  7. 11.深入分布式缓存:从原理到实践 --- Aerospike原理及广告业务应用
  8. 5.中小型企业通用自动化运维架构 -- ELK
  9. 1.第一本 docker 书 --- 简介
  10. Struts2中的异常处理