今天和大家聊聊常见的场景:异常数据的识别,以及预警相关功能的产品化设计。

01

场景概述

我们在做数据分析的时候,有一个重要的环节,就是发现目前运行数据的异常,然后基于异常寻找原因、提出意见和建议。

如果是人工判断异常数据的话,往往通过恰当的可视化图形就能很好地发现,比如下面数据走势的异常:

或者下面的数据关系的异常,通过回归曲线很容易发现右下角的异常点。

但是对于机器而言,想要识别异常数据,就比较麻烦了。这就是咱们今天将重点展开讨论的内容:如何通过系统化的规则或者算法,识别异常数据。

由于数据的类型多种多样,我们针对不同数据类型分别展开。

02

时序异常数据识别

时间序列相关的异常判定,应该是我们最常见的异常识别情景。尤其是在数据产品中,我们关注的大部分内容都是和时间序列有关系。

大家可以仔细回想一下你平时看到的数据监控看板等等,无论形态如何,基本都涉及了时间维度。但凡涉及时间维度,那么异常的识别都是基于时间来识别的,且识别的是最新一段时间是否异常(用最新数据鉴定历史数据异常并没有任何业务意义)。

了解了上面的内容,下面我们聊聊都有哪些时序异常数据的识别方法。

(1)基于固定数值

这个比较好理解,就是直接按照固定的数值进行异常判定。逻辑简单、容易实现与理解。

比如上图中,我们设定固定数值是[3800-5600],在这个区间范围内的数据,我们认为是正常数据;低于或者高于该区间的数据,认为是异常数据。

固定数值判断异常的方法,核心在于如何取合理区间的上下限。如果有明确的业务红线,可以将业务红线设为上下限;如果没有业务限制,可以使用分位数进行取值,比如历史5%-95%分位认为是正常的。

对于一个发展比较稳定业务而言,设定固定的绝对数值是没啥问题的。但是对于一个快速发展期的业务,很明显,固定数值并不适用。

随着时间的变化,合理的区间也相应发生了变化。这种情况不适合用固定数值进行异常判定,而是需要相对值。

(2)基于相对数值

上面讲到了固定数值方法的缺点。因此,我们考虑相对数值的方法。提到相对值,主要就是同比和环比(关于同比和环比可参考历史文章)。

由于同比通常的定义指的是与去年同期比较,因此针对单天,我们往往是与上周进行对比。如此,上周的数值就是基准值,再增加一个波动区间范围即可。比如上周二的新增用户数200,波动范围设定[-10%,10%],那么本周二如果新增用户数在180-220则认为是正常的;超出该范围则判定异常。

该方法也有明显的缺点。如果上周二就是一个异常值(假设数值异常低),而本周二数据是恢复正常了。那么根据相对值得判定逻辑,很容易把本周二判定为「异常高」。这是点对点对比的缺点。

(3)基于统计分布

如何能避免单个异常点对后续判断的影响呢?这里就可以基于统计分布进行规则建立。

这里我们可以采取 均值±标准差×3 的方式。这里的均值可以采取当天之前一段时间的均值,比如90天、30天;标准差也选取相应时间段的标准差;倍数可以基于情况设置。

由于均值是一段时间内的均值,不是某一个具体点。因此通过这种方式,能消除异常数据对于后续的异常判定。

(4)基于时序模型

最后,还可以基于时间序列模型进行异常判定。

在统计模型中,有一类模型是专门针对时间序列进行建模的,用以预测未来一段时间的数据走势。我们可以建立相应的ARMA模型等,基于实际值和预测值的差异,判定是否异常。

关于时间序列模型,我们这里就不展开了,后续会专门针对时间序列统计模型详细分享相关基础知识。

03

预警功能产品化设计

最后,我们一起看看预警功能的产品设计,这里主要以神策为例,看看预警功能的设计思路。

(1)预警设置

神策将预警功能和事件分析进行了结合,在做事件分析相关功能时,可以直接添加「预警」,进行预警配置。

下面是点击「预警」后的配置界面:

配置基本信息中包括了规则名称、监控指标、维度等;预警设置中包括监控时间粒度、监控时间、预警方式、触发规则、通知方式等。

(2)预警触发规则

预警配置中,最核心的一步就是进行预警规则的设置了。神策支持了两种预警方式:智能预警和自定义预警。

这里的智能预警并未明示具体的逻辑,我猜主要就是基于统计分布和时序模型进行的所谓智能预警。而自定义预警主要包括了对比特定值(即固定值)以及历史某期(即相对值)进行预警规则设置。

当然,自定义预警的阈值是用户自行填写的,没有给出提示。

(3)预警通知

预警的通知配置,也是整个预警功能中必不可少的一部分。这里主要支持三种方式:系统通知、企业群通知、邮件通知。

关于时序预警相关的方法,以及产品化的介绍,就分享这些。这里强调一点,虽然数据看板的时序数据占了大多数,但是仍然有非时序的数据呈现。关于非时序的异常数据该如何鉴定异常呢?这个我们后面找时间再详细分享。

另外,后面有机会聊聊,BI系统如何在异常判断的基础上,进行智能化分析。

END -

对比Excel系列图书累积销量达15w册,让你轻松掌握数据分析技能,可以在全网搜索书名进行了解:

如何自动化识别异常数据?达到智能预警?相关推荐

  1. 神策数据正式推出智能预警分析,你的指标预警小管家上线啦!

    对数据异常不敏感,没有及时发现问题所在,导致企业经营损失: 分析师/运营/产品同学需要每日关注实时/离线数据,人工操作费时费力,效果不佳: 依赖业务人员经验设置预警规则,在特殊场景下难以精准定位,误报 ...

  2. SDN 云数据中心网络异常行为的智能处理实践

    火炉山蚁群 ┃ 一群自研转型的背锅侠 摘要:云数据中心的网络异常行为不仅对网络设备造成严重业务负荷,同时也显著影响云用户使用感知.云计算环境中的共享资源模式和云用户迥然不同的业务形态,使得云网络分析和 ...

  3. 【城市污水处理过程中典型异常工况智能识别】(基于迁移学习,拓扑结构卷积神经网络的污水异常工况识别)

    基于迁移学习拓扑结构卷积神经网络的污水异常工况识别 **摘 要:针对城市污水处理过程的异常工况识别问题,本文提出了基于图像纹理性分析的工况识别方法.首先总结了几种典型的异常工况的特点,并且分析了卷积神 ...

  4. python---POST/GET请求数据包,图片验证码自动化识别,pytesseract,模拟用户一次正常登录

    python-POST/GET请求数据包,图片验证码自动化识别,pytesseract 项目内容: 模拟用户正常登录Binzcms系统,对登录Binzcms系统进行自动化识别图片验证码,使用get与p ...

  5. 作业3(大作业):python数据分析与应用大作业,对用户用电量数据进行数据处理,包括数据转置、异常数据识别和处理、统计基本统计量(包括峰度、偏度)、按日/周(求和)差分、5%分位数等

    Python数据分析与应用大作业 使用学习过的知识(Numpy数值分析基础.Matplotlib数据可视化基础.Pandas统计分析基础),对data.csv用户用户用电量数据进行相关处理,其中数据中 ...

  6. 大数据垃圾短信自动化识别系统的研发与应用

    申报单位: 中移(苏州)软件技术有限公司 中国移动信息安全管理与运营中心 第一部分 项目背景及挑战 一.企业简介 中国移动通信集团公司信息安全管理与运行中心(以下简称"中移信安中心" ...

  7. python异常数据_python异常数据预警之3sigma

    3sigma原理一般在工程科学中比较常用,我们在故障预警中用过这个原理,数据是用传感器采集的数据,这些数据假定符合正态分布,然后在进行模型识别后用3sigma原则来对异常数据进行准确定位.在实际应用中 ...

  8. 数据中心智能安防新突破:腾讯觅踪亮相DCD

    6月25日,第十届DCD上海数据中心国际峰会在上海举办,腾讯数据中心研发总监岳上在现场首次披露了数据中心智能安防解决方案--腾讯觅踪.腾讯觅踪将传统数据中心被动的.事后追溯式的视频监控模式,提升为主动 ...

  9. 灵玖软件:NLPIR大数据语义智能为企业“画像”

    随着计算机技术.网络技术.通讯技术.Internet技术的迅速发展和电子商务.办公自动化.管理信息系统.Internet 的普及等,企业业务操作流程日益自动化,企业经营过程中产生了大量的数据,这些数据 ...

最新文章

  1. linux vi编辑 整理
  2. Android Rect 的使用以及与RectF的区别
  3. 四种软件架构演进史,会一种就很牛逼了!
  4. 真是没想到,Springboot + Flowable 开发工作流会这么简单!
  5. matplotlib显示中文钥匙
  6. 【翻译】在Sencha应用程序中使用插件和混入
  7. Linux内核探讨-- 第三章
  8. iOS 代理设计模式
  9. JS中popup.js
  10. asp.net mvc使用TagBuilder的应用程序集
  11. java创建方法并引用_java – 创建非捕获方法引用,它将调用超类方法
  12. linux java version 版本不对,linux JAVA_HOME和 java -version不匹配
  13. java作业 雏田的两个技能 类与对象
  14. 大屏监控系统实战(4)-如何将SpringBoot+Vue前后端分离项目一次打包为一个Jar包运行?
  15. C#中创建线程的四种方式
  16. Spring 下 MyBatis 的基本使用
  17. springboot优雅的加载海康sdk
  18. WinForGIFSicle 1.0.0.1 免费开源版,基于GIFSicle的开源可视化批量GIF压缩工具
  19. 汽车汽油电子喷射系统
  20. 网站服务器域名费用入什么科目,企业域名服务费记什么科目

热门文章

  1. mysql看表关联视图_MySQL数据库 : 自关联,视图,事物,索引
  2. 第 2 章 OpenStack 架构 - 017 - 部署 DevStack
  3. Java网络编程从入门到精通(21):HTTP消息的格式
  4. 1.0 添加WEB API项目并按注释生成文档(多项目结构)
  5. 正则表达式之零宽断言
  6. 云安全仍是企业决策者最大担心
  7. 领导,你可以做得更好
  8. centos09-nodejs与vue搭建
  9. 继承Comparable接口来实现排序
  10. [51nod] 1267 4个数和为0