在我们对PCU和DAU进行分析时,经常采用的方法是做一条曲线比较一下前后两个时期的数据走势,发现问题,进行分析,但是实际过程中,这样的做法远远不能挖掘这两个数据指标更多的内涵和知识。针对本文已经在论坛(http://www.dmacn.com/viewthread.php?tid=11&extra=)开设讨论区,欢迎各位讨论和提出建议。

今天说说如何运用箱线图进行这两个指标的分析,在此作为一个例子与大家分享,设计的文献和参考资料会给各位列出来,以便于各位查阅。

什么是箱线图?

维基百科给出的定义

(http://zh.wikipedia.org/wiki/%E7%AE%B1%E5%BD%A2%E5%9C%96):

箱形图(英文:Box-plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、下四分位数及上四分位数。

箱线图什么样?

箱线图的常用统计量

百度百科(http://baike.baidu.com/view/1326550.htm)

绘制须使用常用的统计量,最适宜提供有关数据的位置和分散的参考,尤其在不同的母体数据时更可表现其差异。

常用的统计量 :

平均数

中位数

百分位数

四分位数

全距

四分位距

变异数和标准差

从箱线图上我们会看到什么信息?

如下图所示为一个示意箱线图(维基百科),从这个图上我们可以读出一下的信息:

这组数据显示出:

最小值(min)=0.5。

下四分位数(Q1)=7。

中位数(Med)=8.5。(一段数据从小到大排序后,处于中间位置的数)

上四分位数(Q3)=9。

最大值(max)=10。

平均值=8。

四分位间距(interquartile range)=Q3 − Q1=2 (即ΔQ)

在区间 Q3+2ΔQ, Q1-2ΔQ 之外的值被视为应忽略(farout)。

注:四分位数就是将数据从小到大排序后,处于25%与75%位置的数为下上四分位数。

farout: 在图上不予显示,仅标注一个符号∇。

最大值区间: Q3+1.5ΔQ

最小值区间: Q1-1.5ΔQ

上下四分位数的波动范围:上下四分位数+1.5四分位差

最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.

outlier = 3.5

为什么我们要用箱线图来分析PCU和DAU?

箱线图分析是一种很常用的分析方法,但是由于作图比较麻烦,如果不借助SPSS等专业统计分析软件作图,会不太方便,箱线图用于监控数据的波动。

在游戏的运营过程中,产生的数据必然存在异常值的情况,但是这些异常值在通过曲线形式的展现后由于会受到坐标比例的迷惑,使一些原本存在异常情况的数据掩盖了,有些问题进而不能发现,如下图所示:

两条曲线表现的是同一组数据,但是曲线的状态因为比例标尺的调整导致曲线的升幅发生了变化,这样一来,就容易迷惑DMA,很多时候异常值被忽略了,因此在做曲线的同时,如果精力允许可以做做箱线图比较一下,因为箱线图非常容易的识别数据中的异常值。异常值如果持续的被我们忽略,会对于我们的分析工作带来干扰因素,同时我们还要寻找异常值出现的原因,是开服,合服,服务器事故还是其他问题。有力的把握异常值分析是发现问题进而改进的绝佳时机。刚才提到了箱线图提供一个识别异常值的标准(MBALIB给予了分析):“异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。虽然这种标准有点任意性,但它来源于经验判断,经验表明它在处理需要特别注意的数据方面表现不错。这与识别异常值的经典方法有些不同。众所周知,基于正态分布的3σ法则或z分数方法是以假定数据服从正态分布为前提的,但实际数据往往并不严格服从正态分布。它们判断异常值的标准是以计算数据批的均值和标准差为基础的,而均值和标准差的耐抗性极小,异常值本身会对它们产生较大影响,这样产生的异常值个数不会多于总数0.7%。显然,应用这种方法于非正态分布数据中判断异常值,其有效性是有限的。箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;另一方面,箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。”

(http://wiki.mbalib.com/wiki/%E7%AE%B1%E7%BA%BF%E5%9B%BE)

那么这里大家可能有一个疑问,为什么距离是1.5倍?其实正如刚才所说的,这是一种经过大量分析和经验积累起来的标准,有一定的参考意义。“统计学中离群点为超出平均数±N个标准差的范围的数值。这个数值并非随意而定,其中运用的是统计学知识。

当一组数据为对称分布时,

约有68%的数据在平均数±1个标准差的范围之内

约有95%的数据在平均数±2个标准差的范围之内

约有99%的数据在平均数±3个标准差的范围之内

当一组数据未不对称分布时,

至少有75%的数据落在平均数±2个标准差范围之内

至少有89%的数据落在平均数±3个标准差范围之内

至少有94%的数据落在平均数±4个标准差范围之内

根据以上情况可以看出,如果某数值为离群点,那么该数值确实存在异常之处。“

(运营数据监控 BY小武  http://www.docin.com/p-239532559.html)

时间所限,今天先把第一部分整理分享给各位。之后把第二部分分析过程上传。

游戏运营技术之----运用箱线图分析PCU和DAU(一)相关推荐

  1. python中用箱线图分析异常值_[宜配屋]听图阁

    前言 异常值是指样本中的个别值,也称为离群点,其数值明显偏离其余的观测值.常用检测方法3σ原则和箱型图.其中,3σ原则只适用服从正态分布的数据.在3σ原则下,异常值被定义为观察值和平均值的偏差超过3倍 ...

  2. R语言之离群点检验(part1)--利用箱线图原理检测离群点

    学习笔记 参考书目:<R语言与数据挖掘>.<统计学> 利用箱线图原理检测离群点 箱线图 箱线图是由数据的最大值.最小值.中位数.两个四分位数这五个特征值绘制而成的,它主要用于反 ...

  3. 可视化之为什么要使用箱线图?

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.高颜值在线绘图和分析.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流 ...

  4. K线图|K线图分析法简介 |K线图怎么看

    K线图分析法简介 K线图这种图表源处于日本,被当时日本米市的商人用来记录米市的行情与价格波动,后因其细腻独到的标画方式而被引入到股市及期货市场.目前,这种图表分析法在我国以至整个东南亚地区均尤为流行. ...

  5. 股票k线黄昏之星怎么看?黄昏之星k线图分析

    市场上很多人对于K线黄线之星图的概念都是模糊的,对于股票k线黄昏之星怎么看?黄昏之星k线图如何分析,了解的也并不全面. 小孙我自己很久之前就对金融市场交易很感兴趣,从三年前开始,就不断地在理论实践两方 ...

  6. 【数据分析数据挖掘】异常值的判断与去除——3σ 箱线图分析

    [数据分析&数据挖掘]异常值的判断与去除--3σ & 箱线图分析 参考文章: (1)[数据分析&数据挖掘]异常值的判断与去除--3σ & 箱线图分析 (2)https: ...

  7. 【Python那些事儿】使用箱线图

    在概要统计里,箱线图是一种好用的查看统计信息的工具. 高效表达数据的千分位数.异常值点.总体结构: 标出水平中位线.指明数据的位置: 箱体扩展到四分位范围,用来衡量数据的分布: 一系列的虚线从中间的箱 ...

  8. 在游戏运营行业,Serverless 如何解决数据采集分析痛点?

    作者 | 计缘 来源|阿里巴巴云原生公众号 众所周知,游戏行业在当今的互联网行业中算是一棵常青树.在疫情之前的 2019 年,中国游戏市场营收规模约 2884.8 亿元,同比增长 17.1%.2020 ...

  9. 现货黄金k线图分析方法有多少

    在分析现货黄金k线图的时候,形态法.切线法和波浪理论都是常用而有效的分析方法,如果投资者之前没有接触过,就应该学习一下,如果能够做到融会贯通,对行情的理解和交易的成功率必然有很大的帮助. 形态法是根据 ...

最新文章

  1. java实现redis缓存_java实现redis缓存功能
  2. ESXi 6.5 进入维护模式死机在68%的进度的bug
  3. 【福利派送】浪漫七夕,不可辜负!这 8 份礼物请收下!
  4. at24c16如何划分出多个读写区_读写AT24C02,并用1602显示
  5. P1494 [国家集训队]小Z的袜子
  6. SpringBoot整合kafka(实现producer和consumer)
  7. 一文重新认识联邦学习
  8. 理解 Linux/Unix 登录脚本
  9. 一个小型的中文文本分类系统(项目链接文末)——《ML算法原理和实践》学习笔记
  10. 局域网邮件服务器搭建地址薄更新,搭建局域网邮件服务器
  11. 微型计算机如何开声音,教你设置笔记本电脑上的杜比音效系统
  12. Java实现小说分割器
  13. ESP分区和MSR分区下怎么重做GHOST系统
  14. ym——Android从零开始(3)(常用控件+下拉框视图)(新)
  15. 相机镜头光学中的一些疑难问题的解释
  16. 印章、拿金币、数字游戏
  17. 场曲 zemax示例(概念、校正)
  18. 如何构建用户画像来实现精准营销?
  19. 写出高斯定理的数学形式并文字解释
  20. 性能优化的指标和工具

热门文章

  1. Linux之命令改ip
  2. c++并发编程:迅雷笔试题
  3. 01路径规划问题的相关理论
  4. 数据结构实验报告,二叉树的基本操作(C语言)
  5. MPP大规模并行处理架构详解(满满干货,需细嚼慢咽)
  6. 绿色版浏览器DIY,大家别乱用网上的非官方绿色版,自己动手吧,很简单!(2015-11-26更新)
  7. 软件设计之——“高内聚低耦合”
  8. fseek函数的用法(用于设定指针位置)
  9. win10修改账户名称
  10. mapper parameterType