产品健康度模型之指标关联性分析

  我们这里做关联性分析的目的就是找出运维指标和运营指标的相关程度。这里重新贴一下指标的结构图:
  
  

指标离散化

  这里需要说明的是,这些指标可能是连续的,也有可能是离散的,比如我们有运维指标 a,b,c {a,b,c},以及运营指标 d,e {d,e},这些指标都有可能是离散的或者连续的,并且我们的目标是将运维和运营指标两两计算关联性。这里我们就需要计算 {a,d},{a,e},{b,d},{b,e},{c,d},{c,e} \{a,d\},\{a,e\},\{b,d\},\{b,e\},\{c,d\},\{c,e\}之间得关联性。
  当然,我们完全可以分情况讨论,对于离散VS离散、离散VS连续、连续VS连续指标分别采用不同的关联性分析的方法,但是分别采用不同的方法,那么关联性数值之间的又不具备可比性,在后面我们发现,我们需要这些关联性都是同质的特征。
  对于离散VS离散、离散VS连续、连续VS连续指标这三种情况,我们的处理就是将连续的指标离散化,这样就将问题转换成了衡量两个离散指标的概率依赖的问题。
  但是指标怎样进行离散化呢,对于连续指标 a a,aa的最大值为 vmax v_{max},最小值为{v_{min}},我们找出间于最大值和最小值之间的 n n个值{v1,v2,...,vn}\{v_1,v_2,...,v_n\},这样就形成了 n+1 n+1个区间,我们这里的约束是每个区间的样本数是一样的。下面我们画出 a a的概率分布图,以及n=4n=4的分段情况:
  
  这里我们保证每个区间的样本量相等的原因在于,很多连续值的指标分布很不均匀,或者存在很多异常值,而大部分样本分布在相对来说小的多的值区间内,用这种方法,我们可以保证每个离散值都代表等量的样本数。

基于”互信息”的关联性分析

  其实前面已经讲过了皮尔森相关系数,这是一种衡量线性相关性的方法,但是我们这里存在离散特征,所以我们最终决定用概率依赖的方式来计算指标相关性。
  这样做的原因就是,在”样本数量很大“的情况下,任何相关性都会表现出概率依赖的特点,反过来讲,如果两个变量不存在概率依赖,那么这两个变量之间就是独立的,从而不会有任何相关关系(逆反命题)。
  我们知道互信息的计算公式为:
   I(x,y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y) I(x,y)=\sum_{x{\in}X}\sum_{y{\in}Y}p(x,y)\log{\frac{p(x,y)}{p(x)p(y)}}
  并且有 I(x,y)=H(x)−H(x|y)=H(y)−H(y|x)=H(x)+H(y)−H(x,y) I(x,y)=H(x)-H(x|y)=H(y)-H(y|x)=H(x)+H(y)-H(x,y)
  这里涉及到熵,联和熵、条件熵的概念,先关概念大家可以去维基百科一下。
  互信息经常在特征选择中用到,比如对于结果指标 R R,将一众指标计算和他的互信息,值越大说明非独立的成分越大(H(R)−H(R|?)H(R)-H(R|?)越大),所以选择出值更大的特征。同样的,我们对于每个运营指标 R R,做这样的特征筛选,不过为了保证统一性,我们设置筛选的阈值TT,只要 I(R,?)H(R)>T \frac{I(R,?)}{H(R)}>T,我们就认为 ? <script type="math/tex" id="MathJax-Element-2578">?</script>这个运维特征可用。
  接下来,我们需要记住根据每个运营指标所选出来的运维指标名单和相关程度{运营指标->{{运维指标a,0,6},{运维指标c,0,4},…}}。
  也就是说每个运维指标可能在不只一个运营指标的名单中,以不同的权值出现,这个要留待后面用。
  
  

产品健康度模型(3) 指标关联性分析相关推荐

  1. 产品健康度模型(4) 打分I

    产品健康度模型之打分I 在这个项目上,大家可能会发现,很多做法比较主观,但是原因我认为"健康度"本身就是一个主观概念,哪里去找真正的"产品健康度"呢?这和离网用 ...

  2. 产品健康度模型(1) 任务介绍

    产品健康度模型之任务介绍 随着OTT(Over The Top)业务的繁荣,电信运营商基本上成了局外人,折让他们很是捉急,所以正如我们所见的,运营商们也在不断推出自己的OTT业务(动感地带购物商城.天 ...

  3. 产品健康度模型(2) KPI、KQI

    产品健康度模型之KPI.KQI 这一节我们介绍运营商面对这些指标通常的做法,我们健康度模型的可行性,以及我们预备怎么做. 原来他们怎么做? 原来运营商怎么解决这个问题呢?说白了两个字--人工. 对于一 ...

  4. 产品健康度模型(5) 打分II

    产品健康度模型之打分II 上一节我们介绍了怎样凭借单独指标进行打分,这一节我们进一步介绍怎样根据用户的在线操作得到最后的打分. 目前计算的结果 到目前为止,我们已经计算了,对于每个运营指标,各个运维指 ...

  5. 运维系统常用健康度模型浅析

    0. 监控系统目的:为了避免业务系统不可用导致关键业务的运营受到影响,减少业务系统停机时间,提升业务系统可用性,最终提高用户的满意度. 为此,运维人员需要做到: 1. 通过对可能影响业务系统可用性的因 ...

  6. 了解设备健康报表的关键指标与分析方法

    在现代工业领域中,设备健康报表是一项关键工具,通过收集和分析设备的运行数据,它提供了关于设备状态和性能的重要指标.设备健康报表对于企业的设备管理和维护决策至关重要.本文将介绍设备健康报表的关键指标,并 ...

  7. amos看拟合度在哪里看_AMOS分析技术:模型整体拟合度指标

    基础准备 上篇文章,草堂君介绍了如何检验结构方程模型的拟合效果,包括整体模型拟合度指标.测量模型质量指标和结构模型质量指标,其中分析测量模型和结构模型质量的方法是我们前面介绍过的因子分析和路径分析,大 ...

  8. 超市产品关联性分析——天池竞赛

    天池大赛产品关联性分析数据集:https://pan.baidu.com/s/1CFxIDu8enrCbj50JQlHiMg  提取码:1234 #首先进行数据预处理 import pandas as ...

  9. SaaS公司健康度指标: Rule of 40

    张三跳槽想进入SaaS行业,王五想投资SaaS股票,但哪家公司更有潜力? 你也想知道! 我们展开聊聊. 1.VC用40法则投资SaaS 在2020年中国数字化的基础建设为SaaS企业带来了更多发展机遇 ...

最新文章

  1. java override overwrite,重写(overwrite)、重载(overload)和覆盖(override)
  2. ASP.NET之父谈ASP.NET AJAX
  3. Solaris 性能基础
  4. #中delay函数_ECBM系列教程3:闪烁灯——delay函数的用法。
  5. 【大数据】学习大数据前需要掌握的知识
  6. 与数据相关的运算符和伪指令
  7. c++11中using的使用
  8. 前端VUE完成截取当前页面转PDF,支持分页
  9. matlab图像画轮毂,轮毂设计及三维造型(全套图纸三维).doc
  10. 现如今安卓手机的系统优化哪家好呢?
  11. 爱死磕金融黄金点评:小周期走势不明,操作需谨慎
  12. debian7系统设置固定IP
  13. SQL优化很难怎么办?给你一个简单暴力的办法
  14. 中断 git merge 操做
  15. CSND Python技能树模块使用|Python 技能树测评
  16. Javascript学习笔记(犀牛书1、2章)
  17. 关于WIN10开机无法输入密码的问题
  18. Spring Cloud之Ribbon
  19. 【bioinfo】二代测序在肿瘤突变检测中的错误来源和解决策略
  20. Latex04-篇章结构

热门文章

  1. win10 store 打不开
  2. [升级版][Java作业]创建PC对象展示cpu速度和硬盘容量
  3. 有发现pcb板上的红胶吗?pcb上红胶作用是什么
  4. 区块链开发笔记——提高区块链系统性能和可扩展性的方法,侧链技术
  5. MSP430 Energia DHT11的使用
  6. Calendar 取上一年,上个月日期
  7. 数据结构与算法-单向链表的修改和删除操作
  8. 武陟一中2021高考成绩查询,2021年焦作中考录取分数线公布时间,焦作各高中录取分数线预测...
  9. 留学生cs辅导 csp-j/s 数据结构与算法
  10. mysql函数包含的意思_MySQL存储函数的特性说明中,______表示函数体不包含SQL语句。-智慧树MySQL数据库设计与应用章节答案...