数据特征分析:帕累托分析(贡献度分析)
帕累托分析(贡献度分析) → 帕累托法则:20/80定律
“原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:
多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。”
→ 一个公司,80%利润来自于20%的畅销产品,而其他80%的产品只产生了20%的利润
例如:
- 世界上大约80%的资源是由世界上15%的人口所耗尽的
- 世界财富的80%为25%的人所拥有;在一个国家的医疗体系中
- 20%的人口与20%的疾病,会消耗80%的医疗资源。
一个思路:通过二八原则,去寻找关键的那20%决定性因素!
帕累托分析的简易步骤:
- 将数据由大到小进行排列(
data.sort_values(ascending = False,inplace = True)
) - 创建营收柱状图(
data.plot.bar(color = 'g',alpha = 0.8,width = 0.6,rot = 0)
) - 计算累计占比(
p = data.cumsum()/data.sum()
) - 绘制累计占比曲线(
p.plot(kind = 'line',style = '--o',color = 'k',secondary_y = True)
)
详细代码如下:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号data = pd.Series(np.random.randn(10)*1200+3000,index = list('ABCDEFGHIJ'))
print(data)
print('------')
# 创建数据,10个品类产品的销售额data.sort_values(ascending = False,inplace = True)#由大到小排列#创建营收柱状图
plt.figure(figsize = (12,4))
data.plot.bar(color = 'g',alpha = 0.8,width = 0.6,rot = 0)#计算累计占比
p = data.cumsum()/data.sum()
key = p[p>0.8].index[0]
key_num = data.index.tolist().index(key)
print('超过80%累计占比的索引为:{}'.format(key[0]))
print('超过累计占比80%节点值的索引为:{}'.format(key_num))#画累计占比曲线(secondary_y = True创建第二坐标轴)
p.plot(kind = 'line',style = '--o',color = 'k',secondary_y = True)#标注
plt.axvline(key_num,linestyle = '--',color = 'r')
plt.text(key_num,p[key_num],'累计占比:{:.2f}%'.format(p[key_num]*100),color = 'r',fontdict = {'size':15})
A 4784.614505
B 971.902675
C 4888.178691
D 977.625752
E 4644.918372
F 4703.874582
G 419.768823
H 1400.605659
I 2624.307500
J 2014.661885
dtype: float64
------
超过80%累计占比的索引为:J
超过累计占比80%节点值的索引为:5
数据特征分析:帕累托分析(贡献度分析)相关推荐
- 10.Excel数据特征分析-帕累托分析法
文章目录 1.什么是帕累托分析 2.帕累托分析法案例 3.数据透视表与帕累托分析结合具体步骤 3.1数据透视表建立 3.2 帕累托图的建立 3.3 调整帕累托图 3.3.1调整坐标轴 3.3.2 调整 ...
- 数据特征分析-帕累托分析
帕累托分析(贡献度分析):即二八定律 目的:通过二八原则寻找属于20%的关键决定性因素. 随机生成数据 df = pd.DataFrame(np.random.randn(10)*1000+3000, ...
- HANA+帆软:“帕累托“累计占比图的实现
最近项目开始做BW + 帆软的决策报表了,遇到个有意思的图记录一下. 如下图,横坐标为客户,隐私关系我没放出来横坐标客户名称,(这里为排名前五的客户),按照排名排序,柱形图为销售金额,折线图为客户的累 ...
- Tableau图表 • 帕累托图
帕累托图,又称排列图.主次图,在反映质量问题.展现质量改进项目等领域有广泛应用,目前,也被应用到了社会生活的很多领域.在日常业务中,可以通过帕累托图分析销售额的多少百分比来自多少比例的客户,或者来自哪 ...
- MATLAB数据处理(2)——广义帕累托分布和极值外推
MATLAB数据处理(2)--广义帕累托分布和极值外推 广义帕累托分布 使用matlab进行广义帕累托分布参数估计 图像检查拟合效果 极值外推 还有一些问题 极值外推有时候会有问题 阈值选取的艺术 广 ...
- 用Python pyecharts v1.x 绘制图形(一):柱状图、柱状堆叠图、条形图、直方图、帕累托图、饼图、圆环图、玫瑰图
文章目录 关于pyecharts 柱状图 堆叠柱状图 条形图 直方图 帕累托图(复合图) 饼图 圆环图 玫瑰图 下一节 关于pyecharts pyecharts是一个用于生成echart(百度开源的 ...
- Tableau帕累托图
帕累托图,又称排列图.主次图,在反映质量问题.展现质量改进项目等领域有广泛应用,目前,也被应用到了社会生活的很多领域.在日常业务中,可以通过帕累托图分析销售额的多少百分比来自多少比例的客户,或者来自哪 ...
- Excel图表3——帕累托图
Excel图表3--帕累托图 实例 原数据 一.增加累计百分比(为作图方便,将累计百分比移动至件数后一列) 插入簇状柱形图 1.更改累计百分比系列在次坐标,并更改系列图表类型为折线图 2.更改主次坐标 ...
- python matplotlib绘制柏拉图pareto_强大的帕累托分布——其可视化实现方法
1.帕累托分布 帕累托分布是一种幂律概率分布,以意大利土木工程师.经济学家和社会学家维尔弗雷多·帕累托的名字命名,用来描述社会.科学.地球物理.精算和其他各种可观察到的现象.帕累托分配有时也被称为帕累 ...
- echarts + vue2 实现帕累托图
找了很多都不满意 根据网上deme 自己写了一个 ,传入的数据要自己通过计算得到真实的渲染数据,依次对应渲染即可,这里的数据经过处理, tooltip也做了,未截图 计算 接口得到的数据如上,要经过排 ...
最新文章
- mac 安装item2 lrzsz
- Can't connect to HTTPS URL because the SSL module is not available
- Visual Studio 2008 快捷键大全
- 【算法竞赛学习】气象海洋预测-Task4 模型建立之 TCNN+RNN
- Java中发邮件的6种方法
- 动态规划--Leetcode121.买卖股票的最佳时机
- linux中touch命令的作用,Linux中touch命令的作用是什么
- R之Excel文件读取与程序包的安装调用
- Failed to load VMMR0.r0 (VERR_SUPLIB_OWNER_NOT_ROOT)
- PYTHON INSTALL
- 【NLP 自然语言处理】自然语言处理技术难点和挑战
- 有哪些计算机软件可以录制声音,有什么录制电脑系统声音的软件
- Linux文字识别软件,Ubuntu 14.04下PDF 文字识别工具gscan2pdf
- 【转载】GitHub中国区前100名到底是什么样的人
- 计算机硬盘会计分录,电脑加装固态硬盘如何做分录
- 实例解剖一个牛 B 的融资 PPT
- PyQt5 基本教程
- 多想别人学习。增强编程能力。
- Android project依赖project配置说明
- 【蓝桥杯】【啊哈!算法】冒泡排序
热门文章
- OVM虚拟化,做Openstack的减法
- worksheet怎么读_worksheet是什么意思_worksheet怎么读_worksheet翻译_用法_发音_词组_同反义词_工作表_学习单-新东方在线英语词典...
- 计算机音乐谱大全告白气球,周杰伦《告白气球》钢琴曲谱
- 计算机电缆检测报告,计算机用屏蔽双绞线DJYPVP-2*2*1.0mm²
- WIN10系统的ghost备份还原的详细步骤
- Early stopping conditioned on metric `val_loss` which is not available
- 电脑网络经常断线是怎么回事?从这几个问题去下手
- MATLAB学习笔记 plotyy双y轴
- linux解压apk文件,关于ipa和apk文件的解压
- KEIL MDK平台 S3C2440 C语言软件仿真