简介：对于若干设备所使用时间（Utilization Time）分布进行汇总和统计分析，大体看到它分布接近于指数分布。根据网络上对比几种分布波形可以看到，对于满足指数分布的概率统计利用Gaussian去逼近，误差很大。对于上面分布结果如果进行解释，是否还有其它分解方式，有待后面进一步探讨。

关键词： 使用时间，指数分布，统计

#mermaid-svg-GsQaFlw9GStDxTHE {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .error-icon{fill:#552222;}#mermaid-svg-GsQaFlw9GStDxTHE .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-GsQaFlw9GStDxTHE .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-GsQaFlw9GStDxTHE .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-GsQaFlw9GStDxTHE .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-GsQaFlw9GStDxTHE .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-GsQaFlw9GStDxTHE .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-GsQaFlw9GStDxTHE .marker{fill:#333333;stroke:#333333;}#mermaid-svg-GsQaFlw9GStDxTHE .marker.cross{stroke:#333333;}#mermaid-svg-GsQaFlw9GStDxTHE svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-GsQaFlw9GStDxTHE .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .cluster-label text{fill:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .cluster-label span{color:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .label text,#mermaid-svg-GsQaFlw9GStDxTHE span{fill:#333;color:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .node rect,#mermaid-svg-GsQaFlw9GStDxTHE .node circle,#mermaid-svg-GsQaFlw9GStDxTHE .node ellipse,#mermaid-svg-GsQaFlw9GStDxTHE .node polygon,#mermaid-svg-GsQaFlw9GStDxTHE .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-GsQaFlw9GStDxTHE .node .label{text-align:center;}#mermaid-svg-GsQaFlw9GStDxTHE .node.clickable{cursor:pointer;}#mermaid-svg-GsQaFlw9GStDxTHE .arrowheadPath{fill:#333333;}#mermaid-svg-GsQaFlw9GStDxTHE .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-GsQaFlw9GStDxTHE .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-GsQaFlw9GStDxTHE .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-GsQaFlw9GStDxTHE .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-GsQaFlw9GStDxTHE .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-GsQaFlw9GStDxTHE .cluster text{fill:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .cluster span{color:#333;}#mermaid-svg-GsQaFlw9GStDxTHE div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-GsQaFlw9GStDxTHE :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}

建模数据

目录
Contents

背景介绍

原始数据说明

研究方案

数据建模

数据预处理

指数分布

总结

§01 建模数据

1.1 背景介绍

来自于同事（JYH）给出的设备使用数据，为了能够为将来对设备利用情况做评价，希望设备使用时间分布进行建模，获得设备利用时间理想分布，进而建立设备利用效率准确的评价标准。

由于数据存在一下问题：

数据量相对比较少。时间上只有五年数据；设备个数约有3000台；
没有标签。也就是建模和分类标准不明；
设备数值是由人工填写，所以本身具有很强的不确定性；

因此下面的分析仅仅初步探讨，判断是否该数据中可能存在的模式，确定是否可以进一步处理。

1.2 原始数据说明

1.2.1 数据载体

存储的原始数据为一个EXCEL表格。包含有 2017- 2021五年之间年的设备使用情况。 EXCEL每条记录包括有六个记录：填报院系、使用单位、仪器编号、分类号，仪器名称，有效机时。

▲ 图1.2.1 数据EXCEL表格

1.2.2 数据原有的预分析

原来数据中已经有了初步的统计信息。对于使用时间进行的直方图的统计。下面给出了五年所使用的数据的直方图分布。

▲ 图1.2.2 数据的统计信息

下面表格给出了直方图的数据。

【表1-2-2 机时分布表格信息】

机时分段	2017	2018	2019	2020	2021
>7884	24	22	40	40	57
>7008	4	9	14	27	25
>6132	7	8	9	14	32
>5256	6	11	15	16	29
>4380	20	23	34	29	44
>3504	46	60	100	65	118
>2628	134	170	122	154	296
>1752	208	255	281	304	521
>876	546	610	668	751	712
>0	641	695	763	994	828
=0	95	102	155	237	338

图中可以大体看到：

五年中的数据分布在中天梯上大体相似；
但是在细节部分，还是存在着差异。这种差异也许来自于数据内部所存在的固有噪声，也可能是设备所使用需求发生了变化。比如受到“新冠疫情”的影响。

1.3 研究方案

下面仅仅对于所有设备有效使用时间统计分布进行建模。首先建立使用机时建立它的直方图统计数据；然后利用高斯曲线分布来对该直方图进行逼近，看是否可以获得内部独立存在的若干高斯分布。

下面的分析出于以下假设：

忽略设备在五年中的使用差异，因此为了提高统计的数据量，因此把五年的数据合成一起，提高统计的数据量；
只使用高斯分布对数据进行逼近，其它的分布现在还没有确切的理由和模型来佐证。

§02 数据建模

2.1 数据预处理

2.1.1 EXCEL到TEXT文件

为了方便Python读取数据，先将所有的数据存储成CSV格式。可以参考在 快速检索并引用你在CSDN上所有的博文笔记 中对于CSV读取的Python过程。

由于CSV文件中，无法保存多个表格单，所以把五年的数据分别存储在 EUS2017.CSV 等数据文件中。后来测试，发现直接存储在**.TXT**文件更加的方便。下面是存储的TXT文件。

D:\Temp\EUS\UES2021.txt
D:\Temp\EUS\EUS2017.txt
D:\Temp\EUS\EUS2018.txt
D:\Temp\EUS\EUS2019.txt
D:\Temp\EUS\EUS2020.txt

2.1.2 数据合并

利用Python吧上面所有的数据中的时间提取出来，存储在 alltime.npz 数据包中。

（1）处理代码

from headm import *filedir = r'D:\Temp\EUS'
filedim = os.listdir(filedir)
printf(filedim)alltime = []for f in filedim:fname = os.path.join(filedir, f)printf(fname)with open(fname, 'r', encoding='gbk') as f:for id, l in enumerate(f.readlines()):l = l.strip('\n')times = l[-1]if times.isdigit():alltime.append(int(times))tspsave('alltime', alltime=alltime)
printf(len(alltime))
printf(mean(alltime), std(alltime))printf('\a')

（2）数据统计信息

每个文件对应的有效数据：

D:\Temp\EUS\EUS2017.txt；有效数据：1731
D:\Temp\EUS\EUS2018.txt；有效数据：1965
D:\Temp\EUS\EUS2019.txt；有效数据：2201
D:\Temp\EUS\EUS2020.txt；有效数据：2631
D:\Temp\EUS\UES2021.txt；有效数据：3003

数据合并后的统计：

数据量：11496
平均值：1489.23
STD：1574.31

2.1.3 数据直方图

下面分别给出了 BIN个数为100， 50， 25 的直方图统计。

▲ 图2.1.1 直方图：100 v

▲ 图2.1.2 直方图：50

▲ 图2.1.3 直方图：25

from headm import *alltime = tspload('alltime', 'alltime')plt.hist(alltime, 25)plt.xlabel("Time(Hour)")
plt.ylabel("Statistic")
plt.grid(True)
plt.tight_layout()
plt.show()

2.1.4 指数分布

根据前面的分布，可以看到设备使用机时与 Exponential distribution 接近。

（1）指数分布

指数分布的数理统计： E[X]=1λ,Var[X]=1λ2E\left[ X \right] = {1 \over \lambda },\,\,\,Var\left[ X \right] = {1 \over {\lambda ^2 }}E[X]=λ1,Var[X]=λ21

（2）指数分布逼近

使用 bins=50 的直方图估计指数分布参数。

fBIN(x)=a⋅e−b⋅xf_{BIN} \left( x \right) = a \cdot e^{ - b \cdot x}fBIN(x)=a⋅e−b⋅x

可以获得最小二乘逼近： fBIN(x)=1.541×e−0.000659xf_{BIN} \left( x \right) = 1.541 \times e^{ - 0.000659x}fBIN(x)=1.541×e−0.000659x

下图给出了上述逼近的曲线与实际直方图之间的拟合关系。

▲ 分布参数

根据上述参数，可以知道 λ=b=6.5867×10−4\lambda = b = 6.5867 \times 10^{ - 4}λ=b=6.5867×10−4 ，对应的平均值为： mean=1λ=1518mean = {1 \over \lambda } = 1518mean=λ1=1518 。这与前面计算对应的平均值接近。

from headm import *
from scipy.optimize        import curve_fitalltime = tspload('alltime', 'alltime')n,bins, patches = plt.hist(alltime, 50)
printf(n, bins, patches)def linefun(x, a, b):return a*exp(-b*x)param = (1000, 1/2000)
param, conv = curve_fit(linefun, bins[:len(n)], n, p0=param)
printf(param)fitn = linefun(bins[:len(n)], *param)
plt.plot(bins[:len(n)], fitn)plt.xlabel("Time(Hour)")
plt.ylabel("Statistic")
plt.grid(True)
plt.tight_layout()
plt.show()

2.2 指数分布

根据 Exponential and normal distributions 对于指数分布描述，它适合对 Poisson process 中事件时间间隔进行描述，也可以表述成事件到达时间的分布。

现在直接把设备的使用时间与符合Poison分布的随机事件时间间隔联系起来，我还没有特别想清楚。

下面是网络上对于给定的攻击数据，分别给利用 Cauchy , Log-noirmal Chi, Chi-Square对于分布的进行近似，可以看到使用指数分别进行逼近精度比较高。但使用 Normal-Gaussian， Log-Normal进行逼近，误差比较大。

▲ 图2.2.1 类似的几种随机分布

由此可以看出，指数分布利用高斯分布去逼近，都会带来很大的误差。

※ 总结 ※

对于若干设备所使用时间（Utilization Time）分布进行汇总和统计分析，大体看到它分布接近于指数分布。根据网络上对比几种分布波形可以看到，对于满足指数分布的概率统计利用Gaussian去逼近，误差很大。对于上面分布结果如果进行解释，是否还有其它分解方式，有待后面进一步探讨。

■ 相关文献链接:

快速检索并引用你在CSDN上所有的博文笔记
Exponential distribution
Exponential and normal distributions
Poisson process

● 相关图表链接:

图1.2.1 数据EXCEL表格
图1.2.2 数据的统计信息
表1-2-2 机时分布表格信息
图2.1.1 直方图：100
图2.1.2 直方图：50
图2.1.3 直方图：25
分布参数
图2.2.1 类似的几种随机分布

统计数据背后的指数分布模型相关推荐

大数据背后的神秘定理：贝叶斯公式
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达引子昨天下午趁着出去调研在湖滨银泰的星巴克做网易机器学习实习生岗 ...
趋势｜40个统计数据展示CPaaS的2021现状
洞察趋势引领行业通信平台即服务(CPaaS)软件允许用户向现有的软件平台添加通信功能,且不需要构建后端基础设施.这种程度的便利意味着企业可以打造专门为其独特需求量身定制的平台.CPaaS的敏捷性为 ...
2018年工业机器人销量排位_2020年工业机器人统计数据新鲜出炉
近日,国际机器人联合会(IFR)发布了2020年全球机器人统计数据.数据显示,2019年全年工业机器人安装量为37.3万台,比上年减少12%,但也是史上第三高.截止到2019年底全球工业机器人累计安装 ...
大数据没用？！张小龙：我们很少看统计数据！
导读:关于大数据的应用案例我们已经推送过很多,但大数据不是万能的,因为大数据只是研究数据之间的相关性,解决不了因果性.相比之下,身段更灵活的"小数据"反而更善于看穿因果性.因果性就 ...
15大统计数据描绘网络安全行业市场蓝图
本文讲的是15大统计数据描绘网络安全行业市场蓝图,在技术领域,网络安全目前是发展最快的一大产业. 为把握该市场脉搏,美国网络安全公司 Cybersecurity Ventures 列出了2017年网络 ...
Python 爬下的必胜客数据背后，藏着什么样的信息？
笔者从大学开始就接触 Python,起初是好奇为什么 Python 不需要浏览器就能抓取网站数据.深感奇妙之余,也想亲身体验这种抓取数据的乐趣,所以写了很多爬虫程序. 后随着知识面的拓展,开始了解到数 ...
如何让隐藏在大数据背后的价值发挥出来？
对于普通人来说,大数据离我们的生活很远,但它的威力已无所不在:信用卡公司追踪客户信息,能迅速发现资金异动,并向持卡人发出警示;能源公司利用气象数据分析,可以轻松选定安装风轮机的理想地点;瑞典首都斯德哥 ...
9.Pandas练习:美国个州的统计数据
Pandas练习:美国各州的统计数据前面讲解了那么多Pandas中的内容,下面将结合真实的数据集来进行Pandas数据分析练习, 我们这个练习只进行最简单的分析,目的是找出人口密度最高和最稀疏的州 ...
藏在表分区统计信息背后的小秘密
藏在表分区统计信息背后的小秘密藏在表分区统计信息背后的小秘密原创 2017-09-19 曾令军数据和云云和恩墨技术专家,8年数据库运维经验.思维敏捷,擅长于数据库开发.解决棘手的数据库故障和性 ...

统计数据背后的指数分布模型

§01 建模数据

1.1 背景介绍

1.2 原始数据说明

1.2.1 数据载体

1.2.2 数据原有的预分析

1.3 研究方案

§02 数据建模

2.1 数据预处理

2.1.1 EXCEL到TEXT文件

2.1.2 数据合并

（1）处理代码

（2）数据统计信息

2.1.3 数据直方图

2.1.4 指数分布

（1）指数分布

（2）指数分布逼近

2.2 指数分布

※ 总结 ※

统计数据背后的指数分布模型相关推荐

最新文章

热门文章

统计数据背后的指数分布模型

§01 建模数据

1.1 背景介绍

1.2 原始数据说明

1.2.1 数据载体

1.2.2 数据原有的预分析

1.3 研究方案

§02 数据建模

2.1 数据预处理

2.1.1 EXCEL到TEXT文件

2.1.2 数据合并

（1）处理代码

（2）数据统计信息

2.1.3 数据直方图

2.1.4 指数分布

（1）指数分布

（2）指数分布逼近

2.2 指数分布

※ 总 结 ※

统计数据背后的指数分布模型相关推荐

最新文章

热门文章

※ 总结 ※