简 介: 对于若干设备所使用时间(Utilization Time)分布进行汇总和统计分析,大体看到它分布接近于指数分布。 根据网络上对比几种分布波形可以看到,对于满足指数分布的概率统计利用Gaussian去逼近,误差很大。对于上面分布结果如果进行解释,是否还有其它分解方式,有待后面进一步探讨。

关键词使用时间指数分布统计

#mermaid-svg-GsQaFlw9GStDxTHE {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .error-icon{fill:#552222;}#mermaid-svg-GsQaFlw9GStDxTHE .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-GsQaFlw9GStDxTHE .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-GsQaFlw9GStDxTHE .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-GsQaFlw9GStDxTHE .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-GsQaFlw9GStDxTHE .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-GsQaFlw9GStDxTHE .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-GsQaFlw9GStDxTHE .marker{fill:#333333;stroke:#333333;}#mermaid-svg-GsQaFlw9GStDxTHE .marker.cross{stroke:#333333;}#mermaid-svg-GsQaFlw9GStDxTHE svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-GsQaFlw9GStDxTHE .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .cluster-label text{fill:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .cluster-label span{color:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .label text,#mermaid-svg-GsQaFlw9GStDxTHE span{fill:#333;color:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .node rect,#mermaid-svg-GsQaFlw9GStDxTHE .node circle,#mermaid-svg-GsQaFlw9GStDxTHE .node ellipse,#mermaid-svg-GsQaFlw9GStDxTHE .node polygon,#mermaid-svg-GsQaFlw9GStDxTHE .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-GsQaFlw9GStDxTHE .node .label{text-align:center;}#mermaid-svg-GsQaFlw9GStDxTHE .node.clickable{cursor:pointer;}#mermaid-svg-GsQaFlw9GStDxTHE .arrowheadPath{fill:#333333;}#mermaid-svg-GsQaFlw9GStDxTHE .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-GsQaFlw9GStDxTHE .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-GsQaFlw9GStDxTHE .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-GsQaFlw9GStDxTHE .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-GsQaFlw9GStDxTHE .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-GsQaFlw9GStDxTHE .cluster text{fill:#333;}#mermaid-svg-GsQaFlw9GStDxTHE .cluster span{color:#333;}#mermaid-svg-GsQaFlw9GStDxTHE div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-GsQaFlw9GStDxTHE :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}

建模数据
目 录
Contents
背景介绍
原始数据说明
研究方案
数据建模
数据预处理
指数分布
总 结

§01 建模数据


1.1 背景介绍

  来自于同事(JYH)给出的设备使用数据,为了能够为将来对设备利用情况做评价,希望设备使用时间分布进行建模,获得设备利用时间理想分布,进而建立设备利用效率准确的评价标准。

  由于数据存在一下问题:

  • 数据量相对比较少。时间上只有五年数据;设备个数约有3000台;
  • 没有标签。也就是建模和分类标准不明;
  • 设备数值是由人工填写,所以本身具有很强的不确定性;

  因此下面的分析仅仅初步探讨,判断是否该数据中可能存在的模式,确定是否可以进一步处理。

1.2 原始数据说明

1.2.1 数据载体

  存储的原始数据为一个EXCEL表格。包含有 2017- 2021五年之间年的设备使用情况。 EXCEL每条记录包括有六个记录:填报院系、使用单位、仪器编号、分类号,仪器名称,有效机时。

▲ 图1.2.1 数据EXCEL表格

1.2.2 数据原有的预分析

  原来数据中已经有了初步的统计信息。对于使用时间进行的直方图的统计。下面给出了五年所使用的数据的直方图分布。

▲ 图1.2.2 数据的统计信息

  下面表格给出了直方图的数据。

【表1-2-2 机时分布表格信息】
机时分段 2017 2018 2019 2020 2021
>7884 24 22 40 40 57
>7008 4 9 14 27 25
>6132 7 8 9 14 32
>5256 6 11 15 16 29
>4380 20 23 34 29 44
>3504 46 60 100 65 118
>2628 134 170 122 154 296
>1752 208 255 281 304 521
>876 546 610 668 751 712
>0 641 695 763 994 828
=0 95 102 155 237 338

  图中可以大体看到:

  • 五年中的数据分布在中天梯上大体相似;
  • 但是在细节部分,还是存在着差异。这种差异也许来自于数据内部所存在的固有噪声,也可能是设备所使用需求发生了变化。比如受到“新冠疫情”的影响。

1.3 研究方案

  下面仅仅对于所有设备有效使用时间统计分布进行建模。首先建立使用机时建立它的直方图统计数据;然后利用高斯曲线分布来对该直方图进行逼近,看是否可以获得内部独立存在的若干高斯分布。

  下面的分析出于以下假设:

  • 忽略设备在五年中的使用差异,因此为了提高统计的数据量,因此把五年的数据合成一起,提高统计的数据量;
  • 只使用高斯分布对数据进行逼近,其它的分布现在还没有确切的理由和模型来佐证。

§02 数据建模


2.1 数据预处理

2.1.1 EXCEL到TEXT文件

  为了方便Python读取数据,先将所有的数据存储成CSV格式。可以参考在 快速检索并引用你在CSDN上所有的博文笔记 中对于CSV读取的Python过程。

  由于CSV文件中,无法保存多个表格单,所以把五年的数据分别存储在 EUS2017.CSV 等数据文件中。后来测试,发现直接存储在**.TXT**文件更加的方便。下面是存储的TXT文件。

D:\Temp\EUS\UES2021.txt
D:\Temp\EUS\EUS2017.txt
D:\Temp\EUS\EUS2018.txt
D:\Temp\EUS\EUS2019.txt
D:\Temp\EUS\EUS2020.txt

2.1.2 数据合并

  利用Python吧上面所有的数据中的时间提取出来,存储在 alltime.npz 数据包中。

(1)处理代码

from headm import *filedir = r'D:\Temp\EUS'
filedim = os.listdir(filedir)
printf(filedim)alltime = []for f in filedim:fname = os.path.join(filedir, f)printf(fname)with open(fname, 'r', encoding='gbk') as f:for id, l in enumerate(f.readlines()):l = l.strip('\n')times = l[-1]if times.isdigit():alltime.append(int(times))tspsave('alltime', alltime=alltime)
printf(len(alltime))
printf(mean(alltime), std(alltime))printf('\a')

(2)数据统计信息

  每个文件对应的有效数据:

  • D:\Temp\EUS\EUS2017.txt;有效数据:1731
  • D:\Temp\EUS\EUS2018.txt;有效数据:1965
  • D:\Temp\EUS\EUS2019.txt;有效数据:2201
  • D:\Temp\EUS\EUS2020.txt;有效数据:2631
  • D:\Temp\EUS\UES2021.txt;有效数据:3003
数据合并后的统计:
数据量:11496
平均值:1489.23
STD:1574.31

2.1.3 数据直方图

  下面分别给出了 BIN个数为100, 50, 25 的直方图统计。

▲ 图2.1.1 直方图:100 v

▲ 图2.1.2 直方图:50

▲ 图2.1.3 直方图:25

from headm import *alltime = tspload('alltime', 'alltime')plt.hist(alltime, 25)plt.xlabel("Time(Hour)")
plt.ylabel("Statistic")
plt.grid(True)
plt.tight_layout()
plt.show()

2.1.4 指数分布

  根据前面的分布,可以看到设备使用机时与 Exponential distribution 接近。

(1)指数分布


  指数分布的数理统计: E[X]=1λ,Var[X]=1λ2E\left[ X \right] = {1 \over \lambda },\,\,\,Var\left[ X \right] = {1 \over {\lambda ^2 }}E[X]=λ1​,Var[X]=λ21​

(2)指数分布逼近

  使用 bins=50 的直方图估计指数分布参数。

fBIN(x)=a⋅e−b⋅xf_{BIN} \left( x \right) = a \cdot e^{ - b \cdot x}fBIN​(x)=a⋅e−b⋅x

  可以获得最小二乘逼近: fBIN(x)=1.541×e−0.000659xf_{BIN} \left( x \right) = 1.541 \times e^{ - 0.000659x}fBIN​(x)=1.541×e−0.000659x

  下图给出了上述逼近的曲线与实际直方图之间的拟合关系。

▲ 分布参数

  根据上述参数,可以知道 λ=b=6.5867×10−4\lambda = b = 6.5867 \times 10^{ - 4}λ=b=6.5867×10−4 ,对应的平均值为: mean=1λ=1518mean = {1 \over \lambda } = 1518mean=λ1​=1518 。这与前面计算对应的平均值接近。

from headm import *
from scipy.optimize        import curve_fitalltime = tspload('alltime', 'alltime')n,bins, patches = plt.hist(alltime, 50)
printf(n, bins, patches)def linefun(x, a, b):return a*exp(-b*x)param = (1000, 1/2000)
param, conv = curve_fit(linefun, bins[:len(n)], n, p0=param)
printf(param)fitn = linefun(bins[:len(n)], *param)
plt.plot(bins[:len(n)], fitn)plt.xlabel("Time(Hour)")
plt.ylabel("Statistic")
plt.grid(True)
plt.tight_layout()
plt.show()

2.2 指数分布

  根据 Exponential and normal distributions 对于指数分布描述,它适合对 Poisson process 中事件时间间隔进行描述,也可以表述成事件到达时间的分布。

  现在直接把设备的使用时间与符合Poison分布的随机事件时间间隔联系起来,我还没有特别想清楚。

  下面是网络上对于给定的攻击数据,分别给利用 Cauchy , Log-noirmal Chi, Chi-Square对于分布的进行近似,可以看到使用指数分别进行逼近精度比较高。 但使用 Normal-Gaussian, Log-Normal进行逼近,误差比较大。

▲ 图2.2.1 类似的几种随机分布

  由此可以看出,指数分布利用高斯分布去逼近,都会带来很大的误差。

※ 总  结 ※


  对于若干设备所使用时间(Utilization Time)分布进行汇总和统计分析,大体看到它分布接近于指数分布。 根据网络上对比几种分布波形可以看到,对于满足指数分布的概率统计利用Gaussian去逼近,误差很大。对于上面分布结果如果进行解释,是否还有其它分解方式,有待后面进一步探讨。


■ 相关文献链接:

  • 快速检索并引用你在CSDN上所有的博文笔记
  • Exponential distribution
  • Exponential and normal distributions
  • Poisson process

● 相关图表链接:

  • 图1.2.1 数据EXCEL表格
  • 图1.2.2 数据的统计信息
  • 表1-2-2 机时分布表格信息
  • 图2.1.1 直方图:100
  • 图2.1.2 直方图:50
  • 图2.1.3 直方图:25
  • 分布参数
  • 图2.2.1 类似的几种随机分布

统计数据背后的指数分布模型相关推荐

  1. 大数据背后的神秘定理:贝叶斯公式

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 引子 昨天下午趁着出去调研在湖滨银泰的星巴克做网易机器学习实习生岗 ...

  2. 趋势|40个统计数据展示CPaaS的2021现状

    洞察趋势 引领行业 通信平台即服务(CPaaS)软件允许用户向现有的软件平台添加通信功能,且不需要构建后端基础设施.这种程度的便利意味着企业可以打造专门为其独特需求量身定制的平台.CPaaS的敏捷性为 ...

  3. 2018年工业机器人销量排位_2020年工业机器人统计数据新鲜出炉

    近日,国际机器人联合会(IFR)发布了2020年全球机器人统计数据.数据显示,2019年全年工业机器人安装量为37.3万台,比上年减少12%,但也是史上第三高.截止到2019年底全球工业机器人累计安装 ...

  4. 大数据没用?!张小龙:我们很少看统计数据!

    导读:关于大数据的应用案例我们已经推送过很多,但大数据不是万能的,因为大数据只是研究数据之间的相关性,解决不了因果性.相比之下,身段更灵活的"小数据"反而更善于看穿因果性.因果性就 ...

  5. 15大统计数据描绘网络安全行业市场蓝图

    本文讲的是15大统计数据描绘网络安全行业市场蓝图,在技术领域,网络安全目前是发展最快的一大产业. 为把握该市场脉搏,美国网络安全公司 Cybersecurity Ventures 列出了2017年网络 ...

  6. Python 爬下的必胜客数据背后,藏着什么样的信息?

    笔者从大学开始就接触 Python,起初是好奇为什么 Python 不需要浏览器就能抓取网站数据.深感奇妙之余,也想亲身体验这种抓取数据的乐趣,所以写了很多爬虫程序. 后随着知识面的拓展,开始了解到数 ...

  7. 如何让隐藏在大数据背后的价值发挥出来?

    对于普通人来说,大数据离我们的生活很远,但它的威力已无所不在:信用卡公司追踪客户信息,能迅速发现资金异动,并向持卡人发出警示;能源公司利用气象数据分析,可以轻松选定安装风轮机的理想地点;瑞典首都斯德哥 ...

  8. 9.Pandas练习:美国个州的统计数据

    Pandas练习:美国各州的统计数据 前面讲解了那么多Pandas中的内容,下面将结合真实的数据集来进行Pandas数据分析练习, 我们这个练习只进行最简单的分析,目的是找出人口密度最高和最稀疏的州 ...

  9. 藏在表分区统计信息背后的小秘密

    藏在表分区统计信息背后的小秘密 藏在表分区统计信息背后的小秘密 原创 2017-09-19 曾令军 数据和云 云和恩墨技术专家,8年数据库运维经验.思维敏捷,擅长于数据库开发.解决棘手的数据库故障和性 ...

最新文章

  1. FCOS:全卷积一阶段Anchor Free物体检测器,多种视觉任务的统一框架
  2. 看一家公司发展得如何就看这家公司的财务部门
  3. 从深度图里面导出边界
  4. pythoncsv数据类型_python – 从CSV文件行中的值确定数据类型
  5. LeetCode算法题-Binary Number with Alternating Bits(Java实现)
  6. 海康/大华/宇视等网络摄像头云台控制功能探测方法解析
  7. 乡村振兴专题:农村面板数据3.0
  8. 图灵奖得主亲授!深度学习视频课程精选
  9. FPGA零基础学习:SPI 协议驱动设计
  10. ios 按钮下面加下划线_iOS 给部分文字加下划线四种方法
  11. 服务器协议 重发 回包 039,3情报板预置播放表、位图一览表.doc
  12. python写闲鱼脚本_自动化篇 - 躺着收钱!闲鱼自动发货机器人来啦~
  13. NT151应用案例:西门子PLC S7-1200与派克ACR9000的通信(Part 4)
  14. 【PHP】获取浏览器HTTP请求header信息、获取服务器HTTP响应header信息
  15. ROS机器人SLAM学习:Gazebo定位与导航仿真
  16. 解决|Adobe Reader XI软件打开后闪退问题
  17. 虚拟光驱实现原理-用户层篇
  18. Bin文件和Hex文件相互转换
  19. 本人报考中大MPM的WBS和WBS词典
  20. 添加编译警告的另一种方式:开发 clang

热门文章

  1. Salesforce平台支持多租户Multi tenant的核心设计思路
  2. Excel常用英文字母快捷键:
  3. 活动目录环境下 临时让End user提升权限安装应用软件
  4. 微商当革新,微电商将立
  5. 博客园博客停止更新的通知,程序员生存定律会在CSDN发完
  6. CComboBox 置空
  7. 关于jConfirm回传的解决方案
  8. 基于Spring Boot + Dubbo的全链路日志追踪(一)
  9. element-ui upload组件上传图片时限制图片宽高
  10. Scala --- 第三章 数组相关操作