数据科学分布——泊松分布
泊松分布
- 概念
- λ的影响
- 产生随机值
- 概率质量函数
- 累积概率密度函数
- 绘制λ
概念
Poisson分布,是一种统计与概率学里常见到的离散概率分布。
现实生活多数服从泊松分布。
泊松分布的概率函数为:
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
泊松分布的期望和方差均为λ
特征函数为
# 加载功能包
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import matplotlib.style as style
from IPython.core.display import HTML# 指定大小
%matplotlib inline
style.use('fivethirtyeight')
plt.rcParams['figure.figsize']=(14,7)
plt.figure(dpi=100)# PDF 概率密度函数
plt.bar(x=np.arange(20),height=(stats.poisson.pmf(np.arange(20),mu=5)),width=0.75,alpha=0.75)
# mu=λ*t# CDF累计概率密度函数
plt.plot(np.arange(20),stats.poisson.cdf(np.arange(20),mu=5),color="#fc4f30")# 补充图设置:LEGEND、TICKS与TITLE
plt.text(x=10, y=0.5, s="PDF(normed)", alpha = .75, weight="bold", color="#008fd5")
plt.text(x=16, y=0.9, s="CDF", alpha = .75, weight="bold", color="#fc4f30")
plt.xticks(range(21)[::2])
plt.tick_params(axis = 'both', which ='major', labelsize = 18)
plt.axhline(y = 0, color ='black', linewidth = 1.3, alpha = 7)
plt.text(x = -2, y = 1.1, s = "Poisson Distribution - Overview", fontsize = 26, weight = 'bold', alpha = 75)
λ的影响
plt.figure(dpi=100)# PDF λ=1
plt.scatter(np.arange(20),(stats.poisson.pmf(np.arange(20),mu=1)),alpha=0.75,s=100)
plt.plot(np.arange(20),stats.poisson.pmf(np.arange(20),mu=1),alpha=0.75)# PDF λ=5
plt.scatter(np.arange(20),(stats.poisson.pmf(np.arange(20),mu=5)),alpha=0.75,s=100)
plt.plot(np.arange(20),stats.poisson.pmf(np.arange(20),mu=5),alpha=0.75)# PDF λ=10
plt.scatter(np.arange(20),(stats.poisson.pmf(np.arange(20),mu=10)),alpha=0.75,s=100)
plt.plot(np.arange(20),stats.poisson.pmf(np.arange(20),mu=10),alpha=0.75)# LEGEND、TICKS与TITLE
plt.text(x=1, y=0.15, s="$\lambda = 1$", alpha = 75, weight="bold", color="#008fd5")
plt.text(x=4, y=0.1, s="$\lambda = 5$", alpha = 75, weight="bold", color="#fc4f30")
plt.text(x=9, y=0.15, s="$\lambda = 10$", alpha = 75, weight="bold", color="#e5ae38")
plt.xticks(range(21)[::2])
plt.tick_params(axis = 'both', which ='major', labelsize = 18)
plt.axhline(y = 0, color ='black', linewidth = 1.3, alpha = 7)
plt.text(x = -2.5, y =0.4, s = "Binomial Distribution - $\lambda$", fontsize = 26, weight = 'bold', alpha = 75)
产生随机值
import numpy as np
from scipy.stats import poisson# draw a single sample
np.random.seed(42)
print(poisson.rvs(mu=10),end="\n\n")# draw 10 samples
print(poisson.rvs(mu=10,size=10), end="\n\n")
12
[ 6 11 14 7 8 9 11 8 10 7]
概率质量函数
from scipy.stats import poisson# additional imoprts for plotting purpose
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams["figure.figsize"] = (14,7)# continuous pdf for the plot
x_s = np.arange(15)
y_s = poisson.pmf(k=x_s, mu=5)
plt.scatter(x_s, y_s,s=100);
累积概率密度函数
from scipy.stats import poisson# probabolity of x less or equal 3
print("P(X<3)={}".format(poisson.cdf(k=3,mu=5)))# probability of x in [2 ,8]
print("P(2<X<=8)={}".format(poisson.cdf(k=8,mu=5)-poisson.cdf(k=2,mu=5)))
P(X<3)=0.2650259152973616
P(2<X<=8)=0.8072543457950705
绘制λ
from collections import Counterplt.figure(dpi=100)# declaring the "true" parameters underlying the sample
lambda_real = 7 #实际λ# draw a sample of n=1000
np.random.seed(42)
sample = poisson.rvs(mu=lambda_real,size=1000) #柏松分布并找了1000个点# estimate mu and sigma
lambda_est = np.mean(sample) #计算出的λ
print("Estimated LAMBDA: {}".format(lambda_est))# sample distribution
cnt = Counter(sample)
_, values = zip(*sorted(cnt.items()))
plt.bar(range(len(values)),values/np.sum(values), alpha=.25) #基于算的结果画出柱形图# true curve
plt.plot(range(18),poisson.pmf(k=range(18),mu=lambda_real),color="#fc4f30") #真实的正态分布曲线# estimated curve
plt.plot(range(18),poisson.pmf(k=range(18),mu=lambda_est),color="#e5ae38") #建立出来的正太分布曲线# legend
plt.text(x=6, y=0.06, s="sample", alpha = .75, weight="bold", color="#008fd5")
plt.text(x=3.5, y=0.12, s="true distrubtion", rotation=65, alpha = .75, weight="bold", color="#fc4f30")
plt.text(x=2, y=0.05, s="estimated distribution", rotation=65, alpha = .75, weight="bold", color="#e5ae38")# ticks
plt.xticks(range(17)[::2])
plt.tick_params(axis='both',which='major',labelsize=18)
plt.axhline(y=0,color='black',linewidth=1.3,alpha=7)# title
plt.text(x=0,y=0.17,s="Poisson Distribution - Parameter Estimation",fontsize=26,weight='bold',alpha=75)
数据科学分布——泊松分布相关推荐
- 数据科学分布——二项式分布
数据科学分布--二项式分布 概念 P对结果的影响 N对结果的影响 随机样本 概率质量函数 概念 在n次独立重复的伯努利试验中,设每次试验中事件A发生的概率为p.用X表示n重伯努利试验中事件A发生的次数 ...
- 数据科学分布——正态分布
正态分布 概念 默认参数正太分布 参数设置 均值 标准差 随机的几个样本 概率密度函数 累计概率密度 基于数据画出分布 概念 正态分布(Normal distribution),也称"常态分 ...
- 数据科学分布——均匀分布
均匀分布 概念 a与b的影响 概念 在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的. 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩 ...
- 数据科学分布——卡方分布
卡方分布 概念 自由度 随机生成 概率密度函数 累积概率密度函数 概念 通俗的讲就是通过小数量的样本容量去预估总体容量的分布情况. 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度. 若n个 ...
- 数据科学和统计学_数据科学中的统计
数据科学和统计学 统计 (Statistics) Statistics are utilized to process complex issues in reality with the goal ...
- 随机过程在数据科学和深度学习中有哪些应用?
导语:机器学习的主要应用之一是对随机过程建模. "The only simple truth is that there is nothing simple in this complex ...
- 数据科学中的计量经济学技术
全文共3615字,预计学习时长10分钟 图源:Google 计量经济学是经济学的一个分支领域,它运用数学和统计模型与经济理论来理解.解释和衡量经济系统中的因果关系. 通过计量经济学,可以做出假设:教育 ...
- 数据科学学习之数据和抽样分布
专栏/前文链接 本文为笔者<数据分析与数据科学>专栏中的第二篇, 专栏的链接在这里. 第一篇博文的链接在这里. 希望本文与此专栏能够对接触,学习和研究数据科学的各位有所帮助. 本文介绍的是 ...
- 数据科学导论学习小结——其三
数据科学导论学习小结--其三 这是笔者大学二年级必修科目<数据科学基础>个人向笔记整理的第三部分,包含第六.第七两个章节.本笔记内容基于清华大学出版社<数据科学导论-探索数据的奥秘& ...
- 【译Py】数据科学面试终极指南04
[译Py]数据科学面试终极指南 [译Py]数据科学面试终极指南01 [译Py]数据科学面试终极指南02 [译Py]数据科学面试终极指南03 [译Py]数据科学面试终极指南04 [译Py]数据科学面试终 ...
最新文章
- tensorflow中转置卷积运算例子
- 皮一皮:男女的不同...
- centos mysql 启动_MYSQL在centos上首次启动
- elemenUI - 弹框组件alert - 宽度设置? - 疑问篇
- 线性代数应用于计算机科学例子,为什么计算机科学家们应该了解量子计算?(三):算法棱镜折射出的科学...
- 杰出人士的34个好习惯
- wide-dhcpv6的dhcp6c配置
- 8、二叉树的下一个节点(Python)
- 控制工程中的数学建模(1)——二阶有源低通滤波器(之一)
- 基于lvs实现的高并发负载的实战
- hmm进行英文词性标注
- 如何查看电脑上曾记录的账号密码
- Python中文乱码问题(转)
- 金蝶和oracle ebs优缺点,金蝶,用友切换成EBS中存在的差异点
- Python+随机森林
- 创建型模型-单例模式
- 新版国家标准GB/T 28181—2022将于2023年7月1日正式实施,与GB/T 28181—2016差别有哪些?
- 错误和问题解决的成本
- landsat7和8一级数据下载
- (window)C语言OCI的方式连接oracle
热门文章
- java程序员必备快捷键
- ICESat2学习笔记9 :python读取ATL08数据
- GIF动态图片分解,多帧动态图分解成多张静态图片
- presscad图层LIsp_PressCADLisp程序说明
- Windows Socket编程基础
- 图像增强-对数Log变换
- log2 3用计算机怎么按,如何使用计算器计算对数log以2为底3的对数,由于计算器2ndf又叫shift,不同计算器不同,请根据图来,因为有一些别...
- Spring Cloud 微服务架构图
- python 背单词_背单词方法大全
- 毕业论文答辩PPT模板