0.大纲:

1.什么是概率分布?

概率分布就是随机变量与对应概率关系的函数。换句话说,概率分布就是随机变量和概率的映射,所有的事件都会对应一个概率。某个随机变量的所有概率形成的概率-事件分布就是该随机变量的概率分布,会用一个函数来表达概率分布。显然,包含了所有事件的话,分布的概率之和(连续随机变量则时概率密度函数的积分)肯定就等于1。

当随机变量为离散变量时,这个函数叫做概率质量函数,当随机变量连续时,对应的函数称为概率密度函数。在概率统计学的中有一个计算概率密度函数的方法——核密度估计(KDE)、这是一种非参数估计分布密度函数的方法,仅通过对数据本身的特征来计算概率密度函数,不依赖任何数据分布的先验知识,这弥补了下面介绍的参数估计方法的劣势——样本分布和实际的分布可能存在巨大差异,无法通过观察或者理论推导出实际的分布。

非参数估计对应的就是参数估计,具体的操作是,先观察样本的分布情况/根据样本来源假定数据服从特定的形态,然后通过数据估计该形态下的总体参数。一般数据形态有:线性、可线性化、指数。

2.概率分布的分类简介

2.1 关于两种随机变量类型:

  • 离散型概率分布:随机变量为离散型的概率分布,即概率和事件的数量都是有限的。例如最基础的抛一次硬币的结果和对应概率形成的分布——伯努利分布(0-1分布)。另外还有:n重伯努利试验对应的二项分布、二项分布的极限分布(n→∞和p→0)泊松分布、二项分布“不放回抽样”版超几何分布、二项分布“第一次成功”版几何分布、“几何分布的推广版”负二项分布
  • 连续型概率分布:随机变量为连续型的概率分布,即概率和事件的数量都是无限的。例如均匀分布、正态分布、指数分布、学生t分布、正态平方卡方分布、卡方比例F分布等。

下面逐一介绍下以上提及的分布:

  1. 伯努利分布:结果只有两种可能的单次试验对应的概率分布,例如抛一枚硬币试验。

分布图:

概率质量函数:

2. 二项分布:重复多次独立的同概率伯努利试验的试验对应概率分布, 例如抛多次硬币、多次试验之间互相不影响、用的同一枚硬币和相同的抛投方式,保证概率概率相同。而伯努利试验就确保了结果只有两种可能。总结为四个词就是(独立、重复、同概率、结果二元

分布图:

概率质量函数:

3. 泊松分布:当需要估计某个时间段内发生次数的概率时,可以考虑。关注的不是二项分布的试验进行的次数n和发生的概率,而是两者的乘积 均值 λ = np。

概率质量函数:

泊松分布和二项分布:待续。

4. 超几何分布:和二项分布一样关注的是“成功次数”,不同的是超几何分布对应的抽样形式是不放回抽样,即每次抽样不独立、概率会随着抽样进行而改变。当总数N和抽样数n差距很大的时候,就不会对概率产生多大的影响,可以近似地看作是二项分布。

概率质量函数:

5. 几何分布:和二项分布一样是结果二元的试验,不同的是,几何分布关注点在于第一次成功,即几何分布是关于抽样时第一次成功事件的概率。

分布图:空

概率质量函数:

6.均匀分布:任意相同间隔内的分布概率是相等的,即概率分布为一条平行X轴的直线,高度取决于分布的总长度。

7. 负二项分布:是几何分布的简单推广,关注点在成功r次前的失败次数(或者是失败r次前的成功次数,看你如何定义成功),所以会比几何分布多个参数r。

分布图:

概率密度函数:

负二项的由来:

8. β二项分布待续,还没弄明白。

9. 正态分布:又称常态分布,是应用得最广泛的一种对称分布,关注的是均值和标准差。例如身高、员工薪水分布、智商等等。

分布图:

率密度函数:

10. 指数分布:几何分布中当时间切片趋于无穷小的时候就得到了指数分布,和几何分布关注的是大颗粒的次、秒等单位不同,指数分布精确地描述了第一次成功前的时间分布(因为切片无穷小,成功的那一刻可以忽略不计)。类似泊松分布,指数分布由参数发生率λ决定。

分布图:图中的mu = μ = λ

指数分布

概率密度函数:

11. 对数正态分布:是指一个随机变量的对数服从正态分布,则该随机变量服从对数正态分布。对数正态分布从短期来看,与正态分布非常接近。但长期来看,对数正态分布向上分布的数值更多一些???

分布图:

概率密度函数:

12. 帕累托分布:是从大量真实世界的现象中发现的幂次定律分布,帕累托因对意大利20%的人口拥有80%的财产的观察而著名。(二八法则

分布图:

概率密度函数:

概率分布:

13. 学生t分布:当样本量较小时,正态总体的抽样服从t分布。

分布图:

概率密度函数:其中,Gam(x)为伽马函数

14. 正态平方卡方分布:服从正态分布的变量的平方服从卡方分布。

分布图:

概率密度函数:其中x≥0, 当x≤0时fk(x) = 0。这里Γ代表Gamma 函数。

15. 卡方比例F分布:两个服从卡方分布的变量比例服从F分布。

分布图:

概率密度函数:

第2.1小节是按照随机变量类型进行划分,所以所有的分布都可以归纳进行,所以会稍微详细一点点介绍,下面进行其它方式分类的时候就只进行简述和对应分类下的共同特点或者关联。

2.2 关于伯努利试验

  1. 伯努利分布:单次伯努利试验对于的分布,结果只有两种可能。
  2. 二项分布:n重伯努利试验对应的分布,结果二元、独立重复进行、概率固定,关注的是“成功“次数的概率分布。
  3. 几何分布:和二项分布类似n重伯努利试验,关注的是第一次成功失败次数的概率分布。
  4. 负二项分布:是几何分布的推广,关注的是成功r次前失败次数的概率分布。
  5. 超几何分布:是不放回抽样版的n重伯努利试验,关注点和二项分布一样——“成功”次数的概率分布。
  6. β二项分布:它与一般二项式分布的不同之处,在于它虽然也是表示一系列已知次数的伯努利实验的成功概率,但其中的伯努利实验的常数变成了一个随机变量。——维基百科-β-二项式分布我还没搞明白,待续。

2.3 关于泊松过程中的事件(给定速率独立发生的事件)

  1. 泊松分布:用于给定时间段内泊松型事件的发生次数(给定速率、独立发生、发生次数)
  2. 指数分布:在下一个泊松类型事件发生之前的时间对应分概率分布(给定速率、独立发生、时间间隔)
  3. Gamma分布:在下一个k泊松类型事件发生之前的时间(多个泊松过程事件(k)、时间间隔)

文章伽马分布,指数分布,泊松分布的关系,讲解得很简洁明了。

2.4 关于贝叶斯推理的共轭先验分布

2.5 关于假设检验的抽样分布

2.5.1中心极限定理和抽样分布

  1. 经典(狭义)中心极限定理是什么?
    简单不负责版本: 大样本的情况下抽样的均值服从正态分布。
    复杂专业地版本: 独立同分布(从同一个总体)抽样的均值服从正态分布。
    PS: 均值可以是x均值、样本比例p均值。
  2. 这个定理有啥用?
    第一,区间估计。既然我们知道了样本均值的分布,就可以通过反向操作推断样本均值出现在某个区间的概率。

转换成标准正态分布(未知总体标准差,用样本标准差估计)

构建置信区间(根据置信水平,需求的概率)

推导出总体参数区间估计

第二,假设检验,因为已知样本均值分布,可以计算出样本均值对应的统计检验量,可以计算样本均值出现的概率,从而推翻/保留原假设,如假设总体均值μ<5,实际计算出来的均值对应的Z值处于拒绝域内(依据概率需求(置信度)确定),表明小概率事件发生,可以拒绝之前的假设。

2.5.2 三大抽样分布和统计推断

  • 正态小样本t分布:当正态变量,抽样样本量较小时(小于30),则抽样均值近似服从t分布,和Z分布同理查表即可。
  • 正态平方和卡方分布:当样变量是由服从正态分布的变量通过求平方和得到时,服从卡方分布。例如方差是由样本值和样本均值的差的平方再除以n-1得到的,即统计推断要使用卡方统计量。
  • 卡方比例F分布:当变量由服从卡方分布的变量相除得到,那么该变量服从F分布,例如两个总体的方差之比,检验它们方差是否相等时可用F统计量。

2.6 关于正太分布的特征抽象

  1. 线性增长的实值(“多劳多得”的事件)
    因为是线性增长,即可以用线性回归模型拟合实际的Y值特定的X值上四符合正态分布的(因为误差必须符合正态分布)。例如,如果钻石的价格和重量、形状、颜色、净度和荧光有线性关系,那么钻石的价格,在特定的重量、形状、颜色、净度和荧光上一定是呈现正态分布的(即意味着误差符合正态分布、如果误差不符合正态分布,就意味着还有未被考虑的因素)。再例如司机有效的运营时间(非空跑)有线性关系(假设完全较好拟合),那么在特定的出租车运营公司里处于某个有效运营时间的出租车司机的收入一定是服从正态分布的,因为司机的实际收入=特定有效时间对应的收入+误差值,不然此时模型中的误差就不服从正态分布的。
  2. 多个独立随机事件相加的事件
    根据”广义中心极限定理“如果一个事件的结果是由多个独立的变量“相加”的结果,而且这些独立的随机变量的方差是非零且有限的(非零且不会无穷大),那么这个事件会随着变量数量的增加会趋近正态分布。
    简化的理解,一个事件是由多个(大于20个)独立随机变量相加的结果,且这些变量的方差是非零且有限的,那么这个事件就可以近似认为服从正态分布。

例如身高,生物学家认为人的身高是由至少180多个基因共同决定的,有的决定你的小腿有多长,有的决定你的脖子有多长——而你的身高,是所有这些因素相加之和。作为一个很好的近似,决定身高的各个基因是比较相互独立的。所以身高满足正态分布。
——《三种分布模型》 万维钢精英日课第三季

2.7 关于指数增长的正实数

  1. 指数增长的正实数
  • 对数正态分布:对于单个这样的随机变量,服从此分布。例如个人财富的分布,当下的个人财富对未来的财富几乎都是”相乘“的关系,不管是存银行、投资理财都是再本金的基础上按照一定的比例变化。所以个人财富的分布是服从对数正态分布的

对数正态分布

  • 帕累托分布:对于这样的量的数量,服从帕累托分布,属于幂律分布。例如个人财富量的分布,将 数量(Y)-财富量(X)绘制分布图,可以形成 一个类似下图所示的幂律分布图,绝大多数的人会处于财富的低到中部,极少数的人会占据绝大部分的财富。

第2节,是按照各种共同的特征/应用去分类整理介绍,从基础的按照随机变量类型到两类特殊的事件:伯努利试验和泊松过程中的事件;再到两类特殊的应用:1)贝叶斯推理 2)假设检验;最后是正态的分布的抽象特征是多个方差非零且有限的独立随机变量相加、以及指数增长的正实数相关单个量对应的对数正态分布,指数增长正实数的数量(例如财富的数量)服从的幂律分布。

3.分布属性的延申(时间关系,简单罗列,待续)

众数、中位数、均值;头部、尾部;方差、标准差;偏度、峰度。

  1. 众数、中位数、均值:其中中位数可以用来区分前后百分之50得数据,众数可以确认集中得位置。在正态分布中,三者相同。
  2. 尾部、峰度:重尾分布:
    尖峰厚尾:金融数据为何如此?
    长尾分布:如何从长尾中获益?
    平峰优化:如何提高平峰时期的交通通行效率?
  3. 头部:头部效应:强者越强是否和能从长尾效应矛盾?
  4. 偏度:硬性分布法(强制正态分布法)

第3节,是通过遍历分布对于的属性来整合汇总概率分布对于的应用。还未进行详细描述,待续。

4.概率分布的主要应用(时间关系,简单罗列,待续)

  1. 伪随机数生成:计算机生成的随机数为什么不靠谱?蒙特卡洛模拟是啥?
  2. 极大似然估计:数据量少如何尽量准确地估计总体参数?
  3. 贝叶斯推断:数据量少如何尽量准确地估计总体参数?

第4节,是补充分布基本属性为设计的应用。还未进行详细描述,待续。

统计学原理-----概率分布相关推荐

  1. 数据分析统计学原理第六章:连续型概率分布 | 我的统计学原理复习日记

    离散型随机变量和连续型随机变量之间最根本的区别在于,二者在概率计算上是不同的.对一个离散型随机变量,概率函数f(x)给出了随机变量x取某个特定值的概率.而对连续型随机变量,与概率函数相对应的是概率密度 ...

  2. 统计学②——概率分布(几何,二项,泊松,正态分布)

    统计学系列目录(文末有大奖赠送): 统计学①--概率论基础及业务实战 统计学③--总体与样本 统计学④--置信区间 统计学⑤--假设验证 概率分布描述了一个给定变量的所有可能取值结果的概率,历史上伟大 ...

  3. 均匀分布取某一点概率_概率和概率分布

    概率与概率分布是统计学中的基础概念,在我们的高中的课本中就接触过了,如果有遗忘,一起来回顾一下吧! 知识点: 概率 概率分布 一.概率 说到概率,需要先了解一个概念,叫做随机试验.随机试验是指在相同条 ...

  4. 深度学习需要掌握的 13 个概率分布(附代码)

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 知乎作者:Sophia  来源:深度学习自然语言处理 本文仅用于学术分享 ...

  5. 深度学习必懂的13种概率分布

    作为机器学习从业者,你需要知道概率分布相关的知识.这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关. 概率分布概述 共轭意味着它有共轭分布的关系. 在贝叶斯概率论中, ...

  6. 数据分析师必看:5大概率分布,你了解多少?

     - 点击上方"视学算法"订阅我吧!- 概率分布就像3D眼镜.它们允许熟练的数据分析师识别其他完全随机变量的模式.在某种程度上,大多数其他数据科学或机器学习技能都基于对数据概率分布 ...

  7. 【CV】PAA论文解读:在物体检测中利用概率分布来将anchor分配为正负样本

    本文转自|AI公园 导读 又一篇anchor匹配策略的文章,不过确实是简单有效,在ATSS上只需要很小的修改就可以提升性能.GFL2在框的预测上用上了概率分布,这里又在anchor匹配上用上了概率分布 ...

  8. R语言构建文本分类模型:文本数据预处理、构建词袋模型(bag of words)、构建xgboost文本分类模型、xgboost模型预测推理并使用混淆矩阵评估模型、可视化模型预测的概率分布

    R语言构建文本分类模型:文本数据预处理.构建词袋模型(bag of words).构建xgboost文本分类模型.xgboost模型预测推理并使用混淆矩阵评估模型.可视化模型预测的概率分布 目录

  9. R语言构建logistic回归模型并评估模型:模型预测结果抽样、可视化模型分类预测的概率分布情况、使用WVPlots包绘制ROC曲线并计算AUC值

    R语言构建logistic回归模型并评估模型:模型预测结果抽样.可视化模型分类预测的概率分布情况.使用WVPlots包绘制ROC曲线并计算AUC值 目录

最新文章

  1. centos刻录工具_centos u盘引导制作工具下载|
  2. DDR3 LAYOUT RULES
  3. pySpark环境搭建
  4. 【渝粤教育】广东开放大学 云计算技术与应用 形成性考核
  5. ESP32,使用gitee搭建 ESP-IDF 开发框架
  6. web登录时候加入过滤器的用法
  7. Android笔记 显式意图demo
  8. 计算机顶会论文写作科研利器
  9. int 转为字节后 低字节在前_NumPy 字节交换
  10. mysql编程的入门案例
  11. java上传图片特征码到服务器,记一个Base64编码后经网络传输产生的问题
  12. C++ 最大堆最小堆与push_heap pop_heap
  13. navicat编程界面_navicat for mysql使用方法
  14. winform控件之notifyicon
  15. 计算机硬盘格式化与储存原理
  16. Delphi XE E2251 Ambiguous overloaded call to ‘StrPas‘错误处理
  17. 音视频多媒体开发基础概述之颜色空间(1)CIE色度模型 RGB颜色空间
  18. 隐藏桌面上计算机图标不见了怎么办,电脑的快捷图标不见了怎么办
  19. 如何测试一个串口调试助手软件,串口调试助手(SComAssistant)
  20. 详细介绍文本检索基准BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models

热门文章

  1. CS架构和BS架构的发展趋势即在图像处理软件中的应用
  2. 一种用于360度全景视频超分的单帧多帧联合网络
  3. ECCV2020优秀论文汇总|涉及点云处理、3D检测识别、三维重建、立体视觉、姿态估计、深度估计、SFM等方向...
  4. 针孔相机模型之再学习
  5. Qt中使用多线程的一些心得(一)——继承QThread的多线程使用方法
  6. mysql大表迁移_MySQL 大表迁移
  7. Ubuntu环境下docker的安装
  8. 零基础入门学习Python(1)
  9. MPB:湖南农大尹杰组-猪粪便来源乳酸菌分离技术
  10. MPB:南京​湖泊所王建军组-​群落构建过程的定量指标——扩散-生态位连续体指数...