概率统计基础

  • 1.概率基本概念
  • 2.一些常见的概率
    • 2.1 概率运算
    • 2.2.条件概率,先验概率,后验概率,全概率
  • 3.常见统计量
  • 4.常见分布
    • 4.1 伯努利实验,二项分布
    • 4.2 高斯分布
  • 相关参考

1.概率基本概念

先说下自己的看法,有以下三点:

  • 1.概率用来描述世界上存在的不确定性,而这种可能性是事物的潜在规律。
  • 2.概率描述一种事件发生的可能性有多大。
  • 3.概率与统计有区别。一株水稻产生的颗粒有80%是饱满的,与一株水稻80%概率产生饱满颗粒,一个描述总体情况,一个描述单次事件发生可能性的大小。而我们往往使用总体分布来推测概率,但两者含义是不一样的。

因此,对于概率来说,在统计中总体的概念,其实对应于概率的事件空间,统计中的样本,对应于概率中的事件点。

讨论的事件为事件空间的一个非空子集,这个事件为随机事件。
讨论的事件为事件空间的空集,或者不是当前样本空间的子集,这个事件为不可能事件。
如投掷色子,投掷出7点的概率为0,因为这个事件不属于当前事件空间。

要想得到必然事件,那么该事件要为事件空间的全集。所有情况都考虑到,那么就是必然事件。

2.一些常见的概率

2.1 概率运算

概率的取值范围:

  1. 对每个事件 A A A,均有 0 < P ( A ) < = 1 0<P(A)<=1 0<P(A)<=1;

概率求和:

  1. P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1;

  2. 若事件 A 1 , A 2 , A 3 , . . . A_1,A_2,A_3,... A1​,A2​,A3​,...两两互斥,即对于 i , j = 1 , 2 , . . . , i ≠ j , A i ∩ A j = ϕ i,j=1,2,...,i \neq j ,A_i \cap A_j = \phi i,j=1,2,...,i​=j,Ai​∩Aj​=ϕ,均有

    P ( A 1 ∪ A 2 ∪ . . . ) = P ( A 1 ) + P ( A 2 ) + . . . P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +... P(A1​∪A2​∪...)=P(A1​)+P(A2​)+...

则称 P ( A ) P(A) P(A)为事件 A A A的概率。

互斥事件(计算某些概率很好用)

  • 对于任一事件 A A A,均有 P ( A ‾ ) = 1 − P ( A ) P(\overline{A})=1-P(A) P(A)=1−P(A).

  • 对于两个事件 A A A和 B B B,若 A ⊂ B A \subset B A⊂B,则有
    P ( B − A ) = P ( B ) − P ( A ) P(B-A) = P(B) - P(A) P(B−A)=P(B)−P(A), P(B) >P(A)

  • 对于任意两个事件 A A A和 B B B,有

    ​ P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A \cup B) = P(A) + P(B) - P(A\cap B) P(A∪B)=P(A)+P(B)−P(A∩B).

  • 条件概率,先验概率,后验概率,全概率

2.2.条件概率,先验概率,后验概率,全概率

  • 条件定义:
    ​ 研究随机事件之间的关系时,在已知某些事件发生的条件下考虑另一些事件发生的概率规律有无变化及如何变化,是十分重要的。我们先给出定义,然后进行例子的讲解与描述。

设 A A A 和 B B B 是两个事件,且 P ( B ) > 0 P(B)>0 P(B)>0,称 $P(A|B) = \frac {P(AB)} {P(B)} $ 为在事件 B B B 发生的条件下,事件 A A A 发生的概率。

  • 例子:

​ 某集体中有 N N N 个男人和 M M M 个女人,其中患色盲者男性 n n n 人,女性 m m m 人。我们用 Ω \Omega Ω 表示该集体, A A A 表示其中全体女性的集合, B B B 表示其中全体色盲者的集合。如果从 Ω \Omega Ω 中随意抽取一人,则这个人分别是女性、色盲者和同时既为女性又是色盲者的概率分别为:

​ P ( A ) = M M + N , P ( B ) = m + n M + N , P ( A B ) = m M + N P(A) = \frac {M} {M+N} , P(B) = \frac {m+n} {M+N} , P(AB) = \frac {m} {M+N} P(A)=M+NM​,P(B)=M+Nm+n​,P(AB)=M+Nm​

如果限定只从女性中随机抽取一人**(即事件 A A A 已发生),那么这个女人为色盲者的(条件)**概率为

​ P ( B ∣ A ) = m M = P ( A B ) P ( A ) P(B|A) = \frac {m} {M} = \frac {P(AB)} {P(A)} P(B∣A)=Mm​=P(A)P(AB)​

  • 先验概率定义:
    即一开始由统计得到的客观概率(参考水稻例子)

玩英雄联盟占到中国总人口的60%,不玩英雄联盟的人数占到40%:

为了便于数学叙述,这里我们用变量X来表示取值情况,根据概率的定义以及加法原则,我们可以写出如下表达式:

P(X=玩lol)=0.6;P(X=不玩lol)=0.4,这个概率是统计得到的,即X的概率分布已知,我们称其为先验概率(prior probability);

  • 后验概率定义:
    由数据样本和先验概率推测得到的概率。(发生事件后,推测原因的概率)

P(Y=男性|X=玩lol)=0.8,P(Y=小姐姐|X=玩lol)=0.2

P(Y=男性|X=不玩lol)=0.2,P(Y=小姐姐|X=不玩lol)=0.8

那么我想问在已知玩家为男性的情况下,他是lol玩家的概率是多少:

依据贝叶斯准则可得:

P(X=玩lol|Y=男性)=P(Y=男性|X=玩lol)*P(X=玩lol)/

[ P(Y=男性|X=玩lol)*P(X=玩lol)+P(Y=男性|X=不玩lol)*P(X=不玩lol)]

最后算出的P(X=玩lol|Y=男性)称之为X的后验概率,即它获得是在观察到事件Y发生后得到的

后验概率计算公式,也叫贝叶斯公式

  • 全概率

  • 全概率公式

    设 B 1 , B 2 , . . . B_1,B_2,... B1​,B2​,...是样本空间 Ω \Omega Ω 的一个划分, A A A 为任一事件,则

    ​ P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i) P(A)=∑i=1∞​P(Bi​)P(A∣Bi​)

    称为全概率公式。

    根据全概率公式和概率乘法公式,我们可以得到:

  • 贝叶斯公式

    设 B 1 , B 2 , . . . B_1,B_2,... B1​,B2​,...是样本空间 $ \Omega$ 的一个划分,则对任一事件 A ( P ( A ) > 0 ) A(P(A)>0) A(P(A)>0) ,有

    ​ P ( B i ∣ A ) = P ( B i A ) P ( A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 ∞ P ( B j ) P ( A ∣ B j ) P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} P(Bi​∣A)=P(A)P(Bi​A)​=∑j=1∞​P(Bj​)P(A∣Bj​)P(A∣Bi​)P(Bi​)​ ,i=1,2,…

    称上式为贝叶斯公式,称 P ( B i ) ( i = 1 , 2 , . . . ) P(B_i)(i=1,2,...) P(Bi​)(i=1,2,...) 为先验概率, P ( B i ∣ A ) ( i = 1 , 2 , . . . ) P(B_i|A)(i=1,2,...) P(Bi​∣A)(i=1,2,...)为后验概率。

3.常见统计量

  • 概率与统计息息相关,这里列举一些常见统计量
  1. 方差:1/(n-1)*Σ(xi-x’)^2
  2. Cov(X,Y)=E(XY)-E(X)E(Y)=E(x-E(x))(y-E(y))
    对于两类样本xi,yi,协方差:计算两个变量协同的分散程度,Σ(xi-x’)(yi-y’)/n-1
  • n-1为无偏统计,样本协方差是1 / (m - 1),总体协方差是1/m。
  1. 如果要计算协同相关程度,则相关系数:pearson=Cov(X,Y)/(D(x)*D(y))^(1/2),衡量相关程度。
  2. 协方差矩阵:中心化后的X,X*X.T为其协方差矩阵。
    5.随机变量的期望
  3. 离散型随机变量的分布函数为:
    F ( x ) = P { X < = x } = ∑ x k < = x P { X = x k } = ∑ x k < = x P k F (x) = P \{ X<=x \} =\sum_{x_k <=x}{ P \{ X=x_k \} } = \sum_{x_k <=x}{ P_k} F(x)=P{X<=x}=xk​<=x∑​P{X=xk​}=xk​<=x∑​Pk​

4.常见分布

4.1 伯努利实验,二项分布

  • 定义:

    如果一个随机试验只有两种可能的结果 A A A 和 A ‾ \overline A A,并且

P ( A ) = p , P ( A ‾ ) = 1 − p = q P(A) = p,P(\overline A) =1-p=q P(A)=p,P(A)=1−p=q

其中, 0 < p < 1 0<p<1 0<p<1 ,则称此试验为Bernoulli(伯努利)试验. Bernoulli试验独立重复进行 n n n 次,称为 n n n 重伯努利试验。

4.2 高斯分布

正态分布:又叫高斯分布(Gaussian distribution),是最为人们所熟知的分布类型

正态分布最为人们所熟知是因为在实际生活中我们经常可以看到正态分布的例子。比如男女身高,学习成绩等都服从正态分布。也就是说身高和学习成绩处于中游水平的人的数量最多,而身高特别高或特别矮以及成绩特别好或特别差的人的数量很少(趋于0)。上图的曲线看起来像一口钟,因此正态分布曲线又被称为钟形曲线(bell curve)。

若随机变量X服从一个期望为μ,方差为σ2的正态分布,那么记作X~N(μ,σ2)。正态分布的期望值μ决定了其位置,标准差σ决定了分布的幅度。

相关参考

1.如何理解先验概率与后验概率和似然函数
2.常见的概率分布类型(一)(Probability Distribution I)
3.[更新中] 各种常见和不常见的概率分布及其概率函数简介

DW-概率统计打卡task01相关推荐

  1. 2020.6.29 概率统计-Task04-方差分析

    方差分析 一.概要 1 从独立样本t检验到方差分析 2 方差分析定义与分类 二.单因素方差分析 1 推导过程 2 代码实现 三.双(多因素)因素方差分析 1 推导过程 2 代码实现 最后 概率统计的最 ...

  2. MADlib——基于SQL的数据挖掘解决方案(9)——数据探索之概率统计

    样本是随机变量,统计量作为样本的函数自然也是随机变量.当用它们去推断总体时,有多大的可靠性与统计量的概率分布有关.本篇学习概率统计的基本知识,以及在此基础上的统计推论.MADlib提供了概率函数和统计 ...

  3. 概率统计极简入门:通俗理解微积分/期望方差/正态分布前世今生(23修订版)

    原标题:数据挖掘中所需的概率论与数理统计知识(12年首次发布,23年重编公式且反复改进) 修订背景 本文初稿发布于12年年底,十年后的22年底/23年初ChatGPT大火,在写ChatGPT通俗笔记的 ...

  4. 概率统计(三)常见分布与假设检验

    常见分布与假设检验 一.一般随机变量 二.常见分布 1.离散型分布 (1)二项分布 (2)泊松分布 (3)几何分布 (4)负二项分布 (5)超几何分布 2.连续型分布 (1)均匀分布 (2)正态分布 ...

  5. 概率统计笔记:高斯威沙特分布

    1 介绍 在概率论和统计学中,高斯威沙特分布是一个多变量四参数连续概率分布. 它是一个具有未知均值和精度矩阵(协方差矩阵的逆)的多元正态分布的共轭先验 2 定义 假设均值μ 满足如下的高斯分布 其中满 ...

  6. Matlab在概率统计中的应用问题及解决方案集锦

    前言 关于MATLAB系列的精品专栏大家可参见 MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) 喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! Matlab在概 ...

  7. Matlab概率统计编程指南

    Matlab概率统计编程指南 第4章 概率统计 本章介绍MATLAB在概率统计中的若干命令和使用格式,这些命令存放于MatlabR12\Toolbox\Stats中. 4.1 随机数的产生 4.1.1 ...

  8. 距离算法在概率统计C语言,基于CBM-TOF探测器无触发数据获取系统的压缩算法-应用概率统计.PDF...

    基于CBM-TOF探测器无触发数据获取系统的压缩算法-应用概率统计 第39 卷 第6 期 核 技 术 Vol.39, No.6 2016 年6 月 NUCLEAR TECHNIQUES June 20 ...

  9. 微积分和概率统计有什么用?用来表白呀!

    经常有人会问我,微积分有什么用?买菜求导数? 概率统计有什么用?买彩票和赌球? 不知道学了有什么用,不知道学习的意义,是高中生学习概念比较抽象的数学最大的阻碍. 对于这个年龄段的学生们来说,最吸引他们 ...

最新文章

  1. c# 大数据量比较时-方案
  2. ai画面怎么调大小_ai如何调整对象大小
  3. [JavaWeb-Servlet]IDEA与Tomcat的相关配置
  4. 最新SpringBoot2.0X整合SpringData JPA实战完整篇
  5. Python爬虫批量下载糗事百科段子,怀念的天王盖地虎,小鸡炖蘑菇...
  6. java redis hash存取_我爱java系列---【redis中如何存取hash类型的值(key field value)】...
  7. paurse java_Java学习笔记一
  8. lemon oa前端页面——由user-base-list谈项目组织
  9. 6.世界坐标观察模式
  10. redis系列--深入哨兵集群
  11. easyui-textbox锁定按钮不锁定_刘诗雯锁定世界杯参赛资格!孙颖莎不满足要求,无缘对阵伊藤美诚...
  12. 计算机弹琴游戏,电脑键盘钢琴软件(弹钢琴小游戏)
  13. Unity中的Assetbundle,Unity基础知识学习一
  14. 【Tableau Desktop 企业日常技巧12】Tableau CA或者CDA 考试真题(附带国外面试题目)
  15. 航空公司客户价值分析的实验报告
  16. uniapp下微信小程序超过2MB大小限制的解决方法
  17. HTTP 多处理模块(MPM)
  18. 建筑业加速提高智能建造水准
  19. 用html写的意见调查表代码
  20. 数论——Baby Step Giant Step大步小步算法

热门文章

  1. 开机就显示重启界面,Lenovo重装Win 10系统的解决办法之一
  2. 【ArchSummit】社交元宇宙的技术挑战与探索
  3. 2020,感恩陪伴;2021,指令集愿与您同行
  4. 07-小蜜蜂单片机中断系统
  5. 微软推出游戏服务器,成为云玩家 微软将推出“Project xCloud”云游戏服务
  6. 普通人创业,不开实体店或者网上店铺,你能干啥?
  7. E. MEX and Increments---dp+优先队列+贪心
  8. 关于gluster分布式哈希研究
  9. linux dwc3 usb驱动分析
  10. 打开outlook显示找不到outlook数据文件如何处理