机器学习基础：概率论基础
机器学习基础：随机变量及其概率分布
机器学习基础：大数定律与中心极限定理

机器学习必备基础知识，力求以最简洁的语言，描述最完整的内容。
很多知识没有深入剖析，也没必要深入剖析。大致了解知识框架之后，即可开始学习机器学习，有不懂的再回过头再仔细研究，驱动式学习才是最高效的学习。

概率和统计的概念

概率论与数理统计绝大部分理工科学生都学过的一门课。
概率和统计研究的都是概率相关问题，只是角度刚好相反。

概率：已知一个模型和参数，去预测这个模型产生的结果的特性。 比如已知西瓜的甜度成正态分布，预测某写瓜甜度大于某个值的个数。
统计：有一堆数据，要利用这堆数据去预测模型和参数。 比如有很多瓜，通过统计大致知道他们的甜度成正态分布，哪个μμμ和σσσ能最准确的描述这些瓜甜度的分布情况呢？

通俗讲就是：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。

概率

反映随机事件出现的可能性大小。抛硬币正面朝上的概率就是1/2

条件概率

AAA发生条件下BBB发生的概率
P(B∣A)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
写成乘法
P(AB)=P(A)P(B∣A)P(AB)=P(A)P(B|A) P(AB)=P(A)P(B∣A)
ABABAB事件同时发生的概率，等于事件AAA发生的概率乘以已知事件AAA发生时BBB发生的概率。

乘法公式

P(A1A2)=P(A1)P(A2∣A1)=P(A2)P(A1∣A2)\begin{align} P({{A}_{1}}{{A}_{2}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}}) \\=P({{A}_{2}})P({{A}_{1}}|{{A}_{2}}) \end{align} P(A1A2)=P(A1)P(A2∣A1)=P(A2)P(A1∣A2)

P(A1A2⋯An)=P(A1)P(A2∣A1)P(A3∣A1A2)⋯P(An∣A1A2⋯An−1)P({{A}_{1}}{{A}_{2}}\cdots {{A}_{n}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})P({{A}_{3}}|{{A}_{1}}{{A}_{2}})\cdots P({{A}_{n}}|{{A}_{1}}{{A}_{2}}\cdots {{A}_{n-1}}) P(A1A2⋯An)=P(A1)P(A2∣A1)P(A3∣A1A2)⋯P(An∣A1A2⋯An−1)

全概率公式

事件组A1,A2,...,An(n可为∞)满足：A_1,A_2,...,A_n(n可为\infin)满足：A1,A2,...,An(n可为∞)满足：

⋃i=1nAi=Ω\bigcup_{i=1}^nA_i=\Omega⋃i=1nAi=Ω
A1,A2,...,AnA_1,A_2,...,A_nA1,A2,...,An两两互不相容，则A1,A2,...,AnA_1,A_2,...,A_nA1,A2,...,An为样本空间Ω\OmegaΩ的一个划分或完备事件组

全概率公式要求将样本空间分解成互不相容的简单事件，再研究这些事件发生时复杂事件BBB的发生概率，合并后的到事件BBB在样本空间中发生的概率。

P(B)=∑i=1nP(AiB)=∑i=1nP(Ai)P(B∣Ai)P(B)=\sum_{i=1}^{n}{P(A_iB)}=\sum_{i=1}^{n}P(A_i)P(B|A_i) P(B)=i=1∑nP(AiB)=i=1∑nP(Ai)P(B∣Ai)

先验概率和后验概率

在全概率公式中，A1,A2,...,AnA_1,A_2,...,A_nA1,A2,...,An可以看作BBB发生的原因，BBB是结果。 P(Ai)P(A_i)P(Ai)称为先验概率。在机器学习中通常指的是某个分类出现的概率

若在BBB发生后考察AiA_iAi发生的概率（事件AiA_iAi对于事件BBB的影响程度），就是P(Ai∣B)P(A_i|B)P(Ai∣B)，称为后验概率。

Bayes公式

条件概率中的乘法公式：P(AB)=P(A)P(B∣A)=P(B)P(A∣B)P(AB) = P(A)P(B|A) = P(B)P(A|B)P(AB)=P(A)P(B∣A)=P(B)P(A∣B)

即有
P(A∣B)=P(A)P(B)⋅P(B∣A)(1)P(A|B)=\frac{P(A)}{P(B)}·P(B|A)\tag{1} P(A∣B)=P(B)P(A)⋅P(B∣A)(1)
进一步加强条件：现在事件B在样本空间中被分割成了两两互不相容事件A1,A2,...,AnA_1,A_2,...,A_nA1,A2,...,An (1)(1)(1)式变成了这样
P(Ai∣B)=P(Ai)P(B)P(B∣Ai)(2)P(A_i|B)=\frac{P(A_i)}{P(B)}P(B|A_i)\tag{2} P(Ai∣B)=P(B)P(Ai)P(B∣Ai)(2)
将上面的全概率公式代入：
P(Ai∣B)=P(Ai)∑k=1nP(Ak)P(B∣Ak)⋅P(B∣Ai)(3)P(A_i|B)=\frac{P(A_i)}{\sum_{k=1}^{n}P(A_k)P(B|A_k)}·P(B|A_i)\tag{3} P(Ai∣B)=∑k=1nP(Ak)P(B∣Ak)P(Ai)⋅P(B∣Ai)(3)
这就是BayesBayesBayes公式

独立性

如果A,BA,BA,B满足P(AB)=P(A)P(B)P(AB)=P(A)P(B)P(AB)=P(A)P(B)，称事件ABABAB相互独立

则有P(B∣A)=P(B)=P(A)P(B|A) = P(B)=P(A)P(B∣A)=P(B)=P(A)

随机变量及其概率分布

离散型随机变量

随机变量XXX的可能取值是离散的，有限个值x1,...,xnx_1,...,x_nx1,...,xn或可列无限个值x1,...,xn,...x_1,...,x_n,...x1,...,xn,...

每个取值对应的概率为pkp_kpk，记成P(X=xi)=pk,k=1,2,...P(X=x_i)=p_k,\ k=1,2,...P(X=xi)=pk, k=1,2,...，这称为离散型随机变量XXX的分布律

两点分布

(0−1)(0-1)(0−1)分布 又称两点分布 随机变量只可能取0或1
P{X=k}=pk(1−p)1−k(k=0,1)P\{X=k\}=p^k(1-p)^{1-k}\quad\quad\quad\quad(k=0,1) P{X=k}=pk(1−p)1−k(k=0,1)

二项分布

每次试验只有两个结果，AAA与A‾\overline AA，且P(A)=p,P(A‾)=1−p=qP(A)=p,\ P(\overline A)=1-p=qP(A)=p, P(A)=1−p=q

重复进行nnn次试验，每次试验的结果相互独立，分布律为：

pk=P(X=k)=Cnkpkqn−k0<p<1,q=1−p,k=0,1,...,np_k=P(X=k)=C_n^kp^kq^{n-k}\\0<p<1,\ q=1-p,\ k=0,1,...,n pk=P(X=k)=Cnkpkqn−k0<p<1, q=1−p, k=0,1,...,n

当n=1n=1n=1时，pk=P(X=k)=pkqn−kp_k=P(X=k)=p^kq^{n-k}pk=P(X=k)=pkqn−k 退化为两点分布

泊松分布

XXX分布律为
pk=P(X=k)=λkk!e−λ(k=0,1,2...,n),λ>0p_k=P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\\(k=0,1,2...,n),\ \lambda>0 pk=P(X=k)=k!λke−λ(k=0,1,2...,n), λ>0
称XXX服从以参数为λ\lambdaλ的泊松分布，记为X∼P(λ)X\thicksim P(\lambda)X∼P(λ)

泊松分布是二项分布的极限分布，当nnn很大，ppp很小时，二项分布可以近似地看成是参数λ=np\lambda=npλ=np的泊松分布
常用于描述大量实验中稀有事件出现频数的概率模型。因为根据分布律，当kkk越大时P(X=k)P(X=k)P(X=k)越来越小（阶乘比指数高阶），也就是说，XXX取大值的概率很小

几何分布

nnn重伯努利试验中，记XXX为事件AAA首次发生所需的试验次数，即P(X=k)P(X=k)P(X=k)为AAA前k−1k-1k−1次不发生，第kkk次发生的概率
pk=P(X=k)=qk−1pk=1,2,...;q=1−pp_k=P(X=k)=q^{k-1}p \quad \quad k=1,2,...;\ q=1-p pk=P(X=k)=qk−1pk=1,2,...; q=1−p

称XXX服从参数为ppp的几何分布，记为X∼g(p)X\thicksim g(p)X∼g(p)

验证分布律性质：
∑k=1∞pk=∑k=1∞qk−1p=p∑k=1∞qk−1=p11−q=1\sum_{k=1}^{\infin}p_k=\sum_{k=1}^{\infin}q^{k-1}p=p\sum_{k=1}^{\infin}q^{k-1}=p\frac1{1-q}=1 k=1∑∞pk=k=1∑∞qk−1p=pk=1∑∞qk−1=p1−q1=1

连续型随机变量

概率密度

对于随机变量XXX，若存在非负函数f(x),(−∞<x<+∞)f(x),(-\infin<x<+\infin)f(x),(−∞<x<+∞)，使对任意实数xxx，都有
F(x)=P(X⩽x)=∫−∞xf(u)duF(x)=P(X\leqslant x)=\int_{-\infin}^xf(u)du F(x)=P(X⩽x)=∫−∞xf(u)du
则称XXX为连续型随机变量，f(x)f(x)f(x)为XXX的概率密度函数，简称概率密度或密度函数

常记为X∼f(x),(−∞<x<+∞)X\sim f(x),(-\infin<x<+\infin)X∼f(x),(−∞<x<+∞)

性质
- f(x)⩾0f(x)\geqslant 0f(x)⩾0
- ∫−∞+∞f(u)du=1\int_{-\infin}^{+\infin}f(u)du=1∫−∞+∞f(u)du=1
- 任意实数a<ba<ba<b，P(a<X⩽b)=F(b)−F(a)=∫abf(u)duP(a<X\leqslant b)=F(b)-F(a)=\int_{a}^{b}f(u)duP(a<X⩽b)=F(b)−F(a)=∫abf(u)du
- 其实上式P(a<X⩽b)P(a<X\leqslant b)P(a<X⩽b)中小于号取不取整并不影响结果（与离散型随机变量严格要求左开右闭不同！）因为f(x)f(x)f(x)可积→\rightarrow→F(x)F(x)F(x)连续（左右都连续），有P(X=a)=F(a)−F(a−0)=0P(X=a)=F(a)-F(a-0)=0P(X=a)=F(a)−F(a−0)=0
- 若xxx是f(x)f(x)f(x)的连续点，则f(x)=F′(x)f(x)=F'(x)f(x)=F′(x)

均匀分布

XXX概率密度为
f(x)={1b−a,a<x<b0,其他f(x)=\begin{cases} \frac1{b-a}, & \text{a<x<b}\\ 0, & \text{其他} \end{cases} f(x)={b−a1,0,a<x<b其他
则称XXX在**区间[a,b]**上服从均匀分布，记为X∼U[a,b]X\sim U[a,b]X∼U[a,b]

分布函数为
F(x)={0,x<ax−ab−a,a⩽x<b1,x⩾bF(x)=\begin{cases} 0, & \text{x<a}\\ \frac{x-a}{b-a}, & {a\leqslant x<b}\\ 1, &{x\geqslant b} \end{cases} F(x)=⎩⎨⎧0,b−ax−a,1,x<aa⩽x<bx⩾b
P(c<X<d)=∫cdf(x)dx=∫cd1b−adx=d−cb−aP(c<X<d)=\int_c^df(x)dx=\int_c^d\frac1{b-a}dx=\frac{d-c}{b-a}P(c<X<d)=∫cdf(x)dx=∫cdb−a1dx=b−ad−c

概率意义：XXX落在(a,b)(a,b)(a,b)中任一区间的概率只与该区间的长度成正比，而与该区间的位置无关

指数分布

XXX概率密度为
f(x)={λe−λx,x⩾00,x<0f(x)=\begin{cases} \lambda e^{-\lambda x},&{x\geqslant 0}\\ 0, &{x<0} \end{cases} f(x)={λe−λx,0,x⩾0x<0
其中λ>0\lambda>0λ>0为常数，则称XXX服从参数为λ\lambdaλ的指数分布，记为X∼E(λ)X\sim E(\lambda)X∼E(λ)

XXX分布函数为
F(x)={1−e−λx,x⩾00,其他F(x)=\begin{cases} 1- e^{-\lambda x},&{x\geqslant 0}\\ 0, &{其他} \end{cases} F(x)={1−e−λx,0,x⩾0其他

3 正态分布

XXX密度函数为
f(x)=12πσe−(x−μ)22σ2x∈Rf(x)=\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ x\in \R f(x)=2πσ1e−2σ2(x−μ)2x∈R
其中μ\muμ为实数，σ>0\sigma>0σ>0，类比测量时的真实值为μ\muμ，nnn次测量均方误差1n∑(xi−μ)2→σ2\frac1n\sum(x_i-\mu)^2\rightarrow \sigma^2n1∑(xi−μ)2→σ2，则称XXX服从参数为μ,σ2\mu,\sigma^2μ,σ2的正态分布，也称高斯分布，记为X∼N(μ,σ2)X\sim N(\mu,\sigma^2)X∼N(μ,σ2)

密度函数图像性质：
- 单峰对称：关于直线x=μx=\mux=μ对称，x=μx=\mux=μ时f(x)max=12πσf(x)_{max}=\frac1{\sqrt{2\pi} \sigma}f(x)max=2πσ1
- 由于图像覆盖面积是111，固定μ\muμ时，σ\sigmaσ越小，最高点越高，即图形越高越陡；反之图形越低越平（换个角度，误差越小越靠近真实值μ\muμ）
- μ=0,σ=1\mu=0,\ \sigma=1μ=0, σ=1时的正态分布称为标准正态分布，记作X∼N(0,1)X\sim N(0,1)X∼N(0,1)
  - f(x)=12πe−x22x∈Rf(x)=\frac{1}{\sqrt {2\pi}}e^{-\frac{x^2}{2}}\quad\quad\quad x\in \R f(x)=2π1e−2x2x∈R
    
    分布函数
    Φ(x)=P(X⩽x)=12π∫−∞xe−t22dtx∈RΦ(0)=12Φ(+∞)(对称性)\Phi(x)=P(X\leqslant x)=\frac{1}{\sqrt {2\pi}}\int _{-\infin}^x e^{-\frac{t^2}{2}}dt\\ x\in \R\\ \Phi(0)=\frac12\Phi(+\infin)(对称性) Φ(x)=P(X⩽x)=2π1∫−∞xe−2t2dtx∈RΦ(0)=21Φ(+∞)(对称性)
    
    对标准正态分布的分布函数Φ(x)\Phi(x)Φ(x)，有Φ(−x)=1−Φ(x)\Phi(-x)=1-\Phi(x)Φ(−x)=1−Φ(x)

机器学习基础：概率论基础相关推荐

【机器学习算法专题（蓄力计划）】三、机器学习中的概率论基础精讲
这是统计学的基本概念,随便找本概率论基础都可以找到这些概念,看不懂的就看多几遍,重点在记住和知道应用场合,知识点之间的衔接很重要,理解为王. 文章目录 1. 随机变量分类 2. 常见的离散分布 2.1 ...
AI算法连载02：概率论基础
相关文章: AI算法连载01:数学基础之线性代数导语:不懂算法的工程师做不了AI,不懂算法的产品经理将把AI带入泥潭.概率是AI最重要的预测理论! 在人工智能AI如火如荼的大潮下,越来越多的工程师们 ...
数学基础（1）~ 概率论基础知识
概率论基础出处:http://www.cnblogs.com/fanling999/p/6702297.html 参考:盛骤, 谢式千, 潘承毅. 概率论与数理统计, 第四版[M]. 高等教育出版社 ...
021 区间估计（对u的区间估计、对a^2的区间估计）（概率论基础结束）
本概率论视频由汤家凤教授全程讲授,在此致谢汤家凤老师的辛勤付出!也预祝各位同学考研成功! 至此,(2017.9.18-2017.12.6)已复习汤家凤老师的数学系列课程: 1,106讲高等数学上册 ...
机器学习需要哪些基础知识？
机器学习需要一些基础知识,包括以下几个方面: 机器学习需要哪些基础知识? 数学基础:机器学习涉及到很多数学知识,如线性代数.微积分.概率论和统计学等.这些数学知识是理解和应用机器学习算法的基础. 编程 ...
详解概率论基础: 从贝叶斯开始
转自:机器之心,侵删本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野.这些概念是数据科学的核心,并经常出现在各种各样的话题上.重温基础知 ...
【数理统计】概率论基础回顾
零.概率论基础回顾 1. 求离散型的期望
机器学习算法的基础知识
机器学习算法的基础知识 1.评估指标 2.偏差与方差(过拟合与欠拟合) 3.正则化(解决过拟合) 4.梯度下降算法(算法优化方式) 5.数据不平衡 1.评估指标预测值 0 1 实际 0 TN FP ...
纪念我逝去的概率论基础
Photo: from book The Unravelers 在数学系的研究生阶段有一门课,名字非常谦逊,叫做<概率论基础>.没错,不是神马高等概率论,也不是神马现代概率论,而是基础,仅 ...
概率论基础知识（三）参数估计
概率论基础知识(三) 参数估计 1.矩矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示. 矩是更具有一般意义的数字特征. 设有随机变量X,若 E ( ∣ X ∣ k ) < ...

机器学习基础：概率论基础