术语

样本空间(sample space):Ω\OmegaΩ,包含了所有可能出现的结果的集合。比如在掷一次骰子的样本空间可以用{1,2,3,4,5,6}表示。

事件集(event space): FFF,a collection of subsets of Ω\OmegaΩ,用来表示出现的结果。事件集未必是样本空间中的单一元素,也可以是复杂元素。比如在掷一次骰子的样本空间中,可以用{1,3,5}表示结果为奇数的事件。

概率函数(probability function): PPP,该函数完成了从事件到该事件发生概率的映射。

概率法则

贝叶斯

A的先验概率(prior probability of A): P(A)

A的后验概率(posterior probability of an event A given B): P(A|B)
P(A∣B)=P(B∣A)P(A)P(B)P(A|B) = \frac {P(B|A)P(A)} {P(B)} P(A∣B)=P(B)P(B∣A)P(A)​

独立事件

事件A1,A2,...,AnA_1, A_2,\ ...\ , A_nA1​,A2​, ... ,An​相互独立,当且仅当该事件集合的所有子集满足条件P(Ai1,Ai2,...,Aik)=∏j=1kP(Aij)P(A_{i1}, A_{i2},\ ...\ , A_{ik}) = \prod_{j=1}^k P(A_{ij})P(Ai1​,Ai2​, ... ,Aik​)=∏j=1k​P(Aij​)

最大后验概率

Maximum-a-posteriori (MAP)。

假设x,yx,yx,y都是离散的。
y^=f(x)=argmaxyp(y∣x)=argmaxyp(x∣y)p(y)=argmaxyp(x,y)\hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y p(x|y)p(y) \\\\ = argmax_y p(x,y) y^​=f(x)=argmaxy​p(y∣x)=argmaxy​p(x∣y)p(y)=argmaxy​p(x,y)
假设xxx是连续的,yyy是离散的。
y^=f(x)=argmaxyp(y∣x)=argmaxyf(x∣y)p(y)\hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y f(x|y)p(y) y^​=f(x)=argmaxy​p(y∣x)=argmaxy​f(x∣y)p(y)
缺点

  1. 随机变量相互独立的假设通常不成立
  2. 训练集中未出现某个值的样本导致概率为0,可以通过smoothing解决

信息熵

对于每一个事件,我们从它的发生能够获取到的信息是log(1P(A))log(\frac 1 {P(A)})log(P(A)1​)。这一个公式其实是符合我们的直觉。如果一个事件不常发生,那么当它发生的时候,透露的信息应该会比常见事件透露的信息更多。

信息熵的定义如下,
H(X)=−∑i=1mp(xi)log2p(xi)H(X) = -\sum_{i=1}^m p(x_i) log_2 p(x_i) H(X)=−i=1∑m​p(xi​)log2​p(xi​)

随机变量

一般来说,我们使用大写字母表示随机变量本身,用对应的小写字母代表该变量的取值。

可以从CDF分辨一个随机变量是离散变量、连续变量、抑或是两者都不是。

离散变量

满足条件P(X∈X)=1P(X \in \mathcal X) = 1P(X∈X)=1 for some countable set X⊂R\mathcal X \sub RX⊂R。

离散变量可以被其概率质量函数充分说明。

概率质量函数

probability mass function (pmf)。定义p(x)=P(X=x)∀x∈Xp(x) = P(X=x) \ \forall \ x \in Xp(x)=P(X=x) ∀ x∈X。

性质:

  1. p(x)≥0p(x) \ge 0p(x)≥0
  2. ∑x∈Xp(x)=1\sum_{x \in X} p(x) = 1∑x∈X​p(x)=1

我们常用记号X∼p(x)X \sim p(x)X∼p(x)来表示X的pmf是p(x)。

累积分布函数

cumulative density function (cdf)。定义F(x)=P(X≤x)F(x) = P(X \le x)F(x)=P(X≤x)。

性质

  1. F(x)≥0F(x) \ge 0F(x)≥0,且单调非递减

  2. limx−>∞F(x)=1lim_{x->\infty} F(x) = 1limx−>∞​F(x)=1,limx−>−∞F(x)=0lim_{x->-\infty} F(x) = 0limx−>−∞​F(x)=0

  3. F(x)F(x)F(x) 是右连续的,即limx−>a+F(x)=F(a)lim_{x->a^+} F(x) = F(a)limx−>a+​F(x)=F(a)

  4. P(X=a)=F(a)−limx−>a−F(a)P(X=a) = F(a) \ - \ lim_{x->a^-} F(a)P(X=a)=F(a) − limx−>a−​F(a)

经典的离散变量

Bernoulli

p(x)=px+(1−p)(1−x);x∈{0,1}p(x) = px + (1-p)(1-x); \ x \in \{0,1\}p(x)=px+(1−p)(1−x); x∈{0,1}

应用场景为投篮投进的概率。

Geometric

p(x)=p(1−p)xp(x) = p(1-p)^xp(x)=p(1−p)x

应用场景为抛硬币直到看到一次正面朝上的概率。

Binomial

p(x)=C(n,k)∗pk(1−p)n−kp(x) = C(n, k)*p^k(1-p)^{n-k}p(x)=C(n,k)∗pk(1−p)n−k

应用场景为连续抛n次硬币看到k次正面朝上的概率。

Poisson

p(x)=λxx!e−λ;λ>0p(x) = \frac {\lambda^x} {x!} e^{-\lambda}; \lambda > 0p(x)=x!λx​e−λ;λ>0

应用场景为在给定时间段内事件的数量。

Categorical

可以自己根据场景定义pmf。

连续变量

概率密度函数

probability density function (pdf)。定义f(x)=dF(x)dxf(x) = \frac {dF(x)} {dx}f(x)=dxdF(x)​。

性质

  1. f(x)≥0f(x) \ge 0f(x)≥0
  2. ∫−∞∞f(x)dx=1\int_{-\infty}^{\infty} f(x) dx = 1∫−∞∞​f(x)dx=1,同理P(X≤a)=∫−∞af(x)dxP(X \le a) = \int_{-\infty}^{a} f(x) dxP(X≤a)=∫−∞a​f(x)dx
  3. P(X∈A)=∫x∈Af(x)dxP(X \in A) = \int_{x \in A} f(x) dxP(X∈A)=∫x∈A​f(x)dx

我们常用记号X∼f(x)X \sim f(x)X∼f(x)来表示XXX的pdf是f(x)f(x)f(x)。

累积分布函数

与离散变量的CDF部分相同。

经典的连续变量

Gaussian

X∼N(μ,σ2)X \sim \mathcal N(\mu, \sigma^2)X∼N(μ,σ2)
f(x)=12πσ2∗e−(x−μ)22σ2f(x) = \frac {1} {\sqrt{2\pi \sigma^2}} * e^{-\frac {(x-\mu)^2} { 2\sigma^{2}}} f(x)=2πσ2​1​∗e−2σ2(x−μ)2​

Logistic

X∼logistic(μ=0,s=0)X \sim logistic(\mu=0, s=0)X∼logistic(μ=0,s=0)
f(x)=e−x(1+e−x)2f(x) = \frac {e^{-x}} {(1+e^{-x})^2} f(x)=(1+e−x)2e−x​

Uniform

X∼U[a,b]X \sim U[a,b]X∼U[a,b]
f(x)=1b−a;fora≤x≤bf(x) = \frac 1 {b-a}; \ for \ a \le \ x \le b f(x)=b−a1​; for a≤ x≤b

Exponential

X∼Exp(λ);λ>0X \sim Exp(\lambda); \lambda > 0X∼Exp(λ);λ>0
f(x)=λe−λx;x≥0f(x) = \lambda e^{-\lambda x}; \ x \ge 0 f(x)=λe−λx; x≥0

Laplace

X∼Lap(μ,b);b>0X \sim Lap(\mu, b); \ b > 0X∼Lap(μ,b); b>0
f(x)=12be−∣x−μ∣bf(x) = \frac 1 {\sqrt{2b}} e^{-\frac{|x - \mu|} {b}} f(x)=2b​1​e−b∣x−μ∣​

期望&方差&矩

期望

假设X∼p(x)X \sim p(x)X∼p(x),则E[X]=∑x∈Xxp(x)E[X] = \sum_{x \in X} xp(x)E[X]=∑x∈X​xp(x)。容易得到E[g(X)]=∑x∈Xg(x)p(x)E[g(X)] = \sum_{x \in X} g(x)p(x)E[g(X)]=∑x∈X​g(x)p(x)。

假设X∼f(x)X \sim f(x)X∼f(x),则E[X]=∫−∞∞xf(x)E[X] = \int_{-\infty}^{\infty} xf(x)E[X]=∫−∞∞​xf(x)。容易得到E[g(X)]=∫−∞∞g(x)f(x)dxE[g(X)] = \int_{-\infty}^{\infty} g(x)f(x) dxE[g(X)]=∫−∞∞​g(x)f(x)dx。

需要注意的是,期望是有可能发散的。比如g(x)=x−2;x≥1g(x) = x^{-2}; \ x \ge 1g(x)=x−2; x≥1的期望就是正无穷。

性质

  1. 线性,E[a∗g(X)+b∗h(X)+c]=a∗E[g(X)]+b∗E[h(X)]+cE[a*g(X) + b*h(X) + c] = a*E[g(X)] + b*E[h(X)] + cE[a∗g(X)+b∗h(X)+c]=a∗E[g(X)]+b∗E[h(X)]+c
  2. 可转换性,如果Y=g(X)Y = g(X)Y=g(X),那么E[Y]=E[g(X)]E[Y] = E[g(X)]E[Y]=E[g(X)]

方差

方差var(X)var(X)var(X),有时候也用D(X)D(X)D(X)表示。

D[X]=E[(X−E[X])2]=E[X2]−(E[X])2D[X] = E[(X - E[X])^2] = E[X^2] - (E[X])^2D[X]=E[(X−E[X])2]=E[X2]−(E[X])2。数学推导见下,
D[X]=∑i=1n(xi−μ)2pi=∑i=1nxi2pi−2μ∑i=1nxipi+μ2∑i=1npi=∑i=1nxi2pi−2μ2+μ2∑i=1npi=∑i=1nxi2pi−μ2=E[X2]−(E[X])2D[X] = \sum_{i=1}^n (x_i - \mu)^2 p_i \\\\ = \sum_{i=1}^n x_i^2 p_i - 2\mu \sum_{i=1}^n x_i p_i + \mu^2 \sum_{i=1}^n p_i \\\\ = \sum_{i=1}^n x_i^2 p_i - 2 \mu^2 + \mu^2 \sum_{i=1}^n p_i \\\\ = \sum_{i=1}^n x_i^2 p_i - \mu^2 \\\\ = E[X^2] - (E[X])^2 D[X]=i=1∑n​(xi​−μ)2pi​=i=1∑n​xi2​pi​−2μi=1∑n​xi​pi​+μ2i=1∑n​pi​=i=1∑n​xi2​pi​−2μ2+μ2i=1∑n​pi​=i=1∑n​xi2​pi​−μ2=E[X2]−(E[X])2
性质

  1. D[ax+b]=a2∗D(x)D[ax+b] = a^2*D(x)D[ax+b]=a2∗D(x)

英文是moment,有时候被称为动差。

iii阶矩被定义为E[Xi]E[X^i]E[Xi],可以发现一阶矩正好就是期望。0阶矩被定义为1。

概率的界限

Markov

假设XXX是一个非负随机变量(RV),那么对于任何非负的实数a有P(X≥aE[X])≤1aP(X \ge aE[X]) \le \frac 1 aP(X≥aE[X])≤a1​

Chebyshev

假设XXX是一个随机变量(RV),那么对于任何实数a>1a>1a>1,有P(∣X−E[X]∣≥aσ)≤1a2P(|X-E[X]| \ge a\sigma) \le \frac 1 {a^2}P(∣X−E[X]∣≥aσ)≤a21​.

联合概率

假设iid,p(x,y)=P(X=x,Y=y)p(x, y) = P(X=x, Y=y)p(x,y)=P(X=x,Y=y),(X,Y)∼p(x,y)(X,Y) \sim p(x,y)(X,Y)∼p(x,y)。

联合概率质量函数

边缘分布(marginals)可以表示成p(x)=∑y∈Yp(x,y)p(x) = \sum_{y \in \mathcal Y} p(x, y)p(x)=∑y∈Y​p(x,y)

XXX, YYY相互独立<=>p(x,y)=p(x)p(y)∀x∈X,y∈Yp(x, y) = p(x)p(y) \ \forall \ x \in \mathcal X, y \in \mathcal Yp(x,y)=p(x)p(y) ∀ x∈X,y∈Y

联合累积分布函数

F(x,y)=P(X≤x,Y≤y)∀x∈R,y∈RF(x,y) = P(X \le x, Y \le y) \ \forall \ x \in R, y \in RF(x,y)=P(X≤x,Y≤y) ∀ x∈R,y∈R

容易得到P(a<X≤x,b<Y≤y)=F(b,d)−F(a,d)−F(b,c)+F(a,c)P(a < X \le x, b < Y \le y) = F(b,d) - F(a,d) - F(b,c) + F(a,c)P(a<X≤x,b<Y≤y)=F(b,d)−F(a,d)−F(b,c)+F(a,c)。

性质

  1. 在x和y方向均不递减
  2. limx−>+∞F(x,y)=F(y)lim_{x->+\infty} F(x,y) = F(y)limx−>+∞​F(x,y)=F(y)

联合概率密度函数

f(x,y)=∂2F(x,y)∂x∂yf(x,y) = \frac {\partial^2 F(x,y)} {\partial x \partial y} f(x,y)=∂x∂y∂2F(x,y)​

计算XXX的边缘联合概率质量函数(marginal pdf):f(X)=∫−∞∞f(x,y)dyf(X) = \int_{-\infty}^{\infty} f(x,y) dyf(X)=∫−∞∞​f(x,y)dy

联合高斯

Jointly Gaussian。定义ρ\rhoρ为关联系数(correlation coefficient)。

变量间的相互关系

协方差

covariance。用于衡量两个随机变量的联合变化程度。

cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y]cov(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y]

如果两个变量相互独立,那么协方差是0。但是反之并不成立!如果两个变量的协方差是0,我们只能说这两个变量不相关,但是不能得出相互独立的结论。

上面这张图就是协方差为0但变量不相互独立的例子。

我们仔细观察可以发现,方差是协方差的一种特殊情况,是变量与自身的协方差。

var(X+Y)=var(X)+var(Y)+2cov(X,Y)var(X+Y) = var(X) + var(Y) + 2cov(X,Y)var(X+Y)=var(X)+var(Y)+2cov(X,Y)。

我们可以用方差的公式证明这一推论。
var(X+Y)=E[(X+Y)2]−(E[X+Y])2=E[X2]+E[Y2]+2E[XY]−(E[X+Y])2=(E[X2]−E[X]2+E[X]2)+(E[Y2]−E[Y]2+E[Y]2)+2E[XY]−(E[X+Y])2=var(X)+E[X]2+var(Y)+E[Y]2+2E[XY]−(E[X+Y])2=var(X)+var(Y)+E[X]2+E[Y]2+2E[XY]−(E[X]+E[Y])2=var(X)+var(Y)+2E[XY]+E[X]2+E[Y]2−(E[X]+E[Y])2=var(X)+var(Y)+2E[XY]−2E[X][Y]=var(X)+var(Y)+2cov(X,Y)var(X+Y) = E[(X+Y)^2] - (E[X+Y])^2 \\\\ = E[X^2] + E[Y^2] + 2E[XY] - (E[X+Y])^2 \\\\ = (E[X^2] - E[X]^2 + E[X]^2) + (E[Y^2] - E[Y]^2+ E[Y]^2) + 2E[XY] - (E[X+Y])^2 \\\\ = var(X) + E[X]^2 + var(Y) + E[Y]^2 + 2E[XY] - (E[X+Y])^2 \\\\ = var(X) + var(Y) + E[X]^2 + E[Y]^2 + 2E[XY] - (E[X]+E[Y])^2 \\\\ = var(X) + var(Y) + 2E[XY] + E[X]^2 + E[Y]^2 - (E[X]+E[Y])^2 \\\\ = var(X) + var(Y) + 2E[XY] - 2E[X][Y] \\\\ = var(X) + var(Y) + 2cov(X,Y) var(X+Y)=E[(X+Y)2]−(E[X+Y])2=E[X2]+E[Y2]+2E[XY]−(E[X+Y])2=(E[X2]−E[X]2+E[X]2)+(E[Y2]−E[Y]2+E[Y]2)+2E[XY]−(E[X+Y])2=var(X)+E[X]2+var(Y)+E[Y]2+2E[XY]−(E[X+Y])2=var(X)+var(Y)+E[X]2+E[Y]2+2E[XY]−(E[X]+E[Y])2=var(X)+var(Y)+2E[XY]+E[X]2+E[Y]2−(E[X]+E[Y])2=var(X)+var(Y)+2E[XY]−2E[X][Y]=var(X)+var(Y)+2cov(X,Y)
性质

  1. 对称性
  2. cov(aX,bY)=abcov(X,Y)cov(aX, bY) = ab \ cov(X,Y)cov(aX,bY)=ab cov(X,Y)

相关

correlation。显示两个随机变量之间线性关系的强度和方向。如果变量之间有很强的关系但不是线性关系,correlation也很可能是0。

E[XY]=∑x∈X∑y∈Yxyp(x,y)E[XY] = \sum_{x \in X} \sum_{y \in Y} xyp(x,y)E[XY]=∑x∈X​∑y∈Y​xyp(x,y)

上面图示分别对应correlation值接近0,1,-1.

相关系数

Correlation Coefficient。一般指的都是皮尔森系数。
ρ=cov(X,Y)var(X)var(Y)\rho = \frac {cov(X, Y)} {\sqrt{var(X)var(Y)}} ρ=var(X)var(Y)​cov(X,Y)​
性质

  1. 对称性

协方差矩阵

一个向量由多个随机变量组成(默认是列向量),用vvv或者xxx表示。

随机向量$ v $的协方差矩阵是所有RV对之间的协方差的矩阵。实际上,我们可以将其视为对单个RV的方差的扩展。

我们可以从定义出发进行推导得到一个推论,注意下面多处包含的是向量的外积:
Σv=E[(v−μv)(v−μv)T]=E[vvT−vμvT−μvvT+μvμvT]=E[vvT]−E[vμvT]−E[μvvT]+E[μvμvT]=E[vvT]−E[v]μvT−μvE[vT]+μvμvT=E[vvT]−μvμvT−μvμvT+μvμvT=E[vvT]−μvμvT\Sigma_{v} = E[(v-\mu_v)(v-\mu_v)^T] \\\\ = E[vv^T - v\mu_v^T - \mu_vv^T + \mu_v\mu_v^T] \\\\ = E[vv^T] - E[v\mu_v^T] - E[\mu_v v^T] + E[\mu_v \mu_v^T] \\\\ = E[vv^T] - E[v]\mu_v^T - \mu_v E[v^T] + \mu_v\mu_v^T \\\\ = E[vv^T] - \mu_v \mu_v^T - \mu_v \mu_v^T + \mu_v\mu_v^T \\\\ = E[vv^T] - \mu_v \mu_v^T Σv​=E[(v−μv​)(v−μv​)T]=E[vvT−vμvT​−μv​vT+μv​μvT​]=E[vvT]−E[vμvT​]−E[μv​vT]+E[μv​μvT​]=E[vvT]−E[v]μvT​−μv​E[vT]+μv​μvT​=E[vvT]−μv​μvT​−μv​μvT​+μv​μvT​=E[vvT]−μv​μvT​
性质

  1. 对称性
  2. 半正定性

Reference

  • Probability and Information Theory in Machine Learning, ECE 601, Fall 2020, Matthew Malloy

机器学习基础专题:随机变量相关推荐

  1. 机器学习基础专题:特征工程

    特征工程 特征提取 将原始数据转化为实向量之后,为了让模型更好地学习规律,对特征做进一步的变换.首先,要理解业务数据和业务逻辑. 其次,要理解模型和算法,清楚模型需要什么样的输入才能有精确的结果. 探 ...

  2. 机器学习基础:随机变量及其概率分布

    文章目录 随机变量的数字特征 数学期望 离散型随机变量的数学期望 连续型随机变量的数学期望 随机变量函数的数学期望 数学期望的性质 方差 一些常用分布的方差 方差的性质 切比雪夫不等式 协方差与相关系 ...

  3. 机器学习基础专题:高斯混合模型和最大期望EM算法以及代码实现

    高斯混合模型 混合模型是潜变量模型的一种,是最常见的形式之一.而高斯混合模型(Gaussian Mixture Models, GMM)是混合模型中最常见的一种.zzz代表该数据点是由某一个高斯分布产 ...

  4. 机器学习基础专题:逻辑回归

    逻辑回归 广义线性模型. 原理 输入 训练集数据T=(x1,y1)...(xM,yM)T = {(x_1,y_1) ... (x_M,y_M)}T=(x1​,y1​)...(xM​,yM​),xi∈X ...

  5. 机器学习基础专题:感知机

    感知机 原理 思想是错误驱动.一开始赋予w一个初始值,通过计算被错误分类的样本不断移动分类边界. 输入 训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_1) ... (x_M, ...

  6. 机器学习基础专题:分类

    线性分类 分类方式 硬分类 使用的是非概率模型,分类结果是决策函数的决策结果. 代表:线性判别分析.感知机 软分类 分类结果是属于不同类别的概率. 生成式 通过贝叶斯定理,使用MAP比较P(Y=0∣X ...

  7. 机器学习基础专题:线性判别器

    线性判别分析 全称是Linear Discriminant Analysis (LDA). 原理 给定训练样例集,通过降维的思路进行分类.将样例投影到一条直线上,使得同类样例的投影点接近,异类样例的投 ...

  8. 机器学习基础专题:样本选择

    样本选择 选择最少量的训练集S⊂\sub⊂完整训练集T,模型效果不会变差. 优势: 缩减模型计算时间 相关性太低的数据对解决问题没有帮助,直接剔除 去除噪声 数据去噪 噪声数据 特征值不对(缺失.超出 ...

  9. 机器学习基础专题:评估指标

    评估指标 线下使用机器学习评估指标,线上使用的是业务指标.需要进行多轮模型迭代使两个指标变化趋势相同. 分类指标 精确率和召回率 用于二分类问题,结合混淆矩阵. 精确率 P = TPTP+FP\fra ...

最新文章

  1. Connect(); // 2015 简要整理
  2. ubuntu 14.04 安装 cuda 6.5
  3. 消防荷载楼板按弹性还是塑性计算_现浇楼板裂缝处理办法全总结!
  4. 别致的上传思路导致getshell的案例
  5. 安卓app与阿里云服务器的无线通信(非局域网)
  6. Google Code Jam 2008 E 日程表(最小割)
  7. SQL2008 SQLserver(express)服务不能启动
  8. cisco ios cookbook
  9. java 命令设计模式_Java设计模式之命令设计模式
  10. 2019最新 Java商城秒杀系统的设计与实战视频教程(SpringBoot版)_2-1微服务项目的搭建-SpringBoot搭建多模块项目一...
  11. 码力十足学量化|macd 指标详解
  12. 用免疫算法解决TSP问题
  13. MAC电脑存储空间占用过高怎么办?
  14. FFmpeg[6] - 将视频文件转码成MKV格式(FFmpeg转封装3)
  15. 【Paper】Word2Vec:词嵌入的一枚银弹
  16. 电子邮件服务建设计算机网络,内蒙古师范大学校园计算机网络电子邮件使用管理规定...
  17. C# 调用CAD系统命令
  18. 【Linux】静态库与共享库
  19. 使用API制作星际争霸2AI
  20. python海龟绘图画玫瑰花_python海龟绘图实例教程

热门文章

  1. 63、使用Timer类来实现定时任务
  2. 安全无忧,函数计算推出访问用户VPC功能,实现自定义的多类VPC网络资源互通...
  3. 使用yum管理软件包
  4. ORACLE 修改SID
  5. Openoffice添加页脚页码页数页眉
  6. 在WinForms中使用ActiveX
  7. ISA2006标准版配置导入企业版
  8. cesium多边形描边_Cesium专栏-地形开挖2-任意多边形开挖(附源码下载)
  9. 在Office 2007 Word文档中插入两种页码方法
  10. 多维矩阵/数组变成一维数组