随机变量及其概率分布

随机变量是可以随机地取不同值的变量，伴随着一个概率分布来指定每个状态的可能性。

离散型的随机变量通常使用概率质量函数（PMF），也称作概率分布律来表示。

连续型的随机变量通常使用概率密度函数（PDF）来表示，给出了落在面积为 $\delta x$ 的无限小区域内的概率为 $p(x)\delta x$ 。

多个变量的概率分布被称为联合概率分布，例如 $P(\textup{x}=x,\textup{y}=y)$ 也可以简写 $P(x,y)$ 。

若已知一组联合概率分布，想了解其中一个子集的概率分布，可以使用边缘概率分布，定义为对另一个变量求和：

$P(\textup{x}=x)=\sum_{y}P(\textup{x}=x,\textup{y}=y)$

$P(\textup{x}=x)=\int p(x,y)dy$

在某个条件发生的情况下，计算事件的概率，称作条件概率，例如在 $\textup{x}=x$ 的条件下， $\textup{y}=y$ 发生的概率，可表示为：

$P(\textup{y}=y\mid \textup{x}=x)=\frac{P(\textup{y}=y,\textup{x}=x)}{P(\textup{x}=x)}$

条件概率的链式法则：

$P(x^{(1)},...,x^{(n)})=P(x^{(1)})\prod_{i=2}^{n}P(x^{(i)}\mid x^{(1)},...,x^{(i-1)})$

独立性

如果满足 $p(\textup{x}=x,\textup{y}=y)=p(\textup{x}=x)p(\textup{y}=y)$ ，则称这两个随机变量相互独立。

如果满足 $p(\textup{x}=x,\textup{y}=y\mid \textup{z}=z)=p(\textup{x}=x\mid \textup{z}=z)p(\textup{y}=y\mid \textup{z}=z)$ ，则称这两个随机变量相互条件独立。

期望方差协方差

$f(x)$ 关于某分布 $P(x)$ 的期望，表示当 $x$ 由 $P$ 产生时， $f(x)$ 的平均值：

$E_{x\sim P}[f(x)]=\sum_xP(x)f(x)$

$E_{x\sim p}[f(x)]=\int p(x)f(x)dx$

方差表示随机变量 $x$ 呈现的差异性：

$Var(f(x))=E[(f(x)-E[f(x)])^2]$

方差的平方根称为标准差。

协方差给出了两个随机变量线性相关性的强度：

$Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]$

协方差的绝对值如果很大意味着变量值变化很大并且它们同时距离各自的均值很远。

协方差如果是正的，那么两个变量都倾向于同时取相对较大的值。

协方差如果是负的，那么其中一个变量倾向于取较大的值的时候，另一个变量倾向于取较小的值。

协方差矩阵是一个 $n\times n$ 的矩阵，满足：

$Cov(x)_{i,j}=Cov(x_i,x_j)$

常用概率分布

伯努利分布（Bernoulli distribution）是单个二值随机变量的分布。

$\begin{align*} & P(x=1)=p \\ & P(x=0)=1-p \\ & E(x)=p \\ & Var(x)=p(1-p) \end{align*}$

二项分布是 $n$ 次重复的伯努利实验，记作 $x \sim b(n,p)$ 。

$\begin{align*} & P(x=k)=\binom{n}{k}p^k(1-p)^{n-k} \\ & E(x)=np \\ & Var(x)=np(1-p) \end{align*}$

泊松分布是常见的离散概率分布，适合于描述单位时间内随机事件的发生次数，记作 $x \sim \pi(\lambda)$ ， $\lambda$ 是单位时间内随机事件的平均发生次数。

$\begin{align*} & P(x=k)=\frac{\lambda^ke^{-\lambda}}{k!} \\ & E(x)=\lambda \\ & Var(x)=\lambda \end{align*}$

均匀分布表示在一段连续的范围内概率密度处处相等，记作 $x \sim U(a,b)$ 。

$\begin{align*} & f(x)=\frac{1}{b-a}\ \ a<x<b \\ & E(x)=\frac{a+b}{2} \\ & Var(x)=\frac{(b-a)^2}{12} \end{align*}$

指数分布表示概率密度呈指数分布。

$\begin{align*} & f(x)=\frac{1}{\theta} e^{-\frac{x}{\theta}}\ \ x>0 \\ & E(x)=\theta \\ & Var(x)=\theta^2 \end{align*}$

高斯分布（Gaussian distribution），也称作正态分布，是最常用的分布，记作 $x \sim N(\mu,\sigma^2)$ 。

$\begin{align*} & f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) \\ & E(x)=\mu \\ & Var(x)=\sigma^2 \end{align*}$

当 $\mu=0\ \sigma=1$ 时，高斯分布称为标准正态分布。

多维正态分布，参数 $\Sigma$ 表示分布的协方差矩阵。

$N(x;\mu,\Sigma)=\frac{1}{\sqrt{(2\pi)^n\det(\Sigma)}}\exp(-\frac{(x-\mu)^T\Sigma^{-1}(x-\mu)}{2})$

拉普拉斯分布（Laplace distribution）可以在任意一点设置概率的峰值。

$Laplace(x;\mu,\gamma)=\frac{1}{2\gamma}\exp(-\frac{\left|x-\mu\right|}{\gamma})$

狄拉克delta函数（Dirac delta function）的定义为：

$p(x)=\delta(x-\mu)$

狄拉克分布经常作为经验分布的一个组成部分出现：

$\hat{p}(x)=\frac{1}{m}\sum_{i=1}^m\delta(x-x^{(i)})$

常用函数

logistic sigmoid 函数，取值范围 $(0,1)$ ：

$\sigma(x)=\frac{1}{1+e^{-x}}$

softplus函数，取值范围 $(0,\infty)$ ，是 ReLu 函数的平滑形式：

$\zeta (x) =\log(1+e^x)$

sigmoid 函数和 softplus 函数之间的常用性质：

$\begin{align*} & \sigma(x)=\frac{e^x}{e^x+e^0} \\ & \frac{\mathrm{d} }{\mathrm{d} x}\sigma(x)=\sigma(x)(1-\sigma(x)) \\ & 1-\sigma(x)=\sigma(-x) \\ & \log\sigma(x)=-\zeta(-x) \\ & \frac{\mathrm{d}}{\mathrm{d} x}\zeta(x)=\sigma(x) \\ & \forall x\in (0,1),\ \sigma^{-1}(x)=\log(\frac{x}{1-x}) \\ & \forall x>0,\ \zeta^{-1}(x)=\log(e^x-1) \\ & \zeta(x)=\int_{-\infty}^{x}\sigma(y)dy \\ & \zeta(x)-\zeta(-x)=x \end{align*}$

正部函数是指 $x^{+}=\max(0,x)$ ，负部函数是指 $x^{-}=\max(0,-x)$ 。

贝叶斯规则

贝叶斯规则用于计算条件概率：

$P(x\mid y)=\frac{P(y\mid x)P(x)}{P(y)}=\frac{P(y\mid x)P(x)}{\sum_xP(y\mid x)P(x)}$

信息论基础

信息论的基本思想是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息。

一个事件 $\textup{x}=x$ 的自信息表示为：

$I(x)=-\log P(x)$

香农熵（Shannon entropy）表示整个概率分布中的不确定性总量，指事件所产生的期望信息总量：

$H(x)=E_{x\sim P}[I(x)]=-E_{x\sim P}[\log P(x)]$

当 $x$ 是连续的，香农熵被称为微分熵（differential entropy）。

接近确定性分布具有较低的香农熵，接近均匀分布具有较高的香农熵。

同一个随机变量 $x$ 的两个单独的概率分布 $P(x)$ 和 $Q(x)$ ，可以使用 KL 散度来衡量分布的差异性：

$D_{KL}(P\mid \mid Q)=E_{x\sim P}[\log \frac{P(x)}{Q(x)}]=E_{x\sim P}[\log P(x)-\log Q(x)]$

KL 散度衡量的是，当我们使用一种被设计成能够使概率分布 $Q$ 产生的消息的长度最小的编码，发送包含概率分布 $P$ 产生的符号的消息时，所需要的额外信息量。

与 KL 散度密切联系的量是交叉熵：

$H(P,Q)=H(P)+D_{KL}(P\mid \mid Q)=-E_{x\sim P}\log Q(x)$

在信息论中，定义 $\lim_{x\rightarrow 0}x\log x=0$ 。

结构化概率模型

使用图来表示概率分布的分解，每个结点对应一个随机变量，每条边对应两个结点的概率分布。

有向模型对于分布的每一个随机变量，都包含一个父节点 $PaG(x_i)$ 的条件概率影响因子：

$p(x)=\prod_i p(x_i\mid PaG(x_i))$

例如下图，对应概率分布可分解为 $p(a,b,c,d,e)=p(a)p(b\mid a)p(c\mid a,b)p(d\mid b)p(e\mid c)$ ：

无向模型将分解表示成一组函数，两两之间有边连接的顶点称为团 $C^{(i)}$ ，每个团都有一个因子 $\phi^{(i)}(C^{(i)})$ ：

$p(x)=\frac{1}{Z}\prod_i \phi^{(i)}(C^{(i)})$

其中， $Z$ 为归一化常数，通常是所有状态的求和或积分。

例如下图，对应概率分布可分解为 $p(a,b,c,d,e)=\frac{1}{Z}\phi^{(1)}(a,b,c)\phi^2(b,d)\phi^3(c,e)$ ：

如果这篇文章对你有一点小小的帮助，请给个关注喔~我会非常开心的~

概率论信息论基础（随机变量、常用概率分布、贝叶斯规则、信息论基础、结构化概率模型）相关推荐

机器学习实战之基于概率论的分类方法：朴素贝叶斯
基于概率论的分类方法:朴素贝叶斯引入 1 基于贝叶斯决策理论的分类方法 1.1 条件概率 1.2 使用条件概率来分类 1.3 使用朴素贝叶斯进行文档分类 2 使用Python进行文本分类 2.1 准 ...
Machine Learning in Action 读书笔记---第4章基于概率论的分类方法：朴素贝叶斯
Machine Learning in Action 读书笔记第4章基于概率论的分类方法:朴素贝叶斯文章目录 Machine Learning in Action 读书笔记一.基于贝叶斯决策理 ...
概率论的学习整理5：贝叶斯（bayes）法则和贝叶斯概率
1 贝叶斯(bayes)概率的思考过程我觉得,bayes公式需要先理解条件概率,全概率公式才行纯从bayes公式的角度,其实是从条件概率P(B | A) 开始,推导到联合概率P(AB) / P( ...
优达学城数据分析师纳米学位——P5项目知识点整理贝叶斯规则
关键词: 条件概率(conditional probabilities), 贝叶斯规则(Baye's rules),全概率(Total probability Theorem) 参考资料: MOOC学 ...
花书+吴恩达深度学习（二三）结构化概率模型（贝叶斯网络、马尔可夫随机场）
文章目录 0. 前言 1. 有向模型 2. 无向模型 3. 因子图 4. 分离和d-分离 5. 从图模型中采样如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 花书+吴恩达深 ...
机器学习：用于恶意软件检测和分类的朴素贝叶斯规则
本文转载自:https://resources.infosecinstitute.com/machine-learning-naive-bayes-rule-for-malware-detection ...
推断（inference）、贝叶斯规则（Bayes's rule）与导出分布（derived distribution）
1. 建模对原始信号 X 进行观测,观测可以抽象为(离散:PY|X(y|x), 连续:fY|X(y|x)),物理世界噪声的存在,将导致观测到的 X 出现一定的噪声,记为 Y: X⇒fY|X(y|x) ...
基于概率论的分类方法：朴素贝叶斯及CSDN_RSS源分析
本文所有代码都是基于python3.6的,数据及源码下载:传送门引言最简单的解决方法通常是最强大的,朴素贝叶斯呢就是一个很好的证明.尽管在过去的几年里机器学习取得了巨大的进步,各种优秀算法层出不穷 ...
人工智能基础-机器学习3-朴素贝叶斯方法
机器学习中的线性回归算法,这一算法解决的是从连续取值的输入映射为连续取值的输出的回归问题.今天我分享的算法则用于解决分类问题,即将连续取值的输入映射为离散取值的输出,算法的名字叫作"朴素贝叶 ...

概率论信息论基础（随机变量、常用概率分布、贝叶斯规则、信息论基础、结构化概率模型）

目录