《deep learning》学习笔记（3）—

欢迎大家关注我的公众号【老周聊架构】，Java后端主流技术栈的原理、源码分析、架构以及各种互联网高并发、高性能、高可用的解决方案。

3.1 为什么要使用概率

概率法则告诉我们AI系统如何推理，据此我们设计一些算法来计算或者估算有概率论导出的表达式。（比如：神经网络的输出是概率的形式）
我们可以用概率和统计从理论上分析我们提出的AI系统的行为。（渗透在神经网络训练的方方面面）

3.2 随机变量

随机变量是可以随机地取不同值的变量。
随机变量可以是离散的或连续的。

3.3 概率分布

概率分布（probability distribution）用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。对于离散型的概率分布，称为概率质量函数(Probability Mass Function, PMF)，对于连续性的变量，其概率分布叫做概率密度函数(Probability Density Function, PDF)。
联合概率分布：两个或两个以上随机随机变量联合地概率分布情况。

3.4 边缘概率

有时候，我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution)。
对应于离散型型变量和连续型变量分别有一下两个求边缘概率的公式：

3.5 条件概率

条件概率: 在给定某个事件后，其他事件发生的概率，例如在已知今天多云的条件下下雨的概率就是条件概率有，在随机变量X=x的条件下 Y=y的条件概率为：

3.6 条件概率的链式法则

3.7 独立性和条件独立性

两个随机变量x和y，如果他们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含x和另一个因子只包含y，我们就成这两个随机变量是相互独立的。
就是说，相互独立的随机变量们的联合分布概率，等于他们概率分布的乘积。
如果关于x和y的条件概率分布对于z的每一个值都可以写成乘积的形式，那么这两个随机变量x和y在给定随机变量z时是条件独立的(conditionally independent)：

3.8 期望、方差和协方差

期望
（1）.对于离散型随机变量

（2）.对于连续性随机变量
方差
衡量的是当我们对x依据它的概率分布进行采样时，随机变量x的函数值会呈现多大的差异：

当方差很小时，f(x)的值形成的簇比较接近它们的期望值。方差的平方根被称为标准差（standard deviation）。

3. 协方差
在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度：

(1).协方差的绝对值如果很大则意味着变量值变化很大并且他们同事距离各自的均值很远。如果协方差是正的，那么其中一个变量倾向于取得相对较大值的同时，另一个变量倾向于取得相对较小的值，反之亦然。其他的衡量指标如相关系数(correlation)将每个变量的贡献归一化，为了只衡量变量的相关性而不受每个变量尺度大小的影响。
(2).协方差和相关性是有联系的，但实际上不同的概念。他们是有联系的，因为两个变量如果相互独立，那么他们的协方差为0，如果两个变量的协方差不为0那么他们一定是相关的。
(3).然而，独立性又是和协方差完全不同的性质。两个变量如果协方差为零，他们之间一定没有线性关系。独立性是比零协方差的要求更强，因为独立性还排除了非线性的关系。

3.9 常用概率分布

伯努利分布（Bernoulli distribution）
是单个二值随机变量的分布是单个二值随机变量的分布
Multinouli分布（或者范畴分布(categorical distribution)）
是指在具有k个不同状态的单个离散性随机变量上的分布，其中k是个有限值。Multinoulli分布由向量p∈[0,1]k-1 参数化，其中没有个分量pi 表示第i个状态的概率。最后的第k个状态的概率可以通过1减去前面的概率和得出。
高斯分布（Gaussian distribution），也称正态分布有两个参数控制。参数 μ给出中心峰值的纵坐标（期望），参数σ表示标准差。

形状如下图：

一、选择正态分布作为默认的原因：
(1).我们想要建模的很多分布的真实情况是比较接近正态分布的。中心极限定理(central limit theorem)说明很多独立随机变量的和近似服从正态分布。这意味着在实际中，很多复杂系统都可以被成功地建模成正态分布的噪声，即使系统可以被分解成一些更结构化的部分。
(2).在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最大的不确定度。因此，我们可以认为正态分布是对模型加入的先验知识量最少的分布。

二、多维正态分布( multivariate normal distribution )。它的参数是一个正定对称矩阵 ∑：

参数μ仍然表示分布的均值向量，只不过现在是向量值。
指数分布（exponential distribution）
拉普拉斯分布（Laplace distribution )

形状如下：
Dirac 分布和经验分布
在一些情况下，我们希望概率分布中的所有质量都集中在一个点上。这可以通过Dirac delta 函数（Dirac delta function）δ(x) 定义概率密度函数来实现：

Dirac delta 函数被定义成在除了 0 以外的所有点的值都为 0，但是积分为 1。Dirac delta 函数不像普通函数一样对 x 的每一个值都有一个实数值的输出，它是一种不同类型的数学对象，被称为广义函数（generalized function），广义函数是依据积分性质定义的数学对象。我们可以把 Dirac delta 函数想成一系列函数的极限点，这一系列函数把除 0 以外的所有点的概率密度越变越小。

Dirac 分布经常作为经验分布（empirical distribution）的一个组成部分出现：

经验分布将概率密度1/m赋给 m 个点 x (1) ,…,x (m) 中的每一个，这些点是给定的数据集或者采样的集合。
分布的混合
通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布（mixture distribution）。混合分布由一些组件 (component) 分布构成。样本是由哪个组件分布产生的取决于从一个Multinoulli 分布中采样的结果：

这里 P© 是对各组件的一个 Multinoulli 分布。
混合模型使我们能够一瞥以后会用到的一个非常重要的概念——潜变量（latent variable）。潜变量是我们不能直接观测到的随机变量。混合模型的组件标识变量 c 就是其中一个例子。潜变量在联合分布中可能和 x 有关，在这种情况下，P(x,c) = P(x | c)P©。潜变量的分布 P© 以及关联潜变量和观测变量的条件分布P(x | c)，共同决定了分布 P(x) 的形状，尽管描述 P(x) 时可能并不需要潜变量。
一个非常强大且常见的混合模型是高斯混合模型（Gaussian Mixture Model），它的组件 p(x | c = i) 是高斯分布。每个组件都有各自的参数，均值 µ (i) 和协方差矩阵 Σ (i) 。

3.10 常用函数的有用性质

logistic sigmoid函数

函数图像：
线性整流函数(Rectified Linear Unit, ReLU)
softplus函数

3.11 贝叶斯规则

我们经常会需要在已知P(y|x)时计算P(x|y)。幸运的是，如果还知道P(x)，我们可以用贝叶斯规则(Bayes’ rule)来实现：

其中，

3.12 连续型变量的技术细节

某个性质如果是几乎处处都成立的，那么它在整个空间中除了一个测度为零的集合以外都是成立的。

3.13 信息论

信息论的基本想法是一个不太可能的事情居然发生了，要比一个非常可能的事件发生，能提供更多的信息。
事件X=x的自信息(self-information)为：

（对数的底取不同的值时，信息量的单位不同）
自信息只处理单个的输出。我们可以用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化：
如果我们对于同一个随机变量X有两个单独的概率分布P(x)和Q(x)，我们可以使用KL散度来衡量这两个分布的差异。

(1).在离散型变量的情况下，KL散度衡量的是，当我们使用一种被设计成能够使得概率分布Q产生的消息的长度最小的编码，发送包含有概率分布P产生的符号消息时，所需要的额外信息量。
(2).KL散度最重要的是他的非负性。KL散度为0当且仅当P和Q在离散型变量的情况下是同分布，或在连续型变量的情况下几乎处处相同。
(3).因为KL散度是非负的并且衡量的是两个分布之间的差异，踏进常被用作分布之间的某种距离。然而，他并不是真的距离因为他不是对称的.
(4).一个和KL散度密切联系的量是交叉熵(cross-entropy)H(P, Q) = H§ + DKL(P||Q)。

3.14 结构化概率模型

概率图模型: 通过图的概念来表示随机变量之间的概率依赖关系：