深度学习（花书）–概率与信息论

基本概念

随机变量：可以随机地取不同值的变量。
- 离散：
  - 拥有有限或者可数的无限状态
- 连续：伴随着实数值
概率分布：用来描述随机变量或一簇变量在每一个可能取值的状态的可能性的大小。
- 概率质量函数(probability mass function, PMF)用来描述离散变量的概率分布
- 概率质量函数用于多种随机变量，被称为联合概率分布(joint probability distribution)
- 概率密度函数(probability density function, PDF) 用来描述连续随机变量
- 边缘概率：一组变量联合概率分布的子集
  对于联合概率分布 P(x,y)P(x,y)P(x,y)，可以采用求和法则计算P(X)P(X)P(X)：
  对于离散型随机变量：
  ∀x∈X,P(x=X)=∑yP(X=x,Y=y)\forall x \in X, P(x=X)=\sum_yP(X=x,Y=y)∀x∈X,P(x=X)=∑yP(X=x,Y=y)
  对于连续性随机变量：
  p(x)=∫p(x,y)dyp(x)=\int p(x,y)dyp(x)=∫p(x,y)dy
- 条件概率
- 在给定其他事件发生时，某事件发生的概率。对于x，y, 对X=x Y=y 发生的条件概率记为 P(Y=y∣X=x)P(Y=y|X=x)P(Y=y∣X=x)，通过如下公式计算：
  P(Y=y∣X=x)=P(X=x,Y=y)P(X=x)P(Y=y|X=x)=\frac{P(X=x,Y=y)}{P(X=x)}P(Y=y∣X=x)=P(X=x)P(X=x,Y=y)
  计算一个行为后果的称为干预查询(intervention query)，属于因果模型(causal model)
- 条件概率的链式法则
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YfXTpIzg-1605351828035)(en-resource://database/2479:1)]
- 独立性和条件独立性
- 对于两个随机变量x、y，如果他们的概率分布可以表示成两个因子的乘积形式，而且一个因子只包含x另一个只包含y，就称这两个随机变量相互独立(independent)
  /forallx∈X,y∈Y,p(X=x,Y=y)=p(X=x)p(Y=y)/forall x \in X, y \in Y, p(X=x,Y=y)=p(X=x)p(Y=y)/forallx∈X,y∈Y,p(X=x,Y=y)=p(X=x)p(Y=y)
  两个随机变量x、y在给定随即变量z是条件独立(conditionally indepen)
- 期望、方差和协方差
- 概念：函数发f(x)关于某分布P(x)的期望(expectation)或者期望值(expected value)是指，当x由P产生时，f作用于x的平均值。
  期望是线性的，例如：
  Ex[αf(x)+βg(x)]=αEx[f(x)]+βEx[g(x)]E_x [\alpha f(x) + \beta g(x)]=\alpha E_x[f(x)]+\beta E_x[g(x)]Ex[αf(x)+βg(x)]=αEx[f(x)]+βEx[g(x)]
  方差：衡量的x依照其概率分布进行采样时，随机变量x的函数值会呈现出多大的差异：
  Var(f(x))=E[(f(x)−E[f(x)])2]Var(f(x))=E[{(f(x)-E[f(x)])}^2]Var(f(x))=E[(f(x)−E[f(x)])2]
  当方差很小时，f(x)的值的形成簇比较接近他们的期望值，方差的平方根被称为标准差
  协方差:在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度
  Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]
  协方差的绝对值如果很大，则意味着变量值变化很大并且他们同时距离各自的均值很远。相关系数将每个变量的贡献归一化，为了只衡量变量的相关性，而不受变量大小的分别影响。
  协方差和相关性是有联系的，相互独立的变量协方差为零，如果两个变量的协方差不为零，那么他们一定是相关的。
  随机向量x∈Rnx \in R^nx∈Rn的协方差矩阵（covariance matrix）是一个n×nn \times nn×n的矩阵，并且满足
  Cov(x)i,j=Cob(xi,xj){Cov(x)}_{i,j} = Cob(x_i , x_j)Cov(x)i,j=Cob(xi,xj)
  协方差矩阵的对角元素是方差
常见概率分布
Bernoulli分布：单个二值随机变量的分布，它由单个参数 $
\emptyset \in [0,1]控制，控制，控制，
\emptyset$给出了随机变量等于1的概率
Multinoulli分布（分类分布）：是指在具有k个不同状态的单个离散型随机变量的分布，k是有限的。
高斯分布（normal distribution）称为高斯分布：
N(x;μ,σ2)=12πσ2exp(−12σ2(x−μ)2)N(x;\mu, {\sigma}^2)=\sqrt{{\frac{1}{2\pi{\sigma}^2}}}exp(-\frac{1}{2{\sigma}^2}{(x-\mu)}^2)N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
正态分布被两个参数控制，μ∈R\mu \in Rμ∈R和 σ∈(0,∞)\sigma \in (0,\infty)σ∈(0,∞)，前一个参数是分布均值，给出中心峰值坐标，第二个参数表示分布的标准误差，其平方为分布方差。
当不了解数据集分布时，优先选择正态分布作为先验知识。
选择正态分布分原因：
- 1.很多独立随机变量的和近似服从正态分布
- 2.在具有想用方差的所有可能的概率分布中，正态分布在实数上具有最大的不期而定性。**即：**正态分布是对模型加入先验知识最少的分布。
指数分布和Laplace分布
指数分布：在 x=0 点处取得边界点的分布
p(x;λ)=λ1x≥0exp(−λx)p(x;\lambda)=\lambda1_{x \geq0}exp(-\lambda x)p(x;λ)=λ1x≥0exp(−λx)
指数分布中 x取负值的概率为零
Laplace分布将这种边界点扩展，允许在任意一点 μ\muμ设置概率分布的峰值
Laplace(x;μ,γ)=12γexp(−∣x−μ∣μ)Laplace(x;\mu,\gamma)=\frac{1}{2\gamma}exp(-\frac{ \lvert x- \mu \lvert}{\mu})Laplace(x;μ,γ)=2γ1exp(−μ∣x−μ∣)
分布的混和
通过组合一些简单的概率分布来定义新的概率分布的方法，称为构造混合分布(mixture distribution)，混和分布由一些组件（component）分布构成。每次实验，样本是由那个组件分布产生的取决于从一个Multinoulli分布中采样的过程：
P(x)=∑iP(c=i)P(x∣c=i)P(x)=\sum_i P(c=i )P(x\mid c=i)P(x)=∑iP(c=i)P(x∣c=i)
混合模型是组合简单概率分布来生成更丰富分布的一种简单策略。
- eg：高斯混合模型(gaussian mixtrue model)，它的组件p(x∣c=i)p(x \mid c=i)p(x∣c=i)是告诉分布，每个组件都有自己的参数，即各自的均值和协方差矩阵。
  高斯混和模型的参数指明了给每个组件 i的先验概率(prior probability) αi=P(c=i)\alpha_i =P(c=i)αi=P(c=i)，表明了观测到x之前传递给模型关于c的信念。P(c∣x)P(c \mid x)P(c∣x)是后验概率，在观察到x之后进行计算，其中c为潜变量。
常用函数
logistic sigmoid函数：
α(x)=11+exp(−x)\alpha (x) = \frac{1}{1+exp(-x)}α(x)=1+exp(−x)1
logistic sigmoid函数通常用来产生Bernoulli分布中的参数 ϕ\phiϕ通常由sigmoid函数产生。sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和（saturate）现象，对微笑改变得不敏感
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LM6tnHua-1605351828039)(en-resource://database/2493:1)]
另一个函数时softplus函数（softplus function）
ζ(x)=log(1+exp(x))\zeta(x)=log(1+exp(x))ζ(x)=log(1+exp(x))
softplus函数可以用来产生正态分布 β\betaβ和α\alphaα 参数，因其范围是(0,∞)(0,\infty)(0,∞), 另一个函数平滑形式：
x+=max(0,x)x^+=max(0,x)x+=max(0,x)
贝叶斯规则
- 在已知P(y∣x)P(y|x)P(y∣x)时计算P(x∣y)P(x|y)P(x∣y)，同时知道P(x)，可以使用贝叶斯规则(Bayes rule)来实现这一目的：
  P(x∣y)=P(x)P(x∣y)P(y)P(x|y)=\frac{P(x)P(x|y)}{P(y)}P(x∣y)=P(y)P(x)P(x∣y)
  P(y)使用 P(y)=∑xP(y∣x)P(x)P(y)=\sum_xP(y|x)P(x)P(y)=∑xP(y∣x)P(x)来计算
连续性变量的技术细节
- 假设两个变量x、y满足 y=g(x)，其中个时可逆的连续可微函数，则存在如下等式，描述为 x落在无穷下的体积为δx\delta xδx的区域内的概率为p(x)δxp(x)\delta xp(x)δx，因为g可能会扩展或者压缩空间，在x空间内包围x的无穷小体积可能与y空间中有不同的体积，若体积相同则：
- ∣py(g(x))dy∣\lvert p_y (g(x))dy \lvert∣py(g(x))dy∣=∣px(x)dx∣\lvert p_x(x)dx\lvert∣px(x)dx∣
- 求解上式：
  px(x)=py(g(x))∣∂g(x)∂xp_x (x)=p_y (g(x))\lvert\frac{{\partial}g(x)}{\partial x}px(x)=py(g(x))∣∂x∂g(x)
  在高维空间中，微分运算可以扩展为Jacobi矩阵的行列式：
  px(x)=py(g(x))∣det(∂g(x)∂x)p_x (x)=p_y (g(x))\lvert det(\frac{{\partial}g(x)}{\partial x})px(x)=py(g(x))∣det(∂x∂g(x))
信息论
- 主要研究一个信号能够通过提供信息的多少来进行量化
- 一个事件的自信息（self-information）为：
  I(x)=−logP(x)I(x)=-logP(x)I(x)=−logP(x)
  单位为奈特（nats），以e为底，表示观测到一个事件时获得的信息量。log以2为底的时候，单位时比特或者香农。
  香农熵：对整个概率分布中的不确定性总量进行量化：
  H(x)=Exp[I(x)]=−Exp[logP(x)]H(x)=E_{x~p}[I(x)]=-E_{x~p}[logP(x)]H(x)=Ex p[I(x)]=−Ex p[logP(x)]
  一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。接近均匀分布的概率分布具有较高的熵，接近确定性的分布具有较低的熵，当x是连续的，香农熵被称为微分熵。
  若：对于同一随机变量x有两个单独的概率分布P(x)和Q(x)，可以使用KL散度来衡量两个分布的差异：
  DKL(P∥Q)=Exp[logP(x)−logQ(x)]D_{KL}(P \lVert Q)=E_{x~p}[logP(x)-logQ(x)]DKL(P∥Q)=Ex p[logP(x)−logQ(x)]
  性质：KL三度是非负的，KL散度为0时，当且仅当P和Q的离散型变量的情况下是相同分布，或者在连续变量的情况下几乎处处相同。
结构化概率分布
- 对于多个随机变量上的概率分布，可以将其分割成许多因子的乘积形式。可以把全部三个变量的概率分布重新表示为两个变量的概率分布的连乘形式
  p(a,b,c)=p(a)p(b∣a)p(c∣b)p(a,b,c)=p(a)p(b \lvert a)p(c \lvert b)p(a,b,c)=p(a)p(b∣a)p(c∣b)
  使用图论中的知识来进行银子分布的分解，将每一个因子分布分解，使其具有更少的变量，称之为结构化概率模型或者图模型
  有两种主要的结构话概率模型：
  有向和无向
  途中的每个节点对应着一个随机变量，谅解两个随机变量的边意味着概率分布可以表示成两个随机变量之间的直接作用。
  **有向：**有向模型对于分布中的每一个随机变量xi都包含着一个影响因子，这个组成xi条件概率的影响因子被称为xi的双亲，记为Pag(xi)P_{ag(x_i)}Pag(xi)
  p(x)=∏ip(xi∣Pag(xi))p(x)=\prod_i p(x_i \lvert P_{ag(x_i)})p(x)=∏ip(xi∣Pag(xi))
无向：带有无向边的图，将因子分解表示成一堆函数，这些函数不是任何类型的概率分布。G中全部相连的节点构成的集合称为团。无向模型中每个团CiC^iCi都伴随着一个因子 ϕi(Ci)\phi^i(C^i)ϕi(Ci)，这些因子是函数而不是概率分布，每个因子的输出必须是非负的。
随机变量的联合概率和所有这些因子的乘积成比例，即因子值越大可能性越大，归一化常数Z被定义为ϕ\phiϕ函数乘积的所有状态的求和或者积分，概率分布为：
p(x)=1Z∏iϕi(Ci)p(x)=\frac{1}{Z}\prod_i \phi^i (C^i)p(x)=Z1∏iϕi(Ci)

深度学习（花书）--概率与信息论相关推荐

深度学习花书学习感悟之第三章概率论
一.概率密度函数说到概率密度函数(probability density function, PDF,后面用简写),肯定是针对连续型变量而言的.对于离散型变量,我们称之为分布律对于概率密度函数,有 ...
深度学习花书学习感悟之第二章线性代数
趁着寒假的闲暇时光,希望能稍加学习. 花书毕竟是深度学习四大名著之一,因此早就想拜读一下.在其中获得的感悟或者学习到的新的内容,希望能够通过博客的形式记录下来.一来是希望能够记录下自己学习的点点滴滴, ...
深度学习花书中的概念——百晓生知识处理库自动抽取
分割后的名词组 ['机器学习(machinelearning)', '逻辑回归(logisticregression)的简单机器学习算法可以决定是否建议剖腹产(Mor-Yosefetal.', '一个 ...
动手学习深度学习花书踩坑01-----FashionMNIST数据集下载失败
在网上看了很多方法,一下让改 mnist.py 里的URL路径,一下让指定本地文件路径的,都没成功,可能是我把文件位置放错了,最后用自己的方法,巧妙地解决了. 1 先执行一遍书中原本的代码,这时候下载 ...
Deep Learning 深度学习花书 Ian Goodfellow 伊恩·古德费洛
免责说明资源仅为学习参考,不可用于商业目的!版权归原作者所有,请在下载后于24小时内删除!谢谢! 链接: https://pan.baidu.com/s/1S8QMCTfgsMm3VYhtg3WcP ...
前方高能！AI 大牛 LeCun 设想下一个新前沿：摈弃深度学习的所有概率技巧，改而掌握不断转变的能量值...
来源:云头条据深度学习界的领军人物Yann LeCun声称,AI的下一个发展阶段可能是摈弃深度学习的所有概率技巧,改而掌握不断转变的能量值. 据说工程师(以及一些科学家,但以工程师为主)早在坐到板凳 ...
爆火的深度学习面试书现可白嫖！GitHub上线2周1.5K Star，之前售价146元
金磊发自凹非寺量子位报道 | 公众号 QbitAI 面试宝典千千万,但这一份,应当是深度学习领域里不容错过的那一个了. 这不,才在arXiv"上架"12天,GitHub就狂 ...
火遍日本 IT 界的深度学习入门书，你读完了吗？
在日本 IT 圈,有一本书的影响力超越了实力派的"花书",长期位列日亚"人工智能"类图书榜首,众多五星好评.也许你有所耳闻,这本书就是<深度学习入门:基于 ...
深度学习日记 2 - 概率论与信息论基础
深度学习日记 2 - 概率论与信息论基础: 1.随机变量(random variable):是可以随机地取不同值的变量.我们通常用打印机体的小写字母来表示随机变量本身,而用脚本字体中的小写字母来表示 ...
基于TensorFlow 2.0的中文深度学习开源书来了！GitHub趋势日榜第一，斩获2K+星
十三发自凹非寺量子位报道 | 公众号 QbitAI TensorFlow 2.0 发布已有一个半月之久,你会用了吗? 近日,一个叫做深度学习开源书的项目在火了.GitHub趋势日榜排名全球第 ...

深度学习（花书）--概率与信息论

深度学习（花书）–概率与信息论

基本概念

深度学习（花书）--概率与信息论相关推荐

最新文章

热门文章