《Deep Learning (Ian Goodfellow)》概率与信息论

概率与信息论

1. 部分数学概念

频率派（frequentist）
- 频率学派从「自然」角度出发，试图直接为「事件」本身建模。
- 频率派发展出来的模型，一般来说叫做统计机器学习，实际上是一个优化问题：
1. 设计模型（概率模型、非概率模型、判别模型等）
2. 设计一个损失函数（loss function）
3. 具体的算法（algorithm）（梯度下降、牛顿法等）
贝叶斯派（Bayesian）
- 贝叶斯学派并不从试图刻画「事件」本身，而从「观察者」角度出发，为「观察者」的知识建模来定义「概率」这个概念。
- 贝叶斯发展出来的模型就是概率图模型，本质上就是求积分的问题，解析解求不出来一般就用数值积分（蒙特卡罗MCMC）的方法来求积分
- 贝叶斯规则（Bayes’s rule）
  P(θ∣X)=P(X∣θ)⋅P(θ)P(X)P(\theta \mid X)=\frac{P(X \mid \theta) \cdot P(\theta)}{P(X) } P(θ∣X)=P(X)P(X∣θ)⋅P(θ)（XXX是数据，θ\thetaθ是参数）
  （对应的可以看成：后验概率=极大似然估计*先验概率/常数）
- 极大似然估计（MLE）：
  θMLE=argmax⁡θlog⁡P(X∣θ)\theta_{\text {MLE}}=\underset{\theta}{\operatorname{argmax}} \ {\log P(X \mid \theta)} θMLE=θargmax logP(X∣θ)
- 最大后验估计（MAP）：
  θMAP=argmax⁡θP(θ∣X)=argmax⁡θP(X∣θ)⋅P(θ)\theta_{\text {MAP}}=\underset{\theta}{\operatorname{argmax}}\ P(\theta \mid X)=\underset{\theta}{\operatorname{argmax}} \ P(X \mid \theta) \cdot P(\theta) θMAP=θargmax P(θ∣X)=θargmax P(X∣θ)⋅P(θ)（因为分母项与θ\thetaθ无关）
- 贝叶斯预测：
  p(x∣X)=∫θp(x,θ∣X)dθ=∫θp(x∣θ)p(θ∣X)dθ\begin{aligned} p(x \mid X)&= \int_{\theta} p(x, \theta \mid X) d \theta\\ & =\int_{\theta} p(x \mid \theta) p(\theta \mid X) d \theta \end{aligned} p(x∣X)=∫θp(x,θ∣X)dθ=∫θp(x∣θ)p(θ∣X)dθ（xxx新的样本，也就是要预测的样本）
  （把XXX和xxx的直接关系解构成XXX和θ\thetaθ,θ\thetaθ和xxx的关系）
高斯分布（Gaussian distribution）
- 实数上最常用的分布就是正态分布（normal distribution），也称为高斯分布：N(x;μ,σ2)=12πσ2exp⁡(−12σ2(x−μ)2)\mathcal{N}\left(x ; \mu, \sigma^{2}\right)=\sqrt{\frac{1}{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right) N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
- 正态分布可以推广到Rn\mathbb{R}^{n}Rn空间，这种情况下被称为多维正态分布（multivariate normal distribution）:N(x;μ,Σ)=1(2π)ndet⁡(Σ)exp⁡(−12(x−μ)⊤Σ−1(x−μ))\mathcal{N}(x ; \mu, \Sigma)=\sqrt{\frac{1}{(2 \pi)^{n} \operatorname{det}(\Sigma)}} \exp \left(-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right) N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ)⊤Σ−1(x−μ))（参数是一个正定对称矩阵Σ\SigmaΣ）
待补充。。。
看了个大概，没有系统性的学习，后续遇到再来补充，最懒康氏懒狗快速学习法（AnoI）。

《Deep Learning (Ian Goodfellow)》概率与信息论相关推荐

Deep Learning (Ian Goodfellow, Yoshua Bengio and Aaron Courville) 阅读笔记
Ian Goodfellow, Yoshua Bengio and Aaron Courville 合著的<Deep Learning> 终于写完了,并且放在网上可以在线免费阅读.网址:h ...
Deep Learning ---Ian Goodfellow
Stochastic gradient algorithm(SGA): 随机梯度下降算法. https://blog.csdn.net/kwame211/article/details/8036407 ...
《Deep Learning (Ian Goodfellow)》机器学习基础
机器学习基础 1. 学习算法任务分类.输入缺失分类.回归.转录.机器翻译.结构化输出.异常检测.合成和采样.缺失值填补.去噪.密度估计或概率质量函数估计经验根据学习过程中的不同经验,机器学习算 ...
《Deep Learning (Ian Goodfellow)》线性代数
线性代数 1. 部分数学概念张量(tensor) 一个数组中的元素分布在若干维坐标的规则网格中,称之为张量. 生成子空间(span) 一组向量的生成子空间是原始向量线性组合后所能抵达的点的集合. 范 ...
《Deep Learning (Ian Goodfellow)》深度模型的优化
深度模型的优化 ==> 参考文章:梯度下降的可视化解释 1. 梯度下降求解的优化器动量(momentum) 动量借助了物理思想,在物理学上定义为质量乘以速度.想象一下在碗里滚动一个球,不会在底 ...
Deep Learning (Ian Goodfellow, Yoshua Bengio and Aaron Courville)深度学习中英文版本资源
转自 -博客园的zivon:https://www.cnblogs.com/zivon/p/9106966.html 看到CSDN上下载需要10个.20个积分,觉得有点贵并没有下载.然后查了一圈,发现 ...
(转) Deep Learning Resources
转自:http://www.jeremydjacksonphd.com/category/deep-learning/ Deep Learning Resources Posted on May 13 ...
Ian Goodfellow《Deep Learning》读书笔记
Ian Goodfellow<Deep Learning>读书笔记感觉大学快毕业了才开始做一些有用的事情,就当是个小学生吧,由于毕业设计和复试的需要,开始着手一些人工智能方面的内容,毕业 ...
Deep Learning（Ian Goodfellow） — Chapter1 Introduction
Deep Learning是大神Ian GoodFellow, Yoshua Bengio 和 Aaron Courville合著的深度学习的武功秘籍,涵盖深度学习各个领域,从基础到前沿研究.因为封面 ...

《Deep Learning (Ian Goodfellow)》概率与信息论

概率与信息论

1. 部分数学概念

《Deep Learning (Ian Goodfellow)》概率与信息论相关推荐

最新文章

热门文章