《Deep Learning (Ian Goodfellow)》概率与信息论
概率与信息论
1. 部分数学概念
频率派(frequentist)
频率学派从「自然」角度出发,试图直接为「事件」本身建模。
频率派发展出来的模型,一般来说叫做统计机器学习,实际上是一个优化问题:
- 设计模型(概率模型、非概率模型、判别模型等)
- 设计一个损失函数(loss function)
- 具体的算法(algorithm)(梯度下降、牛顿法等)
贝叶斯派(Bayesian)
贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发,为「观察者」的知识建模来定义「概率」这个概念。
贝叶斯发展出来的模型就是概率图模型,本质上就是求积分的问题,解析解求不出来一般就用数值积分(蒙特卡罗MCMC)的方法来求积分
贝叶斯规则(Bayes’s rule)
P(θ∣X)=P(X∣θ)⋅P(θ)P(X)P(\theta \mid X)=\frac{P(X \mid \theta) \cdot P(\theta)}{P(X) } P(θ∣X)=P(X)P(X∣θ)⋅P(θ)(XXX是数据,θ\thetaθ是参数)
(对应的可以看成:后验概率=极大似然估计*先验概率/常数)极大似然估计(MLE):
θMLE=argmaxθlogP(X∣θ)\theta_{\text {MLE}}=\underset{\theta}{\operatorname{argmax}} \ {\log P(X \mid \theta)} θMLE=θargmax logP(X∣θ)最大后验估计(MAP):
θMAP=argmaxθP(θ∣X)=argmaxθP(X∣θ)⋅P(θ)\theta_{\text {MAP}}=\underset{\theta}{\operatorname{argmax}}\ P(\theta \mid X)=\underset{\theta}{\operatorname{argmax}} \ P(X \mid \theta) \cdot P(\theta) θMAP=θargmax P(θ∣X)=θargmax P(X∣θ)⋅P(θ)(因为分母项与θ\thetaθ无关)贝叶斯预测:
p(x∣X)=∫θp(x,θ∣X)dθ=∫θp(x∣θ)p(θ∣X)dθ\begin{aligned} p(x \mid X)&= \int_{\theta} p(x, \theta \mid X) d \theta\\ & =\int_{\theta} p(x \mid \theta) p(\theta \mid X) d \theta \end{aligned} p(x∣X)=∫θp(x,θ∣X)dθ=∫θp(x∣θ)p(θ∣X)dθ(xxx新的样本,也就是要预测的样本)
(把XXX和xxx的直接关系解构成XXX和θ\thetaθ,θ\thetaθ和xxx的关系)
高斯分布(Gaussian distribution)
- 实数上最常用的分布就是正态分布(normal distribution),也称为高斯分布:N(x;μ,σ2)=12πσ2exp(−12σ2(x−μ)2)\mathcal{N}\left(x ; \mu, \sigma^{2}\right)=\sqrt{\frac{1}{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right) N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
- 正态分布可以推广到Rn\mathbb{R}^{n}Rn空间,这种情况下被称为多维正态分布(multivariate normal distribution):N(x;μ,Σ)=1(2π)ndet(Σ)exp(−12(x−μ)⊤Σ−1(x−μ))\mathcal{N}(x ; \mu, \Sigma)=\sqrt{\frac{1}{(2 \pi)^{n} \operatorname{det}(\Sigma)}} \exp \left(-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right) N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ)⊤Σ−1(x−μ))(参数是一个正定对称矩阵Σ\SigmaΣ)
待补充。。。
看了个大概,没有系统性的学习,后续遇到再来补充,最懒康氏懒狗快速学习法(AnoI)。
《Deep Learning (Ian Goodfellow)》概率与信息论相关推荐
- Deep Learning (Ian Goodfellow, Yoshua Bengio and Aaron Courville) 阅读笔记
Ian Goodfellow, Yoshua Bengio and Aaron Courville 合著的<Deep Learning> 终于写完了,并且放在网上可以在线免费阅读.网址:h ...
- Deep Learning ---Ian Goodfellow
Stochastic gradient algorithm(SGA): 随机梯度下降算法. https://blog.csdn.net/kwame211/article/details/8036407 ...
- 《Deep Learning (Ian Goodfellow)》机器学习基础
机器学习基础 1. 学习算法 任务 分类.输入缺失分类.回归.转录.机器翻译.结构化输出.异常检测.合成和采样.缺失值填补.去噪.密度估计或概率质量函数估计 经验 根据学习过程中的不同经验,机器学习算 ...
- 《Deep Learning (Ian Goodfellow)》线性代数
线性代数 1. 部分数学概念 张量(tensor) 一个数组中的元素分布在若干维坐标的规则网格中,称之为张量. 生成子空间(span) 一组向量的生成子空间是原始向量线性组合后所能抵达的点的集合. 范 ...
- 《Deep Learning (Ian Goodfellow)》深度模型的优化
深度模型的优化 ==> 参考文章:梯度下降的可视化解释 1. 梯度下降求解的优化器 动量(momentum) 动量借助了物理思想,在物理学上定义为质量乘以速度.想象一下在碗里滚动一个球,不会在底 ...
- Deep Learning (Ian Goodfellow, Yoshua Bengio and Aaron Courville)深度学习中英文版本资源
转自 -博客园的zivon:https://www.cnblogs.com/zivon/p/9106966.html 看到CSDN上下载需要10个.20个积分,觉得有点贵并没有下载.然后查了一圈,发现 ...
- (转) Deep Learning Resources
转自:http://www.jeremydjacksonphd.com/category/deep-learning/ Deep Learning Resources Posted on May 13 ...
- Ian Goodfellow《Deep Learning》读书笔记
Ian Goodfellow<Deep Learning>读书笔记 感觉大学快毕业了才开始做一些有用的事情,就当是个小学生吧,由于毕业设计和复试的需要,开始着手一些人工智能方面的内容,毕业 ...
- Deep Learning(Ian Goodfellow) — Chapter1 Introduction
Deep Learning是大神Ian GoodFellow, Yoshua Bengio 和 Aaron Courville合著的深度学习的武功秘籍,涵盖深度学习各个领域,从基础到前沿研究.因为封面 ...
最新文章
- python 中使用ElementTree操作XML
- Java中传值与传地址
- POJ 2492 A Bug's Life 带权并查集
- leetcode 125. 验证回文串
- 关于当一个C#工程移植到另一台机子上(win7)上时,程序报错。dll没有被指定在Windows上运行,或者它包含错误。请尝试使用原始安装媒体重新安装程序。。。。。。...
- 计算星期c语言编码,[转载]计算任何一天是星期几的C语言源代码.
- mac mysql my.cnf_mac 增加 my.cnf
- 大数据学情分析_多分学情大数据分析
- [译] Grid 布局完全指南
- IDC分析报告:亚洲安全软件市场兴旺
- for循环语句例题及解析python_Python入门第8课,for语句综合练习,突破循环累加难点...
- Linux执行source /etc/profile报错“:command not found”
- Flask模板操作一:基本使用
- 快速搭建一个前端模板
- <笠翁对韵>全文及译文(上卷)
- 【转】关于在.Net开发中使用Sqlite的版本选择问题
- 基于灰度投影法的图片偏移测量
- 小知识系列(3):Hanoi塔(汉诺塔,河内塔)
- Android开发-蓝牙遥控器(字符串形式发送)-应用例程
- mne-python 安装大法