高斯分布

  我们将用整个第2章介绍各种概率分布的研究以及他们的主要属性。但是,这里介绍连续变量最重要的概率分布即正态或高斯分布是比较合适的。在本章的其余部分我们将广泛使用这种分配,实际上贯穿本书的许多地方。
  在一个实值变量x的情况下,高斯分布定义如下:

它由两个参数:μ称为平均值和σ2称为方差控制。方差的平方根σ叫做标准差,方差的倒数(β= 1 /σ2)叫做精度。我们不久将看到这些项的动机。图1.13显示了一个高斯分布。
  从(1.46)的形式我们可以看到高斯分布满足:

另外它也明确地表明高斯分布被归一化,所以

(1.46)满足有效概率密度的两个要求。

我们可以容易的找到高斯分布下x函数的期望。x的平均值如下:

因为参数μ表示x的平均值,它被称作均值。类似的,对于二阶的情况:

从(1.49)和(1.50),得到x的方差:

因此σ2叫做方差。一个分布的最大值叫做它的模式。对高斯来说,它的模式和均值一致。
  我们也对定义在连续变量的D维向量x的高斯分布感兴趣,其形式如下:

其中D维向量μ叫做均值,D ×D矩阵 Σ叫做协方差,|Σ| 表示Σ的行列式。它的性质在2.3节会详细讨论,但在本章我们将简短的使用多元高斯分布。
  现在假设我们有观测X=(x1,,,xn)T的一个数据集,X代表标量x的N个观测值。注意,我们使用打印字体X来区分单个矢量值变量(x1,…,xD)T的观测值,用x表示。我们将假设观测是从均值μ和方差σ2未知的高斯分布中独立抽取出来的,并且我们想从数据集中确定这些参数。从相同分布中独立抽取出的数据点是独立同分布的,通常缩写为i.i.d。我们可以看出,两个独立事件的联合概率由每个事件的边缘概率乘积得到。因为我们的数据集x是独立同分布的,因此,给出μ和σ2,我们可以将数据集的概率写为下面的形式:

当把它看做μ和σ2的函数时,该等式就是高斯分布的似然函数,粗略地图像解释如1.14。

  使用观测数据集来确定概率分布中的参数有一个普遍的标准,即找到最大化似然函数的参数值。这似乎是一个奇怪的标准,因为根据我们前面概率论的讨论,似乎更自然的做法是给定数据最大化参数的概率,而不是给定参数最大化数据的概率。事实上,这两个标准是相关的,我们将在曲线拟合的情况下讨论。
  然而,目前我们应通过最大化似然函数(1.53)来确定高斯中未知参数μ和σ2的值。在实践中,更方便的是最大化似然函数的对数。因为对数是单调递增函数,最大化函数的对数相当于最大化函数本身。取对数不仅简化了随后的数学分析,也有利于用数字表示,因为许多小概率求积容易溢出计算机的数值精度,通过转化为计算对数概率的和可以解决这个问题。从(1.46)和(1.53),对数似然函数可以写成如下形式:

对μ最大化(1.54),我们得到了最大似然解决方案:

它是样本均值,即观察值{x}的均值。类似地,对σ2最大化(1.54),我们得到了方差的最大似然解决方案:

它是相对于样本均值μML的样本方差。注意我们正在执行对于μ和σ2的联合最大化。但是在高斯分布的情况下,μ的解决方法从σ2的解决方法中分离出来,使得我们可以先估计(1.55),紧接着用它的结果来估计(1.56)。
  在本章的后面以及随后的章节中,我们将突出最大似然方法显著的局限性。这里,我们给出问题的一个指示,这个问题出现在单变量高斯分布最大似然参数设置解上。特别是,我们将展示最大似然方法系统地低估了分布的方差。这是被称为偏差现象的一个例子,并且和多项式曲线拟合情况下遇到过度拟合相关。我们首先注意到最大似然解μML和σ2ML是数据集x1,, ,xn的函数。考虑这些量对于数据集的期望,表示如下:

通常最大似然估计将获得正确的均值,但是用于因子(N − 1)/N而低估了真正的方差。这个结果的直观感受如图1.15

根据(1.58),下面的方差参数估计是无偏差的:

在10.1.3节,我们将会看到当我们采取贝叶斯方法时,这个结果是如何自动出现的。
  注意,随着数据点的数量N逐渐变大,最大似然解的偏压变得不那么明显,并且在Ñ→∞时,方差的最大似然解等于分布的真实方差。在实践中,对于任何小N的情况,这种偏见被证明不是一个严重的问题。然而,在整本书中,我们对更复杂的且带有很多参数的模型感兴趣,这些模型中与最大似然相关的偏差问题会更加严重。事实上,正如我们将要看到的,最大似然问题中的偏差问题根源在于过拟合问题,该问题就是我们前面多项式曲线拟合情况下遇到的。

PRML-系列一之1.2.4相关推荐

  1. PRML系列:1.5 Decision Theory

    PRML系列:1.5 Decision Theory 前言 本打算该系列均用自己的视角重新阐述一遍,但由于时间精力有限,最终还是决定以摘抄中文版PRML的方式,一来可以还原PRML中最本色的内容,二来 ...

  2. 【干货】机器学习经典书PRML 最新 Python 3 代码实现,附最全 PRML 笔记视频学习资料...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 将 Bishop 大神的 PRML 称为机器学习圣经一点也不为过,该书系统地介绍了 ...

  3. 太赞了!开源下载机器学习经典书 PRML所有相关资料:中文译本,官方代码,课程视频,学习笔记...

    今天给大家推荐一本机器学习.深度学习的人都应该听说过一本经典教材:<Pattern Recognition and Machine Learning>,中文译名<模式识别与机器学习& ...

  4. 大牛推荐的30本经典编程书籍,从Python到前端全系列。

    注:为了方便阅读与收藏,我们也制作了30本书籍完整清单的Markdown.PDF版以及思维导图版,大家可以在实验楼公众号后台回复关键字"书籍推荐"获取. Python 系列(10本 ...

  5. 概率语言模型及其变形系列-PLSA及EM算法

    转载自:http://blog.csdn.net/yangliuy/article/details/8330640 本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA.LDA及LDA的变形模 ...

  6. 大饼博士X Blog文章索引:机器学习方法系列,深度学习方法系列,三十分钟理解系列等

    (我怕忘了这好资源) 欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入. 以下是 ...

  7. 我的Blog文章索引::机器学习方法系列,深度学习方法系列,三十分钟理解系列等

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入.纯技术交流. 以下是我利用业余 ...

  8. PRML读书会第五期——概率图模型(Graphical Models)【上】

    PRML读书会第五期--概率图模型(Graphical Models) 前言 本人系浙江大学人工智能协会(ZJUAI)会员.本学期协会正在举办PRML读书会系列活动,笔者在活动中负责部分记录工作. 下 ...

  9. 妙用postman系列——postman建组、分享

    妙用postman系列--postman建组.分享 添加新的组和请求. 3.生成分享链接 4.导入分享链接

  10. java 手编线程池_死磕 java线程系列之自己动手写一个线程池

    欢迎关注我的公众号"彤哥读源码",查看更多源码系列文章, 与彤哥一起畅游源码的海洋. (手机横屏看源码更方便) 问题 (1)自己动手写一个线程池需要考虑哪些因素? (2)自己动手写 ...

最新文章

  1. 【Chat】实验 -- 实现 C/C++下TCP, 服务器/客户端 多人聊天室
  2. 平板电脑安装软件_题宝典软件升级了,微信公众号版不受影响,电脑版/手机APP/平板APP需要重新下载安装...
  3. 成都大学的计算机排名,成都除了成都大学,还有2所985、4所211,含金量很高
  4. Python地信专题 | 基于geopandas玩转地图可视化
  5. Java Ajax jsonp 跨域请求
  6. android隐藏底部栏,Android4.0平板开发之隐藏底部任务栏的方法
  7. 产品经理学习---人性七宗罪:打造完美产品的金钥匙
  8. nvl,空时的推断和取值
  9. 传说中的“猴年马月”就要来了,感觉很多愿望都要实现啦!
  10. learning opencv3: 四:Mat
  11. 微信小程序中使用自定义图标(阿里icon)的方法
  12. 2G到5G蜂窝网络的定位技术简介
  13. Oracle11g64位安装教程
  14. Linux4.14加密框架中的主要数据结构(5)—— struct crypto_larval(算法幼虫)
  15. [记录][问题]Win32调用C++/WinRT DLL
  16. 100天精通Python丨黑科技篇 —— 26、代理ip技术(request)
  17. C语言吸引人眼球的题目,公众号文章标题如何吸引用户眼球,12个写出好标题的技巧...
  18. 【资讯】1177- 速看!2021 年 Google 最热门 Chrome 扩展程序名单出炉!
  19. C/C++基础查漏补缺(八)----------寒假学习笔记(八)
  20. java数字转换中文

热门文章

  1. project euler Problem 52
  2. Xamarin中使用DatePickerDialog的相关问题
  3. 我们真正需要的目标(原名:制定目标你会吗?)
  4. VC学习笔记:文本图形
  5. Javascript图片滚动
  6. Yum包管理工具的20个常用命令
  7. Android BGradualProgress 多种渐变、直角or弧角、进度条、加载条
  8. Springboot 自定义Tomcat默认Servlet 资源路径
  9. 【Java】计算从你的出生日期到现在相隔了多少天,多少时,XX分,XX秒。
  10. jmeter利用influxdb和grafana实现数据可视化