多元变量

  二元变量可以描述两个可能值中取一个的量。然而,通常我们遇到离散变量是从K个可能的互斥状态中选取一个。虽然有各种不同的替代方式表达这种变量,但我们将很快看到一个特别方便的表示是1-of-K方案,其中变量由K维向量x表示,向量x中的一个元素xk等于1,并且其余元素等于0。例如,如果我们有一个K=6个状态的变量并且一个特定的变量观察值恰好对应于x3=1的状态,则x将被表示为:

注意向量满足 如果我们用参数μk表示xk=1的概率,那么x的分布为:

其中μ = (μ1, … , μK)T,参数μk的限制为: 因为他们表示概率。(2.26)的分布可以看做是伯努利分布的泛化。很容易看出分布被归一化:

并且

  现在考虑N个独立观察值x1,,,xn的数据集D。相应的似然函数形式为:

我们看到,似然函数依赖于N个数据点仅仅通过K个量:

它表示观测值xk=1的数量。这叫做分布的充分统计。
  为了找到μ的最大似然解,我们需要最大化相对于μK的lnp(D|μ),并且服用μK总和必须为一的约束。这可以使用拉格朗日乘数λ和最大化
实现。
(2.31)对μk求导并等于零,我们得到:

我们将(2.32)代入约束解出拉格朗日乘数λ=-N。因此,我们得到的最大似然解形式为:

这是N个观测值中xk=1的部分。
  我们可以考虑m1,, ,mk的联合分布,参数为μ和观测量为N。根据(2.29)这采取的形式:

这就是所谓的多项分布。归一化系数是划分N个对象到K组不同方式的总数,且由下式给出:

注意mk的约束是:

狄利克雷分布

  我们现在介绍对于多项分布(2.34)参数{μK}的先验分布族。通过检查多项式分布的形式,我们看到共轭先验由下式给出:

其中在这里α1,, ,αK是分布参数,α表示为(α1,…,αK)T。注意,因为总和约束,{μK}空间上的分布被限制在一个维数为K - 1的单层,如图2.4所示的是K = 3。

  分布的归一化形式为:

这叫做狄利克雷分布。这里Γ(x)是(1.141)定义的伽马函数,并且

单层上狄利克雷分布图(参数αK有不同的值)如图2.5。

  似然函数(2.34)乘以先验(2.38),我们得到参数{μK}的后验分布

我们看到,后验分布再次得到了狄利克雷分布的形式,证实狄利克雷确实是多项式的共轭先验。此使得我们通过比较(2.38)确定归一化系数,使得:

其中我们已经表示m =(m1,,,mk)T。至于带有beta先验的二项式分布,我们可以将狄利克雷先验的参数αK解释为xk=1观测的有效数目。
  注意,两状态量既可以被表示为二元变量并用二项式分布(2.9)建模也可以表示为1-of-2变量并用多项式分布(2.34)建模(K =2)。

PRML-系列二之2.2相关推荐

  1. 搜索引擎ElasticSearchV5.4.2系列二之ElasticSearchV5.4.2+kibanaV5.4.2+x-packV5.4.2安装

    相关博文: 搜索引擎ElasticSearchV5.4.2系列一之ES介绍 搜索引擎ElasticSearchV5.4.2系列二之ElasticSearchV5.4.2+klanaV5.4.2+x-p ...

  2. 【C++自我精讲】基础系列二 const

    [C++自我精讲]基础系列二 const 0 前言 分三部分:const用法.const和#define比较.const作用. 1 const用法 const常量:const可以用来定义常量,不可改变 ...

  3. 人工智能算法通俗讲解系列(二):逻辑回归

    2019独角兽企业重金招聘Python工程师标准>>> 今天,我们介绍的机器学习算法叫逻辑回归.它英语名称是Logistic Regression,简称LR. 跟之前一样,介绍这个算 ...

  4. 【算法系列 二】Stack

    为什么80%的码农都做不了架构师?>>>    栈应用的场景: 1.括号问题 2.后缀表达式 3.深度优先遍历 4.保存现场 1. 给定字符串,仅由"()[]{}" ...

  5. 《CDN 之我见》系列二:原理篇(缓存、安全)

    2019独角兽企业重金招聘Python工程师标准>>> <CDN之我见>共由三个篇章组成,分为原理篇.详解篇和陨坑篇.本篇章适合那些从未接触过.或仅了解一些 CDN 专业 ...

  6. SEO系列二:何为用户体验?如何做好用户体验?

    昨天写了一篇<SEO系列一:SEO是什么?SEO有什么意义?>的文章,受到了汇道童鞋们的支持和鼓舞,周珍在这里和大家说声谢谢.甚至还有童鞋说期待我写到SEO系列2000,是否能写到2000 ...

  7. 一步步构建多层架构系列二之设计模式运用篇

    上节我们讲到数据对象创建的管理,那么如何管理数据访问类的对象创建呢?先从为什么需要设计模式的原理说起吧 为了更好的理解设计思想,我尽可能的用实例来演示推进.但随着需求的增加,程序将越来越复杂.此时就有 ...

  8. 机器学习入门系列二(关键词:多变量(非)线性回归,批处理,特征缩放,正规方程

    机器学习入门系列二(关键词:多变量(非)线性回归,批处理,特征缩放,正规方程) 目录(?)[+] 一多变量的线性回归 二批处理 三特征缩放 四正规方程 五多变量非线性回归 一.多变量的线性回归 在#机 ...

  9. 图层几何学 -- iOS Core Animation 系列二

    <图层树和寄宿图 -- iOS Core Animation 系列一>介绍了图层的基础知识和一些属性方法.这篇主要内容是学习下图层在父图层上怎么控制位置和尺寸的. 1.布局 首先看一张例图 ...

  10. 数学之美 系列二 -- 谈谈中文分词

    数学之美 系列二 -- 谈谈中文分词 2006年4月10日 上午 08:10:00 发表者: 吴军, Google 研究员 谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用 上回我们谈到利 ...

最新文章

  1. AD rodc扩展报错
  2. Laravel 中的环境与配置
  3. 深度学习 占用gpu内存 使用率为0_深度解析MegEngine亚线性显存优化技术
  4. angular ajax get post 参数,Angular的Post 传递参数问题及解决方法
  5. 减治法解决八枚硬币问题/假币问题(JAVA)----二分,三分,不知轻重的情况
  6. IDEA 配置Maven国内源
  7. 除了js, 寻求一种完美的语言
  8. vuex 在typescript中的写法
  9. [招聘]期待您的加盟,与博客园一起成长
  10. python作排产计划_排产计划表
  11. 图森未来高层动荡:CEO侯晓迪被突然免职 公开喊冤
  12. 【产品经理】003-梁宁·产品思维30讲-机会判断(未完待续)
  13. 蓝牙耳机无法与计算机连接,蓝牙耳机怎么连接电脑【图文教程】
  14. 各大应用商店APP上架指南
  15. 怎么设置页眉或者页之间相互独立编写
  16. 平面分割(直线、面、折线)
  17. C语言多组输入和字符输入(小白)
  18. openGauss 准备软硬件安装环境
  19. 贝叶斯滤波(三)贝叶斯滤波算法推导
  20. JSP同步请求和html+ajax异步请求的两种方式

热门文章

  1. [转载]Web 研发模式演变
  2. correlated subquery and non-correlated subquery
  3. JSP中动态includ与静态includ的区别
  4. Silverlight 3.0 RTW引入-- 鼠标滚动事件
  5. 无线网络MIMO技术浅谈
  6. 福昕高级PDF编辑器
  7. Hadoop教程(三)HDFS文件系统Shell命令
  8. Docker Centos安装 Openssh
  9. linux中如何让vim永久显示行号(永久显示+临时显示)
  10. java 课后习题 输出正整数的顺序相反数