二元分布

先介绍最简单的一种二元概率分布,比如抛硬币,只有两种可能。假设随机变量为xx,那么x∈{0,1}x \in \{0, 1 \}, x=1x=1 表示硬币是字朝上,x=0x=0 表示硬币是
花朝上。p(x=1)=μp(x=1)=\mu 表示 x=1x=1 的概率为 μ\mu, 那么 p(x=0)=1−μp(x=0)=1-\mu, 其中,μ\mu 满足 0≤u≤1 0 \le u \le 1,那么随机变量xx 的概率分布满足:

B(x|μ)=μx(1−μ)1−x

B(x|\mu)=\mu^{x} (1-\mu)^{1-x}

这个称为伯努利分布,可以很容易得到该分布的期望与方差为:

E(x)=μvar(x)=μ(1−μ)

E(x)=\mu \quad \text{var}(x)=\mu (1-\mu)

如果,硬币抛了很多次,我们有了很多的观测数据 D={x1,x2,...,xN} D=\{x_{1}, x_{2}, ..., x_{N}\},那么我们可以得到如下的似然函数:

p(D|μ)=∏i=1Np(xi|μ)=∏i=1Nμxn(1−μ)1−xn

p(D|\mu)=\prod_{i=1}^{N}p(x_{i}|\mu)=\prod_{i=1}^{N} \mu^{x_{n}}(1-\mu)^{1-x_{n}}

如果要根据观测数据估计参数μ\mu, 可以利用最大似然估计,对上式取对数,可以得到:

lnp(D|μ)=∑i=1Nlnp(xi|μ)=∑i=1N{xilnμ+(1−xi)ln(1−μ)}

\text{ln} p(D|\mu)= \sum_{i=1}^{N} \text{ln}p(x_{i}|\mu) = \sum_{i=1}^{N} \{ x_{i}\text{ln}\mu+(1-x_{i})ln(1-\mu) \} 

可以得到参数μ\mu 的最大似然估计为:

μML=1N∑i=1Nxi

\mu_{ML}=\frac{1}{N}\sum_{i=1}^{N} x_{i}

从古典统计的角度来看,其实就是观测数据中 x=1x=1 所占的比例。这种估计在观测数据少的时候,会有问题,比如如果我们抛了三次硬币得到三次观测数据 x1,x2,x3x_{1}, x_{2}, x_{3},如果三次都是 x=1x=1,那么我们估计的参数 μ\mu 为1,意味着第四次抛硬币,x=1x=1的概率为百分之百,这似乎违反我们一般的直觉,我们可以认为第四次抛硬币,x=1x=1的概率大于百分之五十,但不应该是百分之百。这是最大似然估计的缺陷,因为最大似然估计只根据观测数据来确定参数。如果要得到更合理的估计,应该要对参数μ\mu 给定一个先验分布,然后再利用最大后验概率估计来确定参数。具体的细节可以参考下面的文献。

多元分布

伯努利分布是描述二元分布的,但是有的时候,一个变量可能不止两种状态,比如扔色子,从1到6会有6种可能,这种是多元分布。对于这种多元分布,有种简单的描述就是用一个只包含0与1的向量x\mathbf{x}来表示,这个向量中只含有一个1,其它都是0,比如 x={0,0,0,1,0,0}\mathbf{x}=\{0,0,0,1,0,0\} 表示色子的点数为4,一个包含KK个状态的随机变量,可以用一个维度为KK的向量来表示,其满足 ∑Kk=1xk=1\sum_{k=1}^{K} x_{k}=1,每个状态的概率为μk\mu_{k}, 并且 ∑Kk=1μk=1\sum_{k=1}^{K} \mu_{k}=1。

向量x\mathbf{x}的概率分布满足:

p(x|μ)=∏k=1Kμxkk

p(\mathbf{x} | \mathbf{\mu})=\prod_{k=1}^{K} \mu_{k}^{x_{k}}

给定一组观测数据DD,含有NN个独立的观测值 x1,x2,...,xN\mathbf{x}_{1}, \mathbf{x}_{2}, ... , \mathbf{x}_{N}, 那么对应的似然函数为:

p(D|μ)=∏n=1N∏k=1Kμxnkk=∏k=1Kμ(∑nxnk)k=∏k=1Kμmkk

p(D| \mathbf{\mu})=\prod_{n=1}^{N} \prod_{k=1}^{K} \mu_{k}^{x_{nk}}= \prod_{k=1}^{K} \mu_{k}^{(\sum_{n} x_{nk})}= \prod_{k=1}^{K} \mu_{k}^{m_{k}}

利用最大似然估计,可以得到相应的参数 μMLk\mu_{k}^{ML} 为:

μMLk=mkN

\mu_{k}^{ML}=\frac{m_{k}}{N}

其中,mkm_{k} 表示观察数据 x\mathbf{x}中,第 kk 分量为 1的个数,NN 表示总的观察数据的个数。

事实上,多元分布还可以表示另外一种概率分布,上面我们讨论的是一个变量可能有多个状态,而且每个状态是互斥的。还有一种情况是多个变量同时出现,但是每个变量依然只有两种状态。比如,我们同时扔6个硬币,每个硬币只有两种状态:字或者花。如果一次抛六个硬币,那么每次这六个硬币的概率分布可以表示为:

p(x|μ)=∏k=1Kμxkk(1−μk)(1−xk)

p(\mathbf{x} | \mathbf{\mu})=\prod_{k=1}^{K} \mu_{k}^{x_{k}} (1-\mu_{k})^{(1-x_{k})}

x={x1,x2,...x6}\mathbf{x}=\{x_{1}, x_{2},...x_{6}\}, 其中xkx_{k} 表示第 kk 个硬币的状态 (0或者1), μk\mu_{k} 表示第kk 个硬币字朝上(xk=1x_{k}=1)的概率。我们可以看到,0≤μk≤10 \leq \mu_{k} \leq 1, ∑6k=1μk≠1\sum_{k=1}^{6} \mu_{k} \neq 1。虽然两者的形式看起来很像,但是所表达的含义却完全不同。

机器学习: 离散变量的概率分布相关推荐

  1. 统计学②——概率分布(几何,二项,泊松,正态分布)

    统计学系列目录(文末有大奖赠送): 统计学①--概率论基础及业务实战 统计学③--总体与样本 统计学④--置信区间 统计学⑤--假设验证 概率分布描述了一个给定变量的所有可能取值结果的概率,历史上伟大 ...

  2. 概率及常用概率分布的实现——计算机视觉修炼之路(零)

    引言 计算机视觉是一门用计算机模拟生物视觉的学科.该学科让计算机代替人眼实现对目标的识别.分类.跟踪和场景理解. 计算机视觉是人工智能的重要分支,也是一门具有很强综合性的学科,涉及计算机科学与工程.信 ...

  3. 常见概率分布图表总结

    摘要: 1.常见离散变量的分布 2.常见连续变量的概率分布 3.共轭分布 内容: 1.常见离散变量的概率分布 2.常见连续变量的概率分布: 拉普拉斯分布 3.共轭分布: 3.1 在贝叶斯概率理论中,如 ...

  4. 从幂律分布到特征数据概率分布——12个常用概率分布

    在机器学习领域,概率分布对于数据的认识有着非常重要的作用.不管是有效数据还是噪声数据,如果知道了数据的分布,那么在数据建模过程中会得到很大的启示. 首先,如下图所示8个特征数据概率分布情况(已经做归一 ...

  5. 概率分布、概率密度、概率分布函数、概率密度函数

    今天突然看到概率分布.概率密度函数等概念,有点懵,赶紧复习以下. 理解相关概念首先要区分的是变量类型,离散变量与连续变量,不同的变量对应不同的概率描述方法,我们分开来看. 离散变量 概率分布.概率密度 ...

  6. 计算机视觉——机器学习

    绪论   计算机视觉旨在从图像中提取有用的信息.受可视数据复杂性的影响,这是一个极具挑战性的任务.广义理解的计算机视觉领域已经取得显著进步,随着人们日益增长的认识,计算机视觉的未来是令人激动的. 一. ...

  7. Recurrent Neural Networks(RNN) 循环神经网络初探

    1. 针对机器学习/深度神经网络"记忆能力"的讨论 0x1:数据规律的本质是能代表此类数据的通用模式 - 数据挖掘的本质是在进行模式提取 数据的本质是存储信息的介质,而模式(pat ...

  8. 散度和KL散度的介绍

    散度和KL散度的介绍 1. 梯度.散度与旋度 1.1 算子 定义一个向量算子 ∇ \nabla ∇(读作nabla或者del): ∇ = ∂ ∂ x e x ⃗ + ∂ ∂ y e y ⃗ + ∂ ∂ ...

  9. KL Divergence

    参考文章: KL散度(Kullback-Leibler Divergence)介绍及详细公式推导 变分自编码器(VAE)推导 KL散度简介 KL散度的概念来源于概率论和信息论中.KL散度又被称为:相对 ...

最新文章

  1. java clob 释放_在Java中处理CLOB字段
  2. 远程办公在美国有多受欢迎?有人宁愿降薪 50% 也不愿再回办公室
  3. SSH secure shell 权威指南(转载)
  4. 更高效的利用Jupyter+pandas进行数据分析,6种常用数据格式效率对比!
  5. commons-lang3之StringUtils
  6. 使用SAP CRM中间件从ERP下载Customer的错误消息:Customer classification does not exist
  7. Sentinel(七)之网关限流
  8. mysql日期时间操作函数详解
  9. Maven:私服Nexus的安装
  10. (二)jquery学习----jquery的效果
  11. 医疗数据分析——过高费用的异常检测
  12. C陷阱与缺陷--读书笔记3 语义“陷阱”
  13. 客户端如何获取服务器控件的值(原理与实例)
  14. 【krpano】多分类缩略图及多分类地图案例
  15. Chrome浏览器离线安装包下载
  16. 实时渲染和离线渲染的区别
  17. 即时通讯软件(即聊天软件)代表软件列表
  18. 80端口有什么用,80端口被禁用怎么解决
  19. Android识别图片坐标,Android 取到ImageView背景图片中某处的相对坐标
  20. Matlab 网络通信(TCP IP)

热门文章

  1. Python 3D绘图库pyecharts、matplotlib、openpyxl
  2. AutodeskInstallOnlineCheck_2.0.0.24.sfx检查提示
  3. I2 2021-02-20-002-知学网
  4. 王坚:我为什么反对有些企业的“去IOE”运动?
  5. Multisim14.0仿真:单相桥式全控整流电路
  6. export、export default、import 的注意和require
  7. dockers加速器——DaoCloud
  8. html背景颜色上边白下边红,HTML中,网页正文的默认颜色是红色,背景颜色默认是白色。...
  9. 告别单音游戏背景音乐的时代未来发展将如何
  10. IDEA报错lombok.extern.slf4j is not exist不存在解决方案