概率统计13——二项分布与多项分布
原文 | https://mp.weixin.qq.com/s/bOchsmHTINKKlyabCQKMSg
相关阅读
最大似然估计(概率10)
寻找“最好”(3)函数和泛函的拉格朗日乘数法
伯努利分布
如果随机试验仅有两个可能的结果,那么这两个结果可以用0和1表示,此时随机变量X将是一个0/1的变量,其分布是单个二值随机变量的分布,称为伯努利分布。注意伯努利分布关注的是结果只有0和1,而不管观测条件是什么。
性质
设p是随机变量等于1的概率,伯努利分布有一些特殊的性质:
将上面的两个式子合并:
伯努利变量是离散型,并且是一个0/1变量,它的数学期望是:
方差是:
极大似然
最大似然估计(概率10)
对于伯努利分布的质量函数来说,p是唯一的参数。如果给定N个独立同分布的样本 {x(1), x(2), ……, x(N)},x(t)是投硬币的结果,是随机变量,x(t)ϵ{0, 1},可以通过极大似然估计,根据样本推测出p的取值:
取对数似然函数:
这是个符合直觉的结果,即使没学过概率和极大似然也能得出这个结论。
二项分布
假设某个试验是伯努利试验,成功概率用p表示,那么失败的概率为1-p。现在进行了N次这样的试验,成功了x次,失败了N-x次,发生这种情况的概率是多少?
质量函数
对于每次实验来说,成功的概率都是p,失败的概率是1-p。假设已经完成了N次试验,并且前x次都成功了,后N-x次都失败了:
x次成功的情况当然不止一种,比如成功和失败交叉在一起:
这种成功和失败的排列顺序共有种不同的情况,因此对于任意N次伯努利试验,成功了x次的概率是:
的另一种记法是 。
P(x)就是二项分布的质量函数,是N次伯努利试验中取得x次成功的概率。
性质
二项分布的均值和方差分别为Np和Np(1-p)。
从二项分布的质量函数P(x)可知,概率分布只与试验次数N和成功概率p有关,p越接近0.5,二项分布将越对称。保持二项分布试验的次数N不变,随着成功概率p逐渐接近0.5,二项分布逐渐对称,且近似于均值为Np、方差为Np(1-p)的正态分布:
多项分布
多项分布是二项分布的扩展,其中随机试验的结果不是两种状态,而是K种互斥的离散状态,每种状态出现的概率为pi,p1 + p1 + … + pK = 1,在这个前提下共进行了N次试验,用x1~xK表示每种状态出现次数,x1 + x2 + …+ xK = N,称X=(x1, x2, …, xK)服从多项分布,记作X~PN(N:p1, p2,…,pn)。
质量函数
如果说二项分布的典型案例是扔硬币,那么多项分布就是扔骰子。骰子有6个不同的点数,扔一次骰子,每个点数出现的概率(对应p1~p6)都是1/6。重复扔N次,6点出现x次的概率是:
这和二项分布的质量函数类似。现在将问题扩展一下,扔N次骰子,1~6出现次数分别是x1~x6时的概率是多少?
仍然和二项式类似,假设前x1次都是1点,之后的x2次都是2点……最后x6次都是6点:
1~6出现次数分别是x1~x6的情况不止一种,1点出现x1次的情况有种;在1点出现x1次的前提下,2点出现x2次的情况有种;在1点出现x1次且2点出现x2次的前提下,3点出现x3的情况有种……扔N次骰子,1~6出现次数分别是x1~x6时的概率是:
根据①:
最终,扔骰子的概率质量函数是:
把这个结论推广到多项分布:某随机实验如果有K种可能的结果C1~CK,它们出现的概率是p1~pK。在N随机试验的结果中,分别将C1~CK的出现次数记为随机变量X1~XK,那么C1出现x1次、C2出现x2次……CK出现xK次这种事件发生的概率是:
其中x1 + x2 + …+ xK = N,p1 + p2 + …+ pK = 1。
极大似然
多项式的极大似然是指在随机变量X1=x1, X2=x2, ……, XK=xK时,最可能的p1~pK。
对数极大似然:
现在问题变成了求约束条件下的极值:
根据拉格朗日乘子法:
寻找“最好”(3)函数和泛函的拉格朗日乘数法
根据约束条件:
这也是个符合直觉的结论。面对有N个样本的K分类数据集,当pi = xi/N 时,Ci类最可能出现xi次。为了这个结论我们却大费周章,也许又有人因此而嘲笑概率简单了……
出处:微信公众号 "我是8位的"
本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途!
扫描二维码关注作者公众号“我是8位的”
概率统计13——二项分布与多项分布相关推荐
- 概率统计16——均匀分布、先验与后验
相关阅读: 最大似然估计(概率10) 重要公式(概率4) 概率统计13--二项分布与多项分布 贝叶斯决策理论(1)基础知识 | 数据来自于一个不完全清楚的过程-- 均匀分布 简单来说,均匀分布是指事件 ...
- 伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布(似然与概率)
瑞士数学家雅克·伯努利(Jacques Bernoulli,1654-1705)首次研究独立重复试验(每次成功率为p).在他去世后的第8年(1713年),他侄子尼克拉斯出版了伯努利的著作<推测术 ...
- Matlab概率统计编程指南
Matlab概率统计编程指南 第4章 概率统计 本章介绍MATLAB在概率统计中的若干命令和使用格式,这些命令存放于MatlabR12\Toolbox\Stats中. 4.1 随机数的产生 4.1.1 ...
- MADlib——基于SQL的数据挖掘解决方案(9)——数据探索之概率统计
样本是随机变量,统计量作为样本的函数自然也是随机变量.当用它们去推断总体时,有多大的可靠性与统计量的概率分布有关.本篇学习概率统计的基本知识,以及在此基础上的统计推论.MADlib提供了概率函数和统计 ...
- 机器学习中的数学(五)--概率统计
写在前面 <机器学习中的数学>系列主要列举了在机器学习中用到的较多的数学知识,包括微积分,线性代数,概率统计,信息论以及凸优化等等.本系列重在描述基本概念,并不在应用的方面的做深入的探讨, ...
- 读书笔记:程序员的数学 概率统计
读书笔记:程序员的数学 概率统计 特点 内容 第一.二章 概率定义 多随机变量 第三.四章 离散.连续分布 第五章 协方差矩阵与多元正态分布 第六.七章 估计与检验 伪随机数 第八章 各类应用 体会 ...
- matlab在概率统计中的应用
概率统计 1.产生随机变量 binornd(n,p) 生成服从二项分布的随机数 normrnd(mu,sigma) 2.概率密度计算 3.累计概率分布 cdf 4.统计特征 平均值 中位数 排序 方差 ...
- 《程序员的数学》第二册 (概率统计)
<程序员的数学>第二册 (概率统计) <程序员的数学>第二册 (概率统计) 概率的定义 概率的数学定义 三扇门(蒙提霍尔问题)一一飞艇视角 蒙提霍尔问题 正确答案与常见错误 以 ...
- 概率统计笔记:共轭分布
1 共轭的定义 在概率统计笔记:贝叶斯推断 Bayesian Inference_UQI-LIUWJ的博客-CSDN博客 中,我们有: 如果某个随机变量Θ的后验概率 p(θ|x)和先验概率p(θ)属于 ...
- 深度学习中需要掌握的数学1之概率统计
深度学习中需要掌握的概率统计 1.常见的概率分布 1.1伯努利分布(二值分布,0-1分布) 1.2二项分布(离散的) 1.3均匀分布 1.4`高斯分布`(连续) 2.独立事件的解释 3.多变量概率分布 ...
最新文章
- Windows Server 2012 R2/2016/2019无法安装.NET Framework 3.5.1或语言包的解决方法
- android 嵌套分组拖动_GitHub - Mosect/DragLayout: Android拖拽控件,支持上下左右滑动、折叠或者嵌套ListView、RecyclerView等...
- kotlin 初始化数组
- ELK+Kafka部署
- 字符串截取后两位,字符串转成数组,再转换位字符串
- BugkuCTF-PWN题pwn5-overflow2超详细讲解
- 初识Hadoop:大数据与Hadoop概述
- windows系统启用2个以上的mysql服务
- 百度免费开放长语音识别功能
- 计算机硬盘磁道损坏有什么症状,硬盘0磁道(0磁道)损坏的维修方法
- ubuntu下使用锐捷
- CogPDF417Tool工具
- 安装和使用Windows XP系统故障恢复控制台
- 一个基本c语言注释用什么字符串,C语言的词法规则京鸿智武 今天提纲:本文主要介绍了C语言中...
- 天宝S6测量机器人/天宝S6全站仪参数/教程/Trimble 天宝全站仪
- linux 脚本含参,linux shell脚本文件的入参
- 目标管理【管理学之十四】
- 行人属性识别二:添加新网络训练和自定义数据集训练
- 串行外设接口(Serial Peripheral Interface, SPI)逻辑设计部分 - spi_slave
- python画circos图_​用Python把图做的好看点:用Matplotlib画个Circos和弦图