• D(x)=E{[x−E(x)]2}D(x)=E\{[x-E(x)]^2\}:相对于平均数差距的平方的期望;
  • 数理统计一词的理解:mathematical stats,也即用数学的观点审视统计,为什么没有数理概率,因为概率本身即为数学,而对于统计,random variable 的性质并不全然了解,所以数理统计在一些书里又被称作:stats in inference(统计推论,已知 ⇒ 未知)
    • 概率与统计的中心问题,都是random variable,

PMF与PDF

PMF:probability mass function,概率质量函数,是离散型随机变量在各特定取值上的概率。与概率密度函数(PDF:probability density function)的不同之处在于:概率质量函数是对离散型随机变量定义的,本身代表该值的概率;概率密度函数是针对连续型随机变量定义的,本身不是概率(连续型随机变量单点测度为0),只有在对连续随机变量的pdf在某一给定的区间内进行积分才是概率。

notation

假设XX是一个定义在可数样本空间SS上的离散型随机变量S⊆RS\subseteq R,则其概率质量函数PMF为:

fX(x)={Pr(X=x),0,x∈Sx∈R∖S

\begin{equation} f_X(x)= \left \{\begin{array}{ll}Pr(X=x), & x\in S \\0, & x\in \mathbb R\setminus S\end{array} \right. \end{equation}

注意这在所有实数上,包括那些XX不可能等于的实数值上,都定义了pmf,只不过在这些XX不可能取的实数值上,fX(x)f_X(x)取值为0(x∈R∖S,Pr(X=x)=0x\in \mathbb R\setminus S, Pr(X=x)=0)。

离散型随机变量概率质量函数(pmf)的不连续性决定了其累积分布函数(cdf)也不连续。

共轭先验(conjugate prior)

所谓共轭(conjugate),描述刻画的是两者之间的关系,单独的事物不构成共轭,举个通俗的例子,兄弟这一概念,只能是两者才能构成兄弟。所以,我们讲这两个人是兄弟关系,A是B的兄弟这两个分布成共轭分布关系,A是B的共轭分布

p(θ|X)=p(θ)p(X|θ)p(x)

p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(x)}

  • p(X|θ)p(X|\theta):似然(likelihood)

  • p(θ)p(\theta):先验(prior)

  • p(X)p(X):归一化常数(normalizing constant)

我们定义:如果先验分布(p(θ)p(\theta))和似然函数(p(X|θ)p(X|\theta))可以使得先验分布(p(θ)p(\theta))和后验分布(p(θ|X)p(\theta|X))有相同的形式(如,Beta(a+k, b+n-k)=Beta(a, b)*binom(n, k)),那么就称先验分布与似然函数是共轭的(成Beta分布与二项分布是共轭的)。

几个常见的先验分布与其共轭分布

先验分布 共轭分布
伯努利分布 beta distribution\textrm{beta distribution}
Multinomial\textrm{Multinomial} Dirichlet Distribution\textrm{Dirichlet Distribution}
Gaussian, Given variance, mean unknown\textrm{Gaussian, Given variance, mean unknown} Gaussian Distribution\textrm{Gaussian Distribution}
Gaussian, Given mean, variance unknown\textrm{Gaussian, Given mean, variance unknown} Gamma Distribution\textrm{Gamma Distribution}
Gaussian, both mean and variance unknown\textrm{Gaussian, both mean and variance unknown} Gaussian-Gamma Distribution\textrm{Gaussian-Gamma Distribution}

最大似然估计(MLE)

首先来看,大名鼎鼎的贝叶斯公式:

p(θ|X)=p(θ)p(X|θ)p(X)

p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(X)}

可将θ\theta看成欲估计的分布的参数,XX表示样本,p(X|θ)p(X|\theta)则表示似然。

现给定样本集\mathcal{D}=\{x_1,x_2,\ldots,x_N\}D={x1,x2,…,xN}\mathcal{D}=\{x_1,x_2,\ldots,x_N\},似然函数为:
p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta)

p(D|θ)=∏n=1Np(xn|θ)

p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta)
为便于计算,再将其转换为对数似然函数形式:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)

lnp(D|θ)=∑n=1Nlnp(xn|θ)

\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)

我们不妨以伯努利分布为例,利用最大似然估计的方式计算其分布的参数(ppp),伯努利分布其概率密度函数(pdf)为:
f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right.

fX(x)=px(1−p)1−x=⎧⎩⎨⎪⎪p,q≡1−p,0,x=1,x=0,otherwise

f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right.

整个样本集的对数似然函数为:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta)

lnp(D|θ)=∑n=1Nlnp(xn|θ)=∑n=1Nln(θxn(1−θ)1−xn)=∑n=1Nxnlnθ+(1−xn)ln(1−θ)

\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta)

等式两边对\thetaθ\theta求导:
\frac{\partial \ln(\mathcal{D}|\theta)}{\partial \theta}=\frac{\sum_{n=1}^Nx_n}{\theta}-\frac{N}{1-\theta}+\frac{\sum_{n=1}^Nx_n}{1-\theta}

∂ln(D|θ)∂θ=∑Nn=1xnθ−N1−θ+∑Nn=1xn1−θ

\frac{\partial \ln(\mathcal{D}|\theta)}{\partial \theta}=\frac{\sum_{n=1}^Nx_n}{\theta}-\frac{N}{1-\theta}+\frac{\sum_{n=1}^Nx_n}{1-\theta}

令其为0,得:

θml=∑Nn=1xnN

\theta_{ml}=\frac{\sum_{n=1}^Nx_n}{N}

Beta分布

f(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1=1B(a,b)μa−1(1−μ)b−1

f(\mu|a, b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}=\frac1{B(a,b)}\mu^{a-1}(1-\mu)^{b-1}

BetaBeta分布的峰值在a−1b+a−2\frac{a-1}{b+a-2}处取得。其中Γ(x)≡∫∞0ux−1e−udu\Gamma(x)\equiv\int_0^\infty u^{x-1}e^{-u}du有如下性质:

Γ(x+1)=xΓ(x)Γ(1)=1andΓ(n+1)=n!

\Gamma(x+1)=x\Gamma(x)\\ \Gamma(1)=1\quad and \quad \Gamma(n+1)=n!
我们来看当先验分布为 BetaBeta分布时的后验分布:

p(θ)=1B(a,b)θa−1(1−θ)b−1p(X|θ)=(nk)θk(1−θ)n−kp(θ|X)=1B(a+k,b+n−k)θa+k−1(1−θ)b+n−k−1

p(\theta)=\frac1{B(a,b)}\theta^{a-1}(1-\theta)^{b-1}\\ p(X|\theta)=\binom n k \theta^k(1-\theta)^{n-k}\\ p(\theta|X)=\frac1{B(a+k,b+n-k)}\theta^{a+k-1}(1-\theta)^{b+n-k-1}

对应于python中的math.gamma()及matlab中的gamma()函数(matlab中beta(a, b)=gamma(a)gamma(b)/gamma(a+b))。

条件概率(conditional probability)

P(X|Y)

P(X|Y)
读作: PP of XX given YY,下划线读作given
XX:所关心事件
YY:条件(观察到的,已发生的事件),conditional

条件概率的计算

仍然从样本空间(sample space)的角度出发。此时我们需要定义新的样本空间(给定条件之下的样本空间)。所以,所谓条件(conditional),本质是对样本空间的进一步收缩,或者叫求其子空间。

比如一个人答题,有A,B,C,DA,B,C,D四个选项,在答题者对题目一无所知的情况下,他答对的概率自然就是 14\frac14,而是如果具备一定的知识,排除了 A,CA,C两个错误选项,此时他答对的概率简单计算就增加到了 12\frac12。

本质是样本空间从S={A,B,C,D}S=\{A, B, C, D\},变为了S′={B,D}S'=\{B, D\}。
新样本空间下P(A|排除A/C)=0,P(C|排除A/C)=0P(A|排除A/C)=0,P(C|排除A/C)=0,归纳出来,也即某实验结果(outcome,oio_i)与某条件YY不相交,则:

P(oi|Y)=0

P(o_i|Y)=0

最后我们得到条件概率的计算公式:

P(oi|Y)=P(oi)P(o1)+P(o2)+⋯+P(on)=P(oi)P(Y)Y={o1,o2,…,on}

P(o_i|Y)=\frac{P(o_i)}{P(o_1)+P(o_2)+\cdots+P(o_n)}=\frac{P(o_i)}{P(Y)}\\ Y=\{o_1,o_2,\ldots,o_n\}

考虑某事件X={o1,o2,q1,q2}X=\{o_1, o_2, q_1, q_2\},已知条件Y={o1,o2,o3}Y=\{o_1,o_2,o_3\}发生了,则:

P(X|Y)=P(o1|Y)+P(o2|Y)+0+0=P(o1)P(Y)+P(o2)P(Y)=P(X∩Y)P(Y)

P(X|Y)=P(o_1|Y)+P(o_2|Y)+0+0=\frac {P(o_1)}{P(Y)}+\frac {P(o_2)}{P(Y)}=\frac{P(X\cap Y)}{P(Y)}

条件概率与贝叶斯公式

条件概率:

P(X|Y)=P(X∩Y)P(Y)

P(X|Y)=\frac{P(X\cap Y)}{P(Y)}

贝叶斯公式:

P(X|Y)=P(X)P(Y|X)P(Y)

P(X|Y)=\frac{P(X)P(Y|X)}{P(Y)}

其实是可从条件概率推导贝叶斯公式的:

P(A|B)=P(B|A)=P(A|B)P(B)===P(B|A)=P(A∩B)P(B)P(A∩B)P(A)P(A∩B)P(B)P(B)P(A∩B)P(A)P(B|A)P(A|B)P(B)P(A)

\begin{split} P(A|B)=&\frac{P(A\cap B)}{P(B)}\\ P(B|A)=&\frac{P(A\cap B)}{P(A)}\\ P(A|B)P(B)=&\frac{P(A\cap B)}{P(B)}P(B)\\ =&P(A\cap B)\\ =&P(A)P(B|A)\\ P(B|A)=&\frac{P(A|B)P(B)}{P(A)} \end{split}

证明:P(B,p|D)=P(B|p,D)P(p|D)P(B,p|D)=P(B|p,D)P(p|D)

P(B,p|D)====P(B,p,D)P(D)P(B|p,D)P(p,D)P(D)P(B|p,D)P(p,D)P(D)P(B|p,D)P(p|D)

\begin{split} P(B,p|D)=&\frac{P(B, p, D)}{P(D)}\\ =&\frac{P(B|p, D)P(p, D)}{P(D)}\\ =&P(B|p,D)\frac{P(p,D)}{P(D)}\\ =&P(B|p,D)P(p|D) \end{split}

References

[1] 概率质量函数

数学与编程——概率论与数理统计相关推荐

  1. 在线阅读!!机器学习数学精华:概率论与数理统计

    机器学习,需要一定的数学基础,需要掌握的数学基础知识特别多,如果从头到尾开始学,估计大部分人来不及,我建议先学习最基础的数学知识,基础知识可以分为高等数学.线性代数.概率论与数理统计三部分,我整理了相 ...

  2. matlab 数理统计,概率论和数理统计(matlab应用)1

    概率论和数理统计(matlab应用)1 (2006-04-29 08:53:49) 12.1 概 述 自然界和社会上会发生各种各样的现象,其中有的现象在一定条件下是一定要发生的,有的则表现出一定的随机 ...

  3. python实现概率论与数理统计_《统计思维:程序员数学之概率统计》读书笔记

    更多 1.书籍信息 书名:Think Stats: Probability and Statistics for Programmers 译名:<统计思维:程序员数学之概率统计> 作者:A ...

  4. 数学与编程:“概率论”总结

    作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 终于写完概率论部分的内容.写一个总结,同时算是导读.这两天花了些时间,对原文进行修 ...

  5. 搞学术离不开的那些数学—概率论与数理统计

    概率论与数理统计 声明:本博客仅作为学习.复习所用,该博客参考的教材为高等教育出版社出版的 浙江大学 第四版<概率论与数理统计>教材,并参考了四川大学 徐小湛老师的讲课视屏(再次声明本博客 ...

  6. 概率论 方差公式_【考研数学】概率论与数理统计

    总论:概率论与数理统计这门课程,在考研真题中的难度是相对较小的:但由于它的概念繁杂,计算量较大,尤其是统计部分,很多同学在初学的时候都会被唬住,有的甚至放弃学概率.这种状态是要不得的,因为我总结这门课 ...

  7. 概率论由相关性求数学期望和方差的公式_2020.3.30 | 考研数学—概率论与数理统计:各章节考试重点...

    考研数学有两大重点,基础要打好,练习要多做,错题要巩固.下面来看下有关概率论与数理统计相关复习内容,一起来学习吧! 一.概率与数理统计学科的特点(1)研究对象是随机现象高数是研究确定的现象,而概率研究 ...

  8. 概率论与数理统计思维导图_数学思维到底有多重要?这个学科往往影响国家实力...

    原标题:<关于加强数学科学研究工作方案>日前发布--数学思维今何在 密码学家王晓云日前获得了2019年未来科学大奖数学与计算机科学奖.她提出密码哈希函数的碰撞攻击理论,推动帮助新一代密码哈 ...

  9. 概率统计及其应用第三章知识总结_2020考研数学概率论与数理统计:各章节考试重点分析...

    考研数学有两大重点,基础要打好,练习要多做,错题要巩固.下面来看下有关概率论与数理统计相关复习内容,一起来学习吧! 一.概率与数理统计学科的特点 (1)研究对象是随机现象 高数是研究确定的现象,而概率 ...

最新文章

  1. Lidar激光雷达与Radar雷达
  2. 机器学习模型太大难部署?这里有 3 个解决方案
  3. linux shell 获取字符串最后一个字符 去掉字符串最后一个字符 去掉末尾一个字符 去掉末尾两个字符
  4. 怎么判断前轮左右的位置_如何判定汽车前面左右轮的位置?大家有什么经验?...
  5. easyVMAF:在自然环境下运行VMAF
  6. 【Java数据库】使用properties资源文件,简化数据库连接
  7. android跑分和ios,手机:苹果VS安卓 跑分不代表手机流畅度
  8. 设计模式学习笔记——原型(Prototype)框架
  9. Nginx 的 Location 配置指令块
  10. vue中if和for指令不能同时使用
  11. 随身助手271个可用api接口网站php源码(随身助手API)
  12. Windows 2000 Server Resource Kit CD BT下载地址
  13. 接线端子冲击和振动测试要求
  14. vue实现PC端和移动端的界面切换
  15. springboot整合apache ftpserver详细教程(看这一篇就够了)
  16. QT 界面设计篇(水波纹进度条QProgressBarWater)
  17. vim末行模式下的替换操作
  18. vue——router更改路由地址,但是页面不能跳转
  19. 23行代码下载逆水寒壁纸图片
  20. 自己编写的MyXMindUtils(XMind转json串)

热门文章

  1. 配置HistoryServer
  2. 【大数据入门二——yarn和mapreduce】
  3. 解决springboot工程创建是连接失败问题
  4. Tensorflow——add_layer(添加神经层)
  5. TensorFlow精进之路(三):两层卷积神经网络模型将MNIST未识别对的图片筛选出来
  6. android: ListView设置emptyView 误区
  7. 光线暗看不清键盘怎么办
  8. ACdream区域赛指导赛之手速赛系列(7)
  9. 一个XP SP3调用0地址蓝屏BUG
  10. destoon的如何显示tag生成的sql语句