数学与编程——概率论与数理统计
- D(x)=E{[x−E(x)]2}D(x)=E\{[x-E(x)]^2\}:相对于平均数差距的平方的期望;
- 数理统计一词的理解:mathematical stats,也即用数学的观点审视统计,为什么没有数理概率,因为概率本身即为数学,而对于统计,random variable 的性质并不全然了解,所以数理统计在一些书里又被称作:stats in inference(统计推论,已知 ⇒ 未知)
- 概率与统计的中心问题,都是random variable,
PMF与PDF
PMF:probability mass function,概率质量函数,是离散型随机变量在各特定取值上的概率。与概率密度函数(PDF:probability density function)的不同之处在于:概率质量函数是对离散型随机变量定义的,本身代表该值的概率;概率密度函数是针对连续型随机变量定义的,本身不是概率(连续型随机变量单点测度为0),只有在对连续随机变量的pdf在某一给定的区间内进行积分才是概率。
notation
假设XX是一个定义在可数样本空间SS上的离散型随机变量S⊆RS\subseteq R,则其概率质量函数PMF为:
\begin{equation} f_X(x)= \left \{\begin{array}{ll}Pr(X=x), & x\in S \\0, & x\in \mathbb R\setminus S\end{array} \right. \end{equation}
注意这在所有实数上,包括那些XX不可能等于的实数值上,都定义了pmf,只不过在这些XX不可能取的实数值上,fX(x)f_X(x)取值为0(x∈R∖S,Pr(X=x)=0x\in \mathbb R\setminus S, Pr(X=x)=0)。
离散型随机变量概率质量函数(pmf)的不连续性决定了其累积分布函数(cdf)也不连续。
共轭先验(conjugate prior)
所谓共轭(conjugate),描述刻画的是两者之间的关系,单独的事物不构成共轭,举个通俗的例子,兄弟
这一概念,只能是两者才能构成兄弟。所以,我们讲这两个人是兄弟关系,A是B的兄弟
,这两个分布成共轭分布关系,A是B的共轭分布
。
p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(x)}
p(X|θ)p(X|\theta):似然(likelihood)
p(θ)p(\theta):先验(prior)
p(X)p(X):归一化常数(normalizing constant)
我们定义:如果先验分布(p(θ)p(\theta))和似然函数(p(X|θ)p(X|\theta))可以使得先验分布(p(θ)p(\theta))和后验分布(p(θ|X)p(\theta|X))有相同的形式(如,Beta(a+k, b+n-k)=Beta(a, b)*binom(n, k)),那么就称先验分布与似然函数是共轭的(成Beta分布与二项分布是共轭的)。
几个常见的先验分布与其共轭分布
先验分布 | 共轭分布 |
---|---|
伯努利分布 | beta distribution\textrm{beta distribution} |
Multinomial\textrm{Multinomial} | Dirichlet Distribution\textrm{Dirichlet Distribution} |
Gaussian, Given variance, mean unknown\textrm{Gaussian, Given variance, mean unknown} | Gaussian Distribution\textrm{Gaussian Distribution} |
Gaussian, Given mean, variance unknown\textrm{Gaussian, Given mean, variance unknown} | Gamma Distribution\textrm{Gamma Distribution} |
Gaussian, both mean and variance unknown\textrm{Gaussian, both mean and variance unknown} | Gaussian-Gamma Distribution\textrm{Gaussian-Gamma Distribution} |
最大似然估计(MLE)
首先来看,大名鼎鼎的贝叶斯公式:
p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(X)}
可将θ\theta看成欲估计的分布的参数,XX表示样本,p(X|θ)p(X|\theta)则表示似然。
现给定样本集\mathcal{D}=\{x_1,x_2,\ldots,x_N\}D={x1,x2,…,xN}\mathcal{D}=\{x_1,x_2,\ldots,x_N\},似然函数为:
p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta)
p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta)
为便于计算,再将其转换为对数似然函数形式:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)
我们不妨以伯努利分布为例,利用最大似然估计的方式计算其分布的参数(ppp),伯努利分布其概率密度函数(pdf)为:
f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right.
f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right.
整个样本集的对数似然函数为:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta)
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta)
等式两边对\thetaθ\theta求导:
\frac{\partial \ln(\mathcal{D}|\theta)}{\partial \theta}=\frac{\sum_{n=1}^Nx_n}{\theta}-\frac{N}{1-\theta}+\frac{\sum_{n=1}^Nx_n}{1-\theta}
\frac{\partial \ln(\mathcal{D}|\theta)}{\partial \theta}=\frac{\sum_{n=1}^Nx_n}{\theta}-\frac{N}{1-\theta}+\frac{\sum_{n=1}^Nx_n}{1-\theta}
令其为0,得:
\theta_{ml}=\frac{\sum_{n=1}^Nx_n}{N}
Beta分布
f(\mu|a, b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}=\frac1{B(a,b)}\mu^{a-1}(1-\mu)^{b-1}
BetaBeta分布的峰值在a−1b+a−2\frac{a-1}{b+a-2}处取得。其中Γ(x)≡∫∞0ux−1e−udu\Gamma(x)\equiv\int_0^\infty u^{x-1}e^{-u}du有如下性质:
\Gamma(x+1)=x\Gamma(x)\\ \Gamma(1)=1\quad and \quad \Gamma(n+1)=n!
我们来看当先验分布为 BetaBeta分布时的后验分布:
p(\theta)=\frac1{B(a,b)}\theta^{a-1}(1-\theta)^{b-1}\\ p(X|\theta)=\binom n k \theta^k(1-\theta)^{n-k}\\ p(\theta|X)=\frac1{B(a+k,b+n-k)}\theta^{a+k-1}(1-\theta)^{b+n-k-1}
对应于python中的math.gamma()
及matlab中的gamma()
函数(matlab中beta(a, b)=gamma(a)gamma(b)/gamma(a+b)
)。
条件概率(conditional probability)
P(X|Y)
读作: PP of XX given YY,下划线读作given
XX:所关心事件
YY:条件(观察到的,已发生的事件),conditional
条件概率的计算
仍然从样本空间(sample space)的角度出发。此时我们需要定义新的样本空间(给定条件之下的样本空间)。所以,所谓条件(conditional),本质是对样本空间的进一步收缩,或者叫求其子空间。
比如一个人答题,有A,B,C,DA,B,C,D四个选项,在答题者对题目一无所知的情况下,他答对的概率自然就是 14\frac14,而是如果具备一定的知识,排除了 A,CA,C两个错误选项,此时他答对的概率简单计算就增加到了 12\frac12。
本质是样本空间从S={A,B,C,D}S=\{A, B, C, D\},变为了S′={B,D}S'=\{B, D\}。
新样本空间下P(A|排除A/C)=0,P(C|排除A/C)=0P(A|排除A/C)=0,P(C|排除A/C)=0,归纳出来,也即某实验结果(outcome,oio_i)与某条件YY不相交,则:
P(o_i|Y)=0
最后我们得到条件概率的计算公式:
P(o_i|Y)=\frac{P(o_i)}{P(o_1)+P(o_2)+\cdots+P(o_n)}=\frac{P(o_i)}{P(Y)}\\ Y=\{o_1,o_2,\ldots,o_n\}
考虑某事件X={o1,o2,q1,q2}X=\{o_1, o_2, q_1, q_2\},已知条件Y={o1,o2,o3}Y=\{o_1,o_2,o_3\}发生了,则:
P(X|Y)=P(o_1|Y)+P(o_2|Y)+0+0=\frac {P(o_1)}{P(Y)}+\frac {P(o_2)}{P(Y)}=\frac{P(X\cap Y)}{P(Y)}
条件概率与贝叶斯公式
条件概率:
P(X|Y)=\frac{P(X\cap Y)}{P(Y)}
贝叶斯公式:
P(X|Y)=\frac{P(X)P(Y|X)}{P(Y)}
其实是可从条件概率推导贝叶斯公式的:
\begin{split} P(A|B)=&\frac{P(A\cap B)}{P(B)}\\ P(B|A)=&\frac{P(A\cap B)}{P(A)}\\ P(A|B)P(B)=&\frac{P(A\cap B)}{P(B)}P(B)\\ =&P(A\cap B)\\ =&P(A)P(B|A)\\ P(B|A)=&\frac{P(A|B)P(B)}{P(A)} \end{split}
证明:P(B,p|D)=P(B|p,D)P(p|D)P(B,p|D)=P(B|p,D)P(p|D)
\begin{split} P(B,p|D)=&\frac{P(B, p, D)}{P(D)}\\ =&\frac{P(B|p, D)P(p, D)}{P(D)}\\ =&P(B|p,D)\frac{P(p,D)}{P(D)}\\ =&P(B|p,D)P(p|D) \end{split}
References
[1] 概率质量函数
数学与编程——概率论与数理统计相关推荐
- 在线阅读!!机器学习数学精华:概率论与数理统计
机器学习,需要一定的数学基础,需要掌握的数学基础知识特别多,如果从头到尾开始学,估计大部分人来不及,我建议先学习最基础的数学知识,基础知识可以分为高等数学.线性代数.概率论与数理统计三部分,我整理了相 ...
- matlab 数理统计,概率论和数理统计(matlab应用)1
概率论和数理统计(matlab应用)1 (2006-04-29 08:53:49) 12.1 概 述 自然界和社会上会发生各种各样的现象,其中有的现象在一定条件下是一定要发生的,有的则表现出一定的随机 ...
- python实现概率论与数理统计_《统计思维:程序员数学之概率统计》读书笔记
更多 1.书籍信息 书名:Think Stats: Probability and Statistics for Programmers 译名:<统计思维:程序员数学之概率统计> 作者:A ...
- 数学与编程:“概率论”总结
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 终于写完概率论部分的内容.写一个总结,同时算是导读.这两天花了些时间,对原文进行修 ...
- 搞学术离不开的那些数学—概率论与数理统计
概率论与数理统计 声明:本博客仅作为学习.复习所用,该博客参考的教材为高等教育出版社出版的 浙江大学 第四版<概率论与数理统计>教材,并参考了四川大学 徐小湛老师的讲课视屏(再次声明本博客 ...
- 概率论 方差公式_【考研数学】概率论与数理统计
总论:概率论与数理统计这门课程,在考研真题中的难度是相对较小的:但由于它的概念繁杂,计算量较大,尤其是统计部分,很多同学在初学的时候都会被唬住,有的甚至放弃学概率.这种状态是要不得的,因为我总结这门课 ...
- 概率论由相关性求数学期望和方差的公式_2020.3.30 | 考研数学—概率论与数理统计:各章节考试重点...
考研数学有两大重点,基础要打好,练习要多做,错题要巩固.下面来看下有关概率论与数理统计相关复习内容,一起来学习吧! 一.概率与数理统计学科的特点(1)研究对象是随机现象高数是研究确定的现象,而概率研究 ...
- 概率论与数理统计思维导图_数学思维到底有多重要?这个学科往往影响国家实力...
原标题:<关于加强数学科学研究工作方案>日前发布--数学思维今何在 密码学家王晓云日前获得了2019年未来科学大奖数学与计算机科学奖.她提出密码哈希函数的碰撞攻击理论,推动帮助新一代密码哈 ...
- 概率统计及其应用第三章知识总结_2020考研数学概率论与数理统计:各章节考试重点分析...
考研数学有两大重点,基础要打好,练习要多做,错题要巩固.下面来看下有关概率论与数理统计相关复习内容,一起来学习吧! 一.概率与数理统计学科的特点 (1)研究对象是随机现象 高数是研究确定的现象,而概率 ...
最新文章
- Lidar激光雷达与Radar雷达
- 机器学习模型太大难部署?这里有 3 个解决方案
- linux shell 获取字符串最后一个字符 去掉字符串最后一个字符 去掉末尾一个字符 去掉末尾两个字符
- 怎么判断前轮左右的位置_如何判定汽车前面左右轮的位置?大家有什么经验?...
- easyVMAF:在自然环境下运行VMAF
- 【Java数据库】使用properties资源文件,简化数据库连接
- android跑分和ios,手机:苹果VS安卓 跑分不代表手机流畅度
- 设计模式学习笔记——原型(Prototype)框架
- Nginx 的 Location 配置指令块
- vue中if和for指令不能同时使用
- 随身助手271个可用api接口网站php源码(随身助手API)
- Windows 2000 Server Resource Kit CD BT下载地址
- 接线端子冲击和振动测试要求
- vue实现PC端和移动端的界面切换
- springboot整合apache ftpserver详细教程(看这一篇就够了)
- QT 界面设计篇(水波纹进度条QProgressBarWater)
- vim末行模式下的替换操作
- vue——router更改路由地址,但是页面不能跳转
- 23行代码下载逆水寒壁纸图片
- 自己编写的MyXMindUtils(XMind转json串)