转载自:http://site.douban.com/182577/widget/notes/10567181/note/294041203/

1.从贝叶斯定理到贝叶斯统计推断

(1)贝叶斯统计简史

贝叶斯统计缘起于托马斯.贝叶斯(1702-1761),一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中, 贝叶斯定理的现代形式实际上归因于拉普拉斯(1812)。拉普拉斯重新发现了贝叶斯定理,并把它用来解决天体力学、医学甚至法学的问题。但自19世纪中叶起,随着频率学派(在下文有时也称作经典统计)的兴起,概率的贝叶斯解释逐渐被统计学主流所拒绝。

现代贝叶斯统计学的复兴肇始于Jeffreys(1939),在1950年代,经过Wald(1950),Savage(1954),Raiffic&Schlaifer(1961),Lindley(1972),De Finetti(1974)等人的努力,贝叶斯统计学逐渐发展壮大,并发展出了贝叶斯统计决策理论这个新分支。特别是到1990年代以后,随着计算方法MCMC在贝叶斯统计领域的广泛应用,解决了贝叶斯统计学长期存在的计算困难的问题,从而推动了贝叶斯统计在理论和应用领域的长足发展。

贝叶斯统计学广泛应用于各个学科。就本书的主题而言,从认知学科、政治学到从自然语言处理和社会网络分析,贝叶斯方法都起到了举足轻重的作用。

(2)贝叶斯定理

贝叶斯统计方法是基于贝叶斯定理而发展起来的系统阐述和解决统计问题的方法。 贝叶斯定理,也称为贝叶斯法则现在是概率论教科书的重要内容。一般我们习惯于它的离散(事件)形式:
p(Ai∣B)=p(B∣Ai)p(Ai)∑p(B∣Aj)p(Aj)

其中p(Ai)被称为先验概率,表示在对样本观测前我们关于这个问题已经具有的知识。而p(Ai∣B)称为后验概率,是在进行了新观测之后对原有知识的更新。贝叶斯定理作为一种概率计算可用于多个领域内进行概率推理。今天,我们用贝叶斯法则过滤垃圾邮件,为网站用户推荐唱片、电影和书籍。它渗透到了互联网、语言和语言处理、人工智能、机器学习、金融、天文学和物理学乃至国家安全等各个领域。

案例:法庭证据;邮件过滤。

那么,用来描述事件的贝叶斯法则是如何和统计推断建立联系,并扩展为贝叶斯统计学的呢?

我们从一个简单的例子开始讨论。假设有方形和圆形的两种盒子,盒子内有红、黄、白三种颜色的球。方盒有3个,每个里边有红球70只、黄球10只、白球20只;圆盒有5个,每个里边有红球20只、黄球75只、白球5只。现在先任取一个盒子,再从盒中任取一球,能不能通过求得颜色推断它最有可能取自哪个盒子?为表示方便,记方盒=A,圆盒=B,红球=R,黄球=Y,白球=W 使用贝叶斯定理进行计算:
p(A∣R)=38×7010038×70100+58×20100=2131

同样可求出p(B∣R)=1031,p(A∣Y)=227,p(B∣Y)=2527 p(A∣W)=1217,p(B∣W)=517

按照发生的可能性最大,我们可以得到这样的推断: 红$\rightarrow$方,黄$\rightarrow$ 圆,白$\rightarrow$方

由此我们知道各种情况下如何回答盒子的形状,这就是一个完整的统计推断。我们把它一般化:球的颜色就是样本X,观测到的球的颜色记为x,盒子就是参数,记为$\theta。记:\theta(A)=1,\theta(B)=2$,X(R )=1,X(Y)=2,X(W)=3, 那么我们上边所述的就是一个参数估计问题,得到的参数的估计值为: \hat{\theta (x=1)}=1,\hat{\theta (x=2)}=2,\hat{\theta (x=3)}=1

贝叶斯公式说明了在具体的样本下我们对参数$\theta$能了解到何种程度,这并不取决于所用的是什么样的统计推断方法;相反,由它可产生种种推断方法。这是因为这里的参数$\theta$是一个随机变量,而且我们知道了参数$\theta$的分布: p(θ(A))=3/8,p(θ(B))=5/8

(3)先验分布和后验分布

上面我们使用的是离散形式的贝叶斯定理。很多时候,我们更关心连续的参数,因此我们把定理的形式修正为连续的形式:
h(θ∣x)=f(x,θ)h(θ)/∫θf(x,φ)dφ
因为分母的积分结果是一个常数,因此更常用的形式是把它简记为:h(θ∣x)∝f(x,θ)h(θ) 其中符号\propto表示“正比于”

这个式子是贝叶斯统计推断的基础。下面我们来解释一下其中各个部分的含义。 设样本X有分布为Fθ(x),其中θ是分布参数,要由X推断θ。这个F可以称为模型,它提供了关于所研究问题的一种知识(不是关于θ的知识,但是对推断θ有用)。样本X也提供了一种知识,包含了有关θ的信息。在经典统计中,统计推断是利用这两种知识进行的。在贝叶斯统计中,还需要关于参数的先验知识。θ要看做随机变量,θ的分布为H(θ)(密度是h(θ)),在对X进行观察之前就已知。这个H(θ)就称为θ的先验分布(先验,就是抽样之前)。

#关于先验分布解释的例子

有了于θ的分布及给定于θ的条件下X的条件分布(这个分布叫做x的边缘分布,也称之为似然),就可以得到(X,θ)的联合概率分布。贝叶斯推断就是有一个随机变量(X,θ),其联合分布已知,能观察到X而不能观察θ时,由X去推断θ。

对样本观测之后,给定X=x条件下,θ的条件分布叫做θ的后验分布(后验,抽样之后)。 后验分布综合了关于θ的先验信息(先验分布)和样本x中关于θ的信息。因此,如果说先验分布是抽样前关于θ的认识,则对X抽样后,关于θ有了新的认识,体现在后验分布中,样本的作用在于使我们对θ的知识更新起到了这样一个转化。

后验分布对贝叶斯统计至关重要,对θ所做的任何推断(估计,假设检验等)必须且只能基于θ的后验分布,这就是贝叶斯统计推断的原则。

(4)几种不同的先验分布

如何利用之前的经验和资料来提出先验分布,是贝叶斯统计推断中一个重要的问题。这就涉及到了贝叶斯统计的“主观概率”问题。在贝叶斯统计里,概率并不需要频率解释,而是根据经验对随机现象的发生可能性的一种看法或者信念。只要满足概率公理三个条件的主观概率也是概率。统计学家萨维奇曾给出过一个著名的女士品茶的例子:一位常喝牛奶加茶的女士说她可以分辨在杯中先加入的是茶还是奶。连续做了十次实验,她都说对了。显然这来自于她的经验而非猜测。我们在日常生活中也经常使用基于经验或者信念的主观的概率陈述。比如说,天气预报里说明天(8月3日)降水概率30%,就是关于“明日降水”这个事件的一种信念,因为作为8月3日的明天是不可重复的,自然也就没有频率意义。再比如说,医生认为对某位病人进行手术的成功可能性为80%,也是根据自己的经验而具有的的信念,而非在这位病人身上反复进行试验的频率结果。 把θ看做随机变量,进而提出先验分布,在许多情况下是合理的。比如工厂产品的合格率每一天都有波动,可以看做随机变量;明天的降水概率虽然是几乎不动的,但这是基于经验和规律提出来的概率陈述,也可以看做随机变量。

尽管我们使用后验分布来进行推理,但先验分布的选取也是很重要的。下面我们来讨论一些常用的先验分布的形式。

i.无信息先验(Noninformative Priors) 无信息先验只包含了参数的模糊的或者一般的信息,是对后验分布影响最小的先验分布。很多人愿意选取无信息先验,因为这种先验与其它“主观”的先验相比更接近“客观”。通常,我们把均匀分布作为无信息先验来使用,这相当于在参数所有的可能值上边指派了相同的似然。但是无先验信息的使用也要慎重,比如有些情况下会导致不恰当的后验分布(如不可积分的后验概率密度)。

iiJeffreys先验(Jeffreys’ Prior) Jeffreys提出的选取先验分布的原则是一种不变原理,采用Fisher信息阵的平方根作为θ的无信息先验分布。较好地解决了无信息先验中的一个矛盾,即若对参数θ选用均匀分布,则其函数g(θ)往往不是均匀分布。

iii.信息先验(Informative Priors) 根据以前的经验、研究或专家经验得到的先验分布。

iv.共轭先验(Conjugate Priors) 共轭先验是指先验分布和后验分布来自同一个分布族的情况,就是说先验和后验有相同的分布形式(当然,参数是不同的)。这些共轭先验是结合似然的形式推导出来的。常见的共轭先验形式如下表所示。共轭先验是经常被使用的一种先验分布形式,原因在于数学处理和计算上的方便性,同时后验分布的一些参数也可以有很好的解释。

常见的共轭先验分布

似然是二项分布$L(p)\propto {p}^{r}{1-p}^{n-r}$,参数为p(比例),p的先验分布是贝塔分布beta(α,β),后验分布是beta(α+r,β+n−r),后验均值是α+r,β+n−r。
    似然是泊松分布$L(\lambda )\propto {\lambda }^{\sum {x}_{i}}{e}^{-n\lambda }$,参数是λ,先验是伽马分布Gamma(α,β), 后验分布是Gamma(∑xi+α,n+β), 后验均值是∑xi+αn+β。
    似然是正态分布N(μ,σ2),参数是μ(σ2已知),先验是正态分布N(μ0,τ2), 后验分布正态分布,后验均值是nτ2xˉ+μσ2nτ2+σ2

似然是正态分布N(μσ2),参数是σ2(μ 已知),先验是逆伽马分布inverse-Gamma(α,β), 后验是inverse-Gamma(α+n2,β+∑(xi−μ)22),后验均值是(β+∑(xi−μ)22)/(α+n2+1)

似然是多项分布Mk(n,θ1,...,θk),先验是Dirichlet分布D(α1,...,αk),后验分布是D(α1+c1,...,αk+ck) 后验均值是E(Xi)=αi∑αk

更多先验分布请参考:http://en.wikipedia.org/wiki/Conjugate_prior

关于先验分布的选取。如果是离散的情况,根据经验或者专家意见形成主观概率就可以得到先验分布。在信息充分的情况下,利用分参数密度估计(如直方图)寻找先验分布,判断似然分布的形式选择共轭先验分布也是一种比较方便的方法。如果没有先验信息,或者先验信息很模糊的情况下,选择无信息先验分布,也可以根据似然函数的形式选择共轭先验分布。

先验分布的选取应以合理性为首要原则。

(5)使用R做后验分布的计算 下边我们采用R的贡献包LearnBayes来进行一些基本的贝叶斯计算。LearnBayes这个R包包括一系列的函数来计算后验分布,MCMC抽样方法,贝叶斯回归模型和层次模型。

例:嗜睡者研究

一位研究者想研究大学生的睡眠情况。他走访了30名学生,其中12名可以保证8小时的充分睡眠,而其它18名学生的睡眠时间则不足8小时。这位学者感兴趣的是大学生这个群体中充足睡眠者的比例p。作为比例的p其似然函数是二项分布,可以把它写为:L(p)∝ps(1−p)n−s,其中n是走访的学生总数,s是充分睡眠的学生数。

下面我们采用两种方法来取先验分布并计算后验分布。 一种方法是假设有关于大学生群体睡眠状况的比较充分信息,p值可能取.05, .15, .25, .35, .45, .55, .65, .75, .85, .95这些值,相对应的权重的可以取为1, 5, 8, 7, 4.5, 2, 1, 0.7, 0.5, 0.2,那么通过对这些权重值的归一化可以得到p的离散形式的先验概率。对具有离散先验的比例参数,计算后验概率使用函数pdisc()。然后我们可以用绘图包ggplot2把先验和后验分布画出来。计算过程如下:

# 使用离散先验
library(LearnBayes)
library(ggplot2)
p <- seq(0.05, 0.95, by = 0.1)
prior <- c(1, 5, 8, 7, 4.5, 2, 1, 0.7, 0.5, 0.2)
prior <- prior/sum(prior)

data <- c(12, 18)
post <- pdisc(p, prior, data)

prob <- c(prior, post)
type <- factor(rep(c("prior", "posterior"), each = 10))
n <- as.numeric(rep(1:10, times = 2))
d.prior <- data.frame(prob, type, n)
ggplot(d.prior, aes(x = n, y = prob, fill = type)) + geom_bar(stat = "identity", 
    position = "dodge")

 

另一种方式是取共轭先验分布。因为似然是二项分布,共轭先验分布就是beta分布。假设我们对先验分布有一定了解,其50%分位数对应的比例值为0.3,90%分位数对应的比例值为0.5。利用beta.select()函数可以得到完整的先验分布。然后利用ggplot2包绘制先验和后验分布的图形:

# 使用beta分布作为共轭先验

quantile2 = list(p = 0.9, x = 0.5) #p代表分位数,x代表比例
quantile1 = list(p = 0.5, x = 0.3)
beta.prior <- beta.select(quantile1, quantile2) #利用分位数生成先验分布

a <- beta.prior[1]
b <- beta.prior[2]
print(c(a, b))

## [1] 3.26 7.19

s = 12
f = 18
ggplot(data.frame(x = c(0, 1)), aes(x = x)) + stat_function(fun = dbeta, args = list(shape1 = a, 
    shape2 = b), geom = "area", fill = "blue", alpha = 0.3, colour = "blue", 
    lwd = 1) + stat_function(fun = dbeta, args = list(shape1 = s + a, shape2 = f + 
    b), geom = "area", fill = "red", alpha = 0.3, , colour = "red", lwd = 1) + 
    annotate("text", x = 0.25, y = 3, label = "prior") + annotate("text", x = 0.37, 
    y = 5.3, label = "posterior")

 

2.贝叶斯统计推断

(1)点估计

点估计就是估计θ的取值。贝叶斯统计中的点估计是利用后验分布的某个有代表性的特征数字来估计θ,比如后验分布的均值(后验期望估计)、中位数(后验中位数估计)或使后验密度最大的θ的估计值(后验最大估计)。这里有个问题,既然在贝叶斯统计里θ看做随机变量,那么对θ的估计是什么含义呢?这个点估计表示的是θ在一个特定场景下所取的特定值。那么这个时候的后验分布就可以理解成在抽样得到样本x后,尽管无法确定得到参数值,但是可以给出关于参数取值可能性的概率分布。

三种不同的点估计一般是不同的,只有当后验密度是对称的分布时三者才重合。存在三种不同估计量的原因是取不同的损失函数可以得到不同的估计量,使用时根据不同的需要选择合适的估计量。

上面充分睡眠的例子中,在取共轭分布为beta分布的情况下,取后验分布的均值作为估计量,得pˆ=α+sα+β+n=3.26+123.26+7.19+30=0.377

(2)区间估计

得到后验分布之后,寻找一个区间(A(x),B(x)),使$p(A(x)\ll \theta \ll B(x))=1-\alpha ,这个区间叫做\theta$的覆盖概率(有的文献直接叫做可信水平)为1−α的贝叶斯可信区间。

可信区间这个概念和频率统计中置信区间虽然是同类型的概念,含义却相去甚远。对贝叶斯可信区间来说,给定样本计算出可信区间之后,它的意义可以理解为θ以概率1−α落在这个区间里;而在频率统计里这样的说法没有意义,因为频率统计中θ是一个常量,我们只能说在100次试验中,θ有1001−α次落入这个置信区间。

一般情况下可以得到多个贝叶斯可信区间,那么选择其中长度最短的区间。只要使区间外的后验概率密度值都小于区间内的后验概率密度值就可以得到这样的区间,我们称它为最大后验密度可信区间(HPD)

下面我们用计算beta分布分位数值的qbeta()函数来计算取beta(3.19,7.26) 为先验分布时,后验分布95%的置信区间。

qbeta(c(0.25, 0.75), a + s, b + f)

## [1] 0.3246 0.4277

这个置信区间是等尾置信区间,也就是说分布密度左右两个尾部的面积是相等的。

(3)假设检验 贝叶斯统计的假设检验是很直接的。 首先建立假设:H0:θ∈Θ0↔H1:θ∈Θ1

在得到θ的后验分布之后,计算原假设和备选假设的后验概率: αi=P(Θi∣x)dθ,i=0,1,然后比较α0,α1的大小,如果α0>α1,则接受原假设:H0,否则反之。(如果这个比值为1,则需要进一步抽样或者搜集先验信息)。

3.贝叶斯学派与频率学派

(1) 贝叶斯学派和频率学派的论战是二十世纪统计学发展中一个非常重要的组成部分。在贝叶斯统计学已得到广泛接受和使用的今天,依然有必要简述一下两派学者各自的观点,这有助于理解贝叶斯统计的一些基本概念以便更好的应用。

## 
## +-------------------------------------------------------------------------------+
## | 频率学派 |
## +===============================================================================+
## | (1)概率的概念基于频率。方法的性质可由试验的多次重复来解释 |
## +-------------------------------------------------------------------------------+
## | (2)除非包括先验概率在内的所有概率都有频率解释,不把贝叶斯定理作为推断的手段 |
## +-------------------------------------------------------------------------------+
## | (3)使用样本数据进行推断 |
## +-------------------------------------------------------------------------------+
## | (4)参数是固定未知的常量 |
## +-------------------------------------------------------------------------------+
## | (5)方法中起决定作用的是统计量及其分布 |
## +-------------------------------------------------------------------------------+
## 
## Table: 频率学派观点

## 
## 
## +-------------------------------------------------------------+
## | 贝叶斯学派 |
## +=============================================================+
## | (1)概率是“主观”的,反映了在唯一的给定状况下研究者的信念 |
## +-------------------------------------------------------------+
## | (2)贝叶斯定理是进行推断的关键 |
## +-------------------------------------------------------------+
## | (3)利用所有能用的知识进行推断,包括样本知识和先验知识 |
## +-------------------------------------------------------------+
## | (4)参数是随机变量 |
## +-------------------------------------------------------------+
## | (5)方法中起决定作用的是后验分布 |
## +-------------------------------------------------------------+
## 
## Table: 贝叶斯学派观点

尽管存在争议,现在越来越多的人认为贝叶斯统计和经典统计各有其适用的场合。什么情况下,选择贝叶斯统计能得到更好的结果呢? 一般来说,如果存在明显的先验信息或便于使用贝叶斯计算方法(如共轭先验、MCMC等)处理的复杂的数据结构,这时使用贝叶斯方法会有很好的效果。如果存在大量重复试验的数据或者只有很弱的先验信息,则没有必要过份强调贝叶斯方法。 下面的例子来说明如何针对不同的问题选择贝叶斯方法还是经典方法:http://site.douban.com/182577/widget/notes/10567181/note/278503359/

(2)为什么选择贝叶斯方法 贝叶斯统计方法的广泛应用在于它在概念和使用上的优点:不依赖于重复抽样的推断思想,适用于更多样的情况;后验概率是在观察数据之后信念的完整特征,包含进行统计推断所需的一切信息,利用后验分布进行统计推断,实现概念的简化;现代计算方法的采用让贝叶斯统计方法更加简单实用。

贝叶斯集锦:贝叶斯统计基础相关推荐

  1. 贝叶斯集锦:MCMCpack包

    转载自:http://site.douban.com/182577/widget/notes/10567181/note/280112466/ ####贝叶斯集锦这个系列目的是想收集一些使用R的贝叶斯 ...

  2. 贝叶斯 - 《贝叶斯统计》笔记

    <贝叶斯统计 - 茆诗松> 茆诗松<贝叶斯统计>目前看过的讲贝叶斯方法最通俗易懂的书了 下载了在这里 第一章 先验分布和后验分布 1.1 三种信息  统计学的两个主要学派:频 ...

  3. 概率论基础、朴素贝叶斯、贝叶斯统计、MLE及贝叶斯网络

    趁着这几天在复习数据挖掘,里面牵扯到了一些概率论里面的基础常识,我就简单介绍下有关的基础知识吧! 概率论是一门研究随机现象数量规律的学科,个体选择是有各种各样的原因,微观层面难以准确判断,但从宏观层面 ...

  4. 贝叶斯集锦:从MC、MC到MCMC

    转载自: #####一份草稿 贝叶斯计算基础 一.从MC.MC到MCMC 斯坦福统计学教授Persi Diaconis是一位传奇式的人物.Diaconis14岁就成了一名魔术师,为了看懂数学家Fell ...

  5. python3中朴素贝叶斯_贝叶斯统计:Python中从零开始的都会都市

    python3中朴素贝叶斯 你在这里 (You are here) If you're reading this, odds are: (1) you're interested in bayesia ...

  6. 贝叶斯集锦:R和JAGS的交互

    转载自:http://site.douban.com/182577/widget/notes/10567181/note/295466672/ Markov chain Monte Carlo (MC ...

  7. 贝叶斯集锦:贝叶斯派和频率派的一个例子

    转载自:http://site.douban.com/182577/widget/notes/10567181/note/278503359/ 这个例子的主要目的在于探讨贝叶斯派和频率派适用的具体情境 ...

  8. 机器学习朴素贝叶斯_机器学习基础朴素贝叶斯分类

    机器学习朴素贝叶斯 In the previous stories, I had given an explanation of the program for implementation of v ...

  9. 概率论信息论基础(随机变量、常用概率分布、贝叶斯规则、信息论基础、结构化概率模型)

    目录 随机变量及其概率分布 独立性 期望方差协方差 常用概率分布 常用函数 贝叶斯规则 信息论基础 结构化概率模型 如果这篇文章对你有一点小小的帮助,请给个关注喔~我会非常开心的~ 随机变量及其概率分 ...

最新文章

  1. html邮件链接和锚点链接
  2. 解码大脑:改善BCI稳定性
  3. Anaconda+用conda创建python虚拟环境
  4. Solr分页与高亮(使用SolrNet实现)
  5. 方钢管弹性模量计算方式_箱形系梁贝雷支架受力计算书
  6. 关于屏幕分辨率的一些操作
  7. Egret入门学习日记 --- 第十篇(书中 2.9~2.13节 内容)
  8. Atitit.月度计划日程表 每月流程表v5
  9. 关于调用Thread.sleep() 哪条线程休眠问题
  10. 新浪微博android apk,新浪微博app(新浪微博手机版) V9.4.2安卓版
  11. 编写c高级语言程序步骤,高级语言程序设计知识点总结一
  12. 2022考研计算机-软件工程教程
  13. 树莓派小车C语言循迹,自动循迹小车_单片机/STM32/树莓派/Arduino/开发板创意项目-聚丰项目-电子发烧友网...
  14. U盘只读文件系统修复详解
  15. python 处理xml
  16. 关于PoE供电,你想知道的这里都有
  17. OTU/ASV/Feature tabel 表格 过滤 相对丰度 微生物
  18. uploaded php,uploaded.php
  19. Unity中的热更新 - Lua和C#通信
  20. 数据挖掘如何在互联网金融风险控制中发挥作用

热门文章

  1. 丢人丢到国外去了,国内定制版Flash被国外安全厂商撕开了面纱!
  2. 小米机器狗CyberDog
  3. WebRTC之gn与ninja(十三)
  4. Linux头文件引用小技巧
  5. pandas不可哈希化问题,unhashable type: ‘pandas._libs.tslibs.offsets.Hour
  6. 决策树中的过拟合问题
  7. CentOS虚拟机 Device eth0 does not seem to be present
  8. php redis主从自动切换,Redis 集群的主从切换
  9. windows系统bat批处理 一键添加共享打印机
  10. C语言会场安排问题贪心算法,贪心算法解决会场安排问题多处最优服务次序问题(含源代码).doc...