1.贝叶斯概述

经典的概率论对小样本事件并不能进行准确的评估，若想的到相对准确的结论往往需要大量的现场实验；而贝叶斯理论能较好的解决这一问题，利用已有的先验信息，可以得到分析对象准确的后验分布，贝叶斯模型是用参数来描述的，并且用概率分布描述这些参数的不确定性。

贝叶斯分析的思路由证据的积累来推测一个事物发生的概率，它告诉我们当我们要预测一个事物需要的是首先根据已有的经验和知识推断一个先验概率，然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析

故事背景

贝叶斯全名为托马斯·贝叶斯(Thomas Bayes，1701-1761),是一位与牛顿同时代的牧师，是一位业余数学家，平时就思考些有关上帝的事情，当然，统计学家都认为概率这个东西就是上帝在掷骰子。当时贝叶斯发现了古典统计学当中的一些缺点，从而提出了自己的“贝叶斯统计学”，但贝叶斯统计当中由于引入了一个主观因素（先验概率，下文会介绍），一点都不被当时的人认可。直到20世纪中期，也就是快200年后了，统计学家在古典统计学中遇到了瓶颈，伴随着计算机技术的发展，当统计学家使用贝叶斯统计理论时发现能解决很多之前不能解决的问题，从而贝叶斯统计学一下子火了起来，两个统计学派从此争论不休。

基本概念：

概率：

什么是概率这个问题需要好好想一想了。咱们来抛硬币吧，大家的第一反应就是五五开。为什么会这样觉得呢？因为我做了很多少次试验，其中基本是一半一半，这就说明了古典统计学的思想，概率是基于大量实验的，也就是大数定理。对于硬币来说我们可以来试一试，那有些事没办法进行试验该怎么办呢？今天下雨的概率50%，日本某城市下个月发生地震的概率30%，这些概率怎么解释呢？日本在100次试验中，地震了30次？这很难玩啊！所以古典统计学就无法解释了。这只是其一，再比如说，你去赌场了，你问了10个人赢没赢钱，他们都说赢了，按照古典统计学思想，咱们是不是稳赢啊！

世界观的区别：

统计学派：

观察到的数据被认为是随机的，因为它们是随机过程的实现，因此每次观察系统时都会发生变化。
模型参数被认为是固定的。参数的值是未知的，但它们是固定的，因此我们对它们进行条件设置。

绝地求生里面吃鸡了的真假。定义参数θ:

θ = 1，吃鸡；
θ = 0，没有。

那么频率派认为，θ是取值0或者1的固定数，不能说θ=1的概率是多少。

贝叶斯学派：

数据被认为是固定的。他们使用的是随机的，但是一旦他们被拿到手了，就不会改变。
贝叶斯用概率分布来描述模型参数的不确定性，这样一来，他们就是随机的

我们要得到的就是对应该数据所有参数的可能性（分布）的情况。

还是上面的例子，这回我们可以说θ=1概率是30%。而且随着所得样本的增多，我们可以把这个概率加以变化，得到θ | x的分布。这个概率其实是信心的含义。

2.贝叶斯算法

贝叶斯要解决的问题：

正向概率：假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大

逆向概率：如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或好几个）球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测

Why贝叶斯？

现实世界本身就是不确定的，人类的观察能力是有局限性的

我们日常所观察到的只是事物表面上的结果，因此我们需要提供一个猜测

实例：

男生总是穿长裤，女生则一半穿长裤一半穿裙子

正向概率：随机选取一个学生，他（她）穿长裤的概率和穿裙子的概率是多大

逆向概率：迎面走来一个穿长裤的学生，你只看得见他（她）穿的是否长裤，而无法确定他（她）的性别，你能够推断出他（她）是女生的概率是多大吗？

假设学校里面人的总数是 U 个

穿长裤的（男生）：U * P(Boy) * P(Pants|Boy)

P(Boy) 是男生的概率 = 60%

P(Pants|Boy) 是条件概率，即在 Boy 这个条件下穿长裤的概率是多大，这里是 100% ，因为所有男生都穿长裤

穿长裤的（女生）： U * P(Girl) * P(Pants|Girl)

求解：穿长裤的人里面有多少女生

穿长裤总数：U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl)

P(Girl|Pants) = U * P(Girl) * P(Pants|Girl)/穿长裤总数

=U * P(Girl) * P(Pants|Girl) / [U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl)]

容易发现这里校园内人的总数是无关的，可以消去

P(Girl|Pants) = P(Girl) * P(Pants|Girl) / [P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)]

分母其实就是 P(Pants)

分子其实就是 P(Pants, Girl)

贝叶斯公式

拼写纠正实例：

问题是我们看到用户输入了一个不在字典中的单词，我们需要去猜测：“这个家伙到底真正想输入的单词是什么呢？

P(我们猜测他想输入的单词 | 他实际输入的单词)

用户实际输入的单词记为 D （ D 代表 Data ，即观测数据）

猜测1：P(h1 | D)，猜测2：P(h2 | D)，猜测3：P(h1 | D) 。。。

统一为：P(h | D)

P(h | D) = P(h) * P(D | h) / P(D)

对于不同的具体猜测 h1 h2 h3 .. ，P(D) 都是一样的，所以在比较P(h1 | D) 和 P(h2 | D) 的时候我们可以忽略这个常数

P(h | D) ∝ P(h) * P(D | h) 对于给定观测数据，一个猜测是好是坏，取决于“这个猜测本身独立的可能性大小（先验概率，Prior ）”和“这个猜测生成我们观测到的数据的可能性大小。

贝叶斯方法计算： P(h) * P(D | h)，P(h) 是特定猜测的先验概率

比如用户输入tlp ，那到底是 top 还是 tip ？这个时候，当最大似然不能作出决定性的判断时，先验概率就可以插手进来给出指示—— “既然你无法决定，那么我告诉你，一般来说 top 出现的程度要高许多，所以更可能他想打的是 top

模型比较理论

最大似然：最符合观测数据的（即 P(D | h) 最大的）最有优势

奥卡姆剃刀： P(h) 较大的模型有较大的优势

掷一个硬币，观察到的是“正”，根据最大似然估计的精神，我们应该猜测这枚硬币掷出“正”的概率是 1，因为这个才是能最大化 P(D | h) 的那个猜测

如果平面上有 N 个点，近似构成一条直线，但绝不精确地位于一条直线上。这时我们既可以用直线来拟合（模型1），也可以用二阶多项式（模型2）拟合，也可以用三阶多项式（模型3），特别地，用 N-1 阶多项式便能够保证肯定能完美通过 N 个数据点。那么，这些可能的模型之中到底哪个是最靠谱的呢？

奥卡姆剃刀：越是高阶的多项式越是不常见

垃圾邮件过滤实例：

问题：给定一封邮件，判定它是否属于垃圾邮件D来表示这封邮件，注意 D 由 N 个单词组成。我们用 h+ 来表示垃圾邮件，h- 表示正常邮件

P(h+|D) = P(h+) * P(D|h+) / P(D)

P(h- |D) = P(h- ) * P(D|h- ) / P(D)

先验概率：P(h+) 和 P(h-) 这两个先验概率都是很容易求出来的，只需要计算一个邮件库里面垃圾邮件和正常邮件的比例就行了。

D 里面含有 N 个单词 d1, d2, d3，P(D|h+) = P(d1,d2,..,dn|h+) P(d1,d2,..,dn|h+) 就是说在垃圾邮件当中出现跟我们目前这封邮件一模一样的一封邮件的概率是多大！

P(d1,d2,..,dn|h+) 扩展为： P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1,

h+) * ..

P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * .. 假设 di 与 di-1 是完全条件无关的（朴素贝叶斯假设特征之间是独立，互不影响）

简化为 P(d1|h+) * P(d2|h+) * P(d3|h+) * ..

对于P(d1|h+) * P(d2|h+) * P(d3|h+) * ..只要统计 di 这个单词在垃圾邮件中出现的频率即可

贝叶斯公式

我们最终的目标就是要得到后验分布

这个条件概率就是在给定观测数据的时候，求得的参数的概率。以前我们想知道一个参数，要通过大量的观测值才能得出，而且是只能得出一个参数值。而现在运用了贝叶斯统计思想，这个后验概率分布其实是一系列参数值θ的概率分布。

积分求的区间指的是参数θ所有可能取到的值的域，所以可以看出后验概率是在知道x的前提下在θ域内的一个关于θ的概率密度分布，每一个θ 都有一个对应的可能性(也就是概率)。

Priors

先验分布就是你在取得实验观测值以前对一个参数概率分布的主观判断。

Likelihood functions

似然函数帮助我们依据数据中的信息将先验分布更新到我们想要的后验分布。

示例：

这个例子很容易就能求解出来，但是绝大多数情况贝叶斯分析的计算量会很大。

血友病是一种罕见的遗传性疾病，该病是一种X连锁隐性遗传性状，这意味着男性只有一个基因，而女性只有两个基因，这种特征可以被显性基因等位基因所掩盖。

在这个例子中，我们需要计算这个母亲是携带者的概率。

W=1意味着是感染的，W=0意味着未感染。我们的数据是：

先验知识：

人工智能数学基础——贝叶斯分析相关推荐

视频教程-人工智能-数学基础视频课程-机器学习
人工智能-数学基础视频课程计算机博士,专注于机器学习与计算机视觉领域,深度学习领域一线实战讲师.在图像识别领域有着丰富经验,实现过包括人脸识别,物体识别,关键点检测等多种应用的新算法. 参与多个国家 ...
人工智能数学基础----导数
人工智能数学基础系列文章 1. 人工智能数学基础----导数 2. 人工智能数学基础----矩阵 3. 人工智能数学基础----线性二阶近似人工智能的学习对于数学要求还是需要一定的功底的,不管是算法 ...
余弦函数导数推导过程_人工智能数学基础----导数
人工智能数学基础----导数人工智能数学基础系列文章 1. 人工智能数学基础----导数 2. 人工智能数学基础----矩阵 3. 人工智能数学基础----线性二阶近似人工智能的学习对于数学要求还 ...
人工智能数学基础--概率与统计7：学习中一些术语的称呼或表示变化说明以及独立事件的一些补充推论
一.概念表示变化说明笔者最开始学习概率论时,是以美版M.R.斯皮格尔等著作的<概率与统计>作为教材学习,学习过程中发现部分内容理解困难,之所以这样,一是这本书的内容太古老,教材是2002 ...
人工智能数学基础10：域、函数及相关概念
☞ ░ 老猿Python博文目录░ 一.运算封闭若从某个非空数集中任选两个元素(同一元素可重复选出),选出的这两个元素通过某种(或几种)运算后的得数仍是该数集中的元素,那么,就说该集合对于这种(或几 ...
人工智能数学基础---定积分5：使用分部积分法计算定积分
一.引言在<人工智能数学基础-不定积分3:分部积分法>介绍了用分部积分法求不定积分的方法及案例,在<人工智能数学基础-定积分3:微积分基本公式(牛顿-莱布尼茨公式)>介绍了可 ...
人工智能数学基础---不定积分3：分部积分法
一.引言在<人工智能数学基础–不定积分2:利用换元法求不定积分>介绍了三种换元法求不定积分的方法及案例,换元积分法是基于复合函数求导的基础上推导出来的.而求导数时,除了复合函数求导外,还 ...
人工智能数学基础---定积分4：使用换元法计算定积分
一.引言在<人工智能数学基础–不定积分2:利用换元法求不定积分>介绍了三种换元法求不定积分的方法及案例,在<人工智能数学基础-定积分3:微积分基本公式(牛顿-莱布尼茨公式)> ...
人工智能数学基础--不定积分2：利用换元法求不定积分
一.引言在<人工智能数学基础–不定积分1:概念与性质>介绍了必须熟记的十三个基本积分公式及十一个扩展公式,利用这些公式以及不定积分的加法以及数乘性质,可以进行部分积分的计算,但非常有限, ...
人工智能数学基础之线性代数(二)
前言本文只会记录人工智能中所用到的线性代数知识,并不会记录大学线性代数教材中的所有知识. 现在CSDN不能发超长的文章了,只能分成多篇发布. 人工智能数学基础之线性代数(一) 人工智能数学基础之线性 ...

人工智能数学基础——贝叶斯分析

1.贝叶斯概述

故事背景

基本概念：

世界观的区别：

2.贝叶斯算法

Why贝叶斯？

实例：

贝叶斯公式

拼写纠正实例：

模型比较理论

贝叶斯公式

Priors

Likelihood functions

示例：

人工智能数学基础——贝叶斯分析相关推荐

最新文章

热门文章