三、先验分布的确定

主观概率（离散型）
1. 利用对立事件的比较确定主观概率，例如成功的概率比失败高一倍
2. 利用专家意见确定主观概率
3. 利用多位专家确定主观概率
4. 利用历史资料，考虑现有信息加以修正
利用先验信息确定先验分布（连续型）：
1. 直方图法：
  1. 将参数空间分成小区间
  2. 在每个小区间上决定主观概率或依据历史数据确定其频率
  3. 绘制频率直方图
  4. 在直方图上做一条光滑曲线，即为先验分布
2. 选定先验密度函数形式再估计超参数
  1. 根据先验信息选定θ\thetaθ的先验密度函数π(θ)\pi(\theta)π(θ)形式
  2. 对分布中的超参数给出估计值，使最接近先验信息
3. 定分度法与变分度法
  1. 定分度法：长度一样，概率不同的小区间，给出每个小区间的主观概率
  2. 变分度法：概率一样，长度不同的小区间，给区间进行划分
利用边缘分布确定先验密度，就是极大似然法
1. 边缘分布m(x)
  1. 传统用p(x∣θ)p(x|\theta)p(x∣θ)
  2. 贝叶斯用边缘分布m(x∣λ)m(x|\lambda)m(x∣λ)
    1. m(x)={∫Θp(x∣θ)π(θ)dθ,当θ为连续∑θ∈Θp(x∣θ)π(θ),当θ为离散m(x)=\begin{cases}\int_{\Theta}p(x|\theta)\pi(\theta)d\theta,当\theta为连续\\\sum_{\theta\in\Theta}p(x|\theta)\pi(\theta),当\theta为离散\end{cases}m(x)={∫Θp(x∣θ)π(θ)dθ,当θ为连续∑θ∈Θp(x∣θ)π(θ),当θ为离散
    2. 当先验分布有未知数的时候，例如π(θ)=π(θ∣λ)\pi(\theta)=\pi(\theta|\lambda)π(θ)=π(θ∣λ)，那么被积分之后m(x)变为与λ\lambdaλ相关的函数，可记为m(x∣λ)m(x|\lambda)m(x∣λ)
  3. 我们所需要做的就是求使m(x)m(x)m(x)达到最大的λ\lambdaλ，也就是最大似然估计（最大似然二型估计）
2. 混合分布：
  1. 变量x依概率π\piπ在总体F1F_1F1中取值，以1−π1-\pi1−π在总体F2F_2F2中取值，若F1(x∣θ1),F2(x∣θ2)F_1(x|\theta_1),F_2(x|\theta_2)F1(x∣θ1),F2(x∣θ2)分别是两个总体的分布函数，则x的分布函数为两个分布函数的加权相加：F(x)=πF1(x∣θ1)+(1−π)F2(x∣θ2)F(x)=\pi F_1(x|\theta_1)+(1-\pi)F_2(x|\theta_2)F(x)=πF1(x∣θ1)+(1−π)F2(x∣θ2)
  2. F(x)可以看做F1(x∣θ1),F2(x∣θ2)F_1(x|\theta_1),F_2(x|\theta_2)F1(x∣θ1),F2(x∣θ2)的混合分布
  3. π\piπ和1−π1-\pi1−π看做一个新的随机变量θ\thetaθ的分布
    
    π(θ)={θ1,πθ2,1−π\pi(\theta)=\begin{cases}\theta_1,\pi\\\theta_2,1-\pi\end{cases}π(θ)={θ1,πθ2,1−π
  4. 从F(x)F(x)F(x)中抽取一个x，相当于进行两次抽样
    1. 从π(θ)\pi(\theta)π(θ)中抽取一个样本θ\thetaθ
    2. 根据θ\thetaθ判定是从哪个总体中抽取样本x
  5. 混合样本：从混合分布中抽取出来的样本，大约有nπ(θ1)n\pi(\theta_1)nπ(θ1)个来自总体1，其余的来自总体2
3. 先验选择的ML-II（极大似然估计方法）
  1. 设Γ={π(θ∣λ),λ∈Λ}\Gamma=\{\pi(\theta|\lambda),\lambda\in\Lambda\}Γ={π(θ∣λ),λ∈Λ}为所考虑的先验类，且X=(x1,...,xn)X=(x_1,...,x_n)X=(x1,...,xn)是来自Γ\GammaΓ中某一分布的样本，若存在π^∈Γ(λ^∈Λ)\widehat{\pi}\in\Gamma(\widehat{\lambda}\in\Lambda)π∈Γ(λ∈Λ)满足
    
    m(X∣λ^)=supλ∈Λ∏i=1nm(xi∣λ)m(X|\widehat{\lambda})=sup_{\lambda\in\Lambda}\prod_{i=1}^nm(x_i|\lambda)m(X∣λ)=supλ∈Λ∏i=1nm(xi∣λ)
    
    其中π^\widehat{\pi}π称为II型极大似然先验，或简称为ML-II先验
  2. 这里将m(x)看成似然函数，找一个λ^\widehat{\lambda}λ使m(x∣λ^)m(x|\widehat{\lambda})m(x∣λ)达到最大，也是一种最大化似然函数的方法
4. 先验选择的矩方法
  1. 样本均值=总体均值
  2. 样本方差=总体方差
  3. 先计算总体的分布p(x∣θ)p(x|\theta)p(x∣θ)的期望μ(θ)\mu(\theta)μ(θ)和方差σ2(θ)\sigma^2(\theta)σ2(θ)
  4. 即μ(θ)=Ex∣θ(x),σ2(θ)=Ex∣θ[x−μ(θ)]2\mu(\theta)=E^{x|\theta}(x),\sigma^2(\theta)=E^{x|\theta}[x-\mu(\theta)]^2μ(θ)=Ex∣θ(x),σ2(θ)=Ex∣θ[x−μ(θ)]2
先验选择的矩方法
1. 有大数定理
  
  {1n∑i=1nxi=μ用样本均值来估计总体的均值1n∑i=1xik=αk用样本的k阶原点矩来估计总体的k阶原点矩\begin{cases}\frac1n\sum_{i=1}^nx_i=\mu用样本均值来估计总体的均值\\\frac1n\sum_{i=1}x_i^k=\alpha^k用样本的k阶原点矩来估计总体的k阶原点矩\end{cases}{n1∑i=1nxi=μ用样本均值来估计总体的均值n1∑i=1xik=αk用样本的k阶原点矩来估计总体的k阶原点矩
2. 矩估计：已知统计结果或取样结果估算总体均值和总体方差
无信息先验分布
1. 贝叶斯假设：无信息先验分布应该取θ\thetaθ取值范围内的均匀分布
  
  pi(θ)={c,θ∈Θ0,θ∉Θpi(\theta)=\begin{cases}c,\theta\in\Theta\\0,\theta\notin\Theta\end{cases}pi(θ)={c,θ∈Θ0,θ∈/Θ
2. 广义先验密度：当θ\thetaθ的取值范围是无穷的时候，无法给出一个均匀分布，所以设置θ\thetaθ的先验分布为
  1. π(θ)≥0&∫Θπ(θ)dθ=∞\pi(\theta)\ge0 \& \int_{\Theta}\pi(\theta)d\theta=\inftyπ(θ)≥0&∫Θπ(θ)dθ=∞
  2. 由此决定的后验密度π(θ∣x)\pi(\theta|x)π(θ∣x)是正常的密度函数
  3. 设密度参数中有两个参数μ,σ\mu,\sigmaμ,σ，且密度函数具有如下形式：
    
    p(x;μ,σ)=1σf(x−μσ),μ∈(−∞,∞),σ∈(0,∞)p(x;\mu,\sigma)=\frac1{\sigma}f(\frac{x-\mu}{\sigma}),\mu\in(-\infty,\infty),\sigma\in(0,\infty)p(x;μ,σ)=σ1f(σx−μ),μ∈(−∞,∞),σ∈(0,∞)
    
    其中f(x)是完全确定的函数，它对应于μ=0,σ=1\mu=0,\sigma=1μ=0,σ=1时的密度，μ\muμ称为未知参数，σ\sigmaσ称为尺度参数，这类分布族称为位置-尺度参数族，如正态分布、指数分布、均匀分布等
    
    当σ=1\sigma=1σ=1时称为位置参数族，μ=0\mu=0μ=0时称为尺度参数族
  4. 位置参数的无信息先验：
    
    位置参数族的先验分布可用贝叶斯假设为无信息先验分布。
  5. 尺度参数的无信息先验：
    
    设总体X的密度函数具有形式：
    
    p(x;σ)=1σp(xσ),σ∈(0,∞)p(x;\sigma)=\frac1{\sigma}p(\frac x{\sigma}),\sigma\in(0,\infty)p(x;σ)=σ1p(σx),σ∈(0,∞)
    
    则参数σ\sigmaσ的无信息先验分布为π(θ)=1/σ,σ>0\pi(\theta)=1/\sigma,\sigma>0π(θ)=1/σ,σ>0

贝叶斯（三）先验分布的确定相关推荐

机器学习番外篇—朴素贝叶斯三种模型（多项式，高斯，伯努利）
朴素贝叶斯三种模型(多项式,高斯,伯努利) 高斯有些特征可能是连续型变量,比如说人的身高,物体的长度,这些特征可以转换成离散型的值,比如如果身高在160cm以下,特征值为1:在160cm和170cm ...
机器学习之朴素贝叶斯三、拉普拉斯平滑技术、优化改进情感分析
文章目录一.前文问题 1. 先看下改进前我们的代码计算部分 2. `问题分析`: 二.针对问题进行解决 1. 什么是`拉普拉斯平滑`技术 2. 拉普拉斯优化-下溢上溢问题 3. 改进地方分析: 4. ...
机器学习之朴素贝叶斯算法原理
朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法.它和其他绝大多数的分类算法都不同. 对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方 ...
机器学习算法总结之朴素贝叶斯法
写在前面贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类.而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法.它是基于贝叶斯定理和特征条件独立假设分类方 ...
python高频面试题_02-27 朴素贝叶斯
https://www.cnblogs.com/nickchen121/p/11686958.html 朴素贝叶斯朴素贝叶斯是基于贝叶斯公式与特征条件独立假设的分类方法(注:贝叶斯公式是数学定义,朴 ...
【贝叶斯神经网络训练】（torch实现）
从这里https://blog.csdn.net/dhaiuda/article/details/106383465学习到的,只是在其中加了批注而已,便于自己理解,有些地方理解可能不对,一起学习! # ...
【机器学习】朴素贝叶斯(Naive Bayes)
在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系, ...
【076】朴素贝叶斯介绍
内容目录(原文见公众号:python宝) 一.贝叶斯介绍二.高斯分布贝叶斯三.多项式分布贝叶斯四.伯努利分布贝叶斯一.贝叶斯介绍 # 高斯分布就是正态分布 # [用途]用于一般分类问题 from s ...
从零开始学Python【38】--朴素贝叶斯模型（实战部分）
[前言] 在<从零开始学Python[37]--朴素贝叶斯模型(理论部分)>中我们详细介绍了朴素贝叶斯算法的基本概念和理论知识,在这一期我们继续介绍该算法的实战案例.将会对高斯贝叶斯.多项 ...
机器学习算法之贝叶斯
目录文章目录目录一.简单实例二.朴素贝叶斯三.高斯贝叶斯四.综合实例总结一.简单实例 import numpy as np X=np.array([[0,1,0,1],#模拟天气特征[ ...

贝叶斯（三）先验分布的确定

三、先验分布的确定

贝叶斯（三）先验分布的确定相关推荐

最新文章

热门文章