五、贝叶斯决策

贝叶斯决策问题
1. 将决策中的先验分布π(θ)\pi(\theta)π(θ)换为贝叶斯中的后验分布π(θ∣x)\pi(\theta|x)π(θ∣x)即可，需要样本
2. f(a,x)=∫ΘL(θ,a)π(θ∣x)dθf(a,x)=\int_{\Theta}L(\theta,a)\pi(\theta|x)d\thetaf(a,x)=∫ΘL(θ,a)π(θ∣x)dθ，x为样本，这个是损失函数关于后验分布的期望，即后验期望损失
3. a∗最优决策=δ(x)是样本的一个函数=arg⁡min⁡af(a,x)让损失函数最小a^*最优决策=\delta(x)是样本的一个函数\\=\arg\min_af(a,x)让损失函数最小a∗最优决策=δ(x)是样本的一个函数=argminaf(a,x)让损失函数最小
4. 分类
  1. 无数据：仅使用先验信息
  2. 统计：仅使用抽样信息
  3. 贝叶斯：用先验信息与抽样信息，用x−p(x∣θ)与θ−π(θ)计算π(θ∣x)x-p(x|\theta)与\theta-\pi(\theta)计算\pi(\theta|x)x−p(x∣θ)与θ−π(θ)计算π(θ∣x)
后验风险决策：
1. 把损失函数L(θ,a)L(\theta,a)L(θ,a)对后验分布π(θ∣x)\pi(\theta|x)π(θ∣x)的期望成为后验风险，记为R(a∣x)R(a|x)R(a∣x)，即：
  
  R(a∣x)=Eθ∣x[L(θ,a)]={∑iL(θi,a)π(θi∣x)∫ΘL(θ,a)π(θ∣x)dθR(a|x)=E^{\theta|x}[L(\theta,a)]=\begin{cases}\sum_iL(\theta_i,a)\pi(\theta_i|x)\\\int_{\Theta}L(\theta,a)\pi(\theta|x)d\theta\end{cases}R(a∣x)=Eθ∣x[L(θ,a)]={∑iL(θi,a)π(θi∣x)∫ΘL(θ,a)π(θ∣x)dθ
  
  这就是后验分布计算的平均损失
2. 决策函数：
  1. 从样本空间X到A上的映射
  2. 贝叶斯决策即从决策函数类D中选一个δ(x)\delta(x)δ(x)使f(x)f(x)f(x)最小
  3. R(δ′∣x)=min⁡δ∈DR(δ∣x)R(\delta'|x)=\min_{\delta\in D}R(\delta|x)R(δ′∣x)=minδ∈DR(δ∣x)
  4. R(δ∣x)=Eθ∣x[L(θ,δ(x))],x∈X,θ∈ΘR(\delta|x)=E^{\theta|x}[L(\theta,\delta(x))],x\in X,\theta\in\ThetaR(δ∣x)=Eθ∣x[L(θ,δ(x))],x∈X,θ∈Θ
  5. 先验分布允许广义
  6. 没有损失函数或者损失函数恒为1的时候，就是贝叶斯推断里面的后验期望估计
常用损失函数下的贝叶斯估计

δ(x)\delta(x)δ(x)是在最优的状态下的损失arg⁡min⁡af(a,x)\arg\min_af(a,x)argminaf(a,x)=arg⁡min⁡a∫ΘL(θ,a)π(θ∣x)dθ=\arg\min_a\int_{\Theta}L(\theta,a)\pi(\theta|x)d\theta=argmina∫ΘL(θ,a)π(θ∣x)dθ，是一个只关于样本x的函数
1. 平方损失函数下的贝叶斯估计：
  
  平方损失函数L(θ,δ)=(δ−θ)2L(\theta,\delta)=(\delta-\theta)^2L(θ,δ)=(δ−θ)2
  
  任一决策δ=δ(x)\delta=\delta(x)δ=δ(x)的后验风险为E[(δ−θ)2∣x]=δ2−2δE(θ∣x)+E(θ2∣x)E[(\delta-\theta)^2|x]=\delta^2-2\delta E(\theta|x)+E(\theta^2|x)E[(δ−θ)2∣x]=δ2−2δE(θ∣x)+E(θ2∣x)
  
  令dE[(δ−θ)2∣x]dδ=2δ−2E(θ∣x)=0\frac{dE[(\delta-\theta)^2|x]}{d\delta}=2\delta-2E(\theta|x)=0dδdE[(δ−θ)2∣x]=2δ−2E(θ∣x)=0
  
  可有δ=E(θ∣x)\delta=E(\theta|x)δ=E(θ∣x)
  
  故θ\thetaθ的贝叶斯估计为后验均值，即δB(x)=E(θ∣x)\delta_B(x)=E(\theta|x)δB(x)=E(θ∣x)
  
  即当行动选取为状态的后验均值的时候，风险最小
2. 加权平方损失函数的贝叶斯估计
  
  加权平方损失函数L(θ,δ)=λ(θ)(δ−θ)2L(\theta,\delta)=\lambda(\theta)(\delta-\theta)^2L(θ,δ)=λ(θ)(δ−θ)2
  
  对任意一个决策δ=δ(x)\delta=\delta(x)δ=δ(x)求后验风险
  
  Eθ∣x[L(θ,a)]=Eθ∣x[λ(θ)(δ−θ)2]=Eθ[λ(θ)(δ−θ)2∣x]=Eθ[λ(θ)δ2−2λ(θ)δθ+λ(θ)θ2∣x]=δ2E(λ(θ)∣x)−2δE(λ(θ)θ∣x)+E(λ(θ)θ2∣x)E^{\theta|x}[L(\theta,a)]=E^{\theta|x}[\lambda(\theta)(\delta-\theta)^2]=E^{\theta}[\lambda(\theta)(\delta-\theta)^2|x]\\=E^{\theta}[\lambda(\theta)\delta^2-2\lambda(\theta)\delta\theta+\lambda(\theta)\theta^2|x]\\=\delta^2E(\lambda(\theta)|x)-2\delta E(\lambda(\theta)\theta|x)+E(\lambda(\theta)\theta^2|x)Eθ∣x[L(θ,a)]=Eθ∣x[λ(θ)(δ−θ)2]=Eθ[λ(θ)(δ−θ)2∣x]=Eθ[λ(θ)δ2−2λ(θ)δθ+λ(θ)θ2∣x]=δ2E(λ(θ)∣x)−2δE(λ(θ)θ∣x)+E(λ(θ)θ2∣x)
  
  求导数为0得θ\thetaθ的贝叶斯估计是δB(x)=E[λ(θ)θ∣x]E[λ(θ)∣x]\delta_B(x)=\frac{E[\lambda(\theta)\theta|x]}{E[\lambda(\theta)|x]}δB(x)=E[λ(θ)∣x]E[λ(θ)θ∣x]
3. 多元二次损失函数的贝叶斯估计
  
  参数向量θ′=(θ1,...,θk)\theta'=(\theta_1,...,\theta_k)θ′=(θ1,...,θk)的场合下，对多元二次损失函数L(θ,δ)=(δ−θ)′Q(δ−θ)L(\theta,\delta)=(\delta-\theta)'Q(\delta-\theta)L(θ,δ)=(δ−θ)′Q(δ−θ)，要求Q为正定阵，θ\thetaθ的贝叶斯估计为后验均值向量
  
  δB(x)=E(θ∣x)=(E(θ1∣x)...E(θk∣x))\delta_B(x)=E(\theta|x)=\left(\begin{array}{c}E(\theta_1|x)\\...\\E(\theta_k|x)\end{array}\right)δB(x)=E(θ∣x)=⎝⎛E(θ1∣x)...E(θk∣x)⎠⎞
4. 绝对值损失函数L(θ,δ)=∣θ−δ∣L(\theta,\delta)=|\theta-\delta|L(θ,δ)=∣θ−δ∣，θ\thetaθ的贝叶斯估计δB(x)\delta_B(x)δB(x)为后验分布π(θ∣x)\pi(\theta|x)π(θ∣x)的中位数
5. 线性损失函数L(θ,δ)={k0(θ−δ),δ≤θk1(δ−θ),δ>θL(\theta,\delta)=\begin{cases}k_0(\theta-\delta),\delta\le\theta\\k_1(\delta-\theta),\delta>\theta\end{cases}L(θ,δ)={k0(θ−δ),δ≤θk1(δ−θ),δ>θ
  
  θ\thetaθ的贝叶斯估计δn(x)\delta_n(x)δn(x)为后验分布π(θ∣x)\pi(\theta|x)π(θ∣x)的k0/(k0+k1)k_0/(k_0+k_1)k0/(k0+k1)分位数
6. 有限个行动问题的假设检验：
  1. 一般问题：A={a_1,a_2,…,a_r}在a_i下的损失为L(θ,ai)L(\theta,a_i)L(θ,ai)，从行动中选择一个最优行动，使后验期望损失Eθ∣xL(θ,ai)E^{\theta|x}L(\theta,a_i)Eθ∣xL(θ,ai)最小
  2. r=2时，是二行为的假设检验问题：H0:θ∈Θ0,H1:θ∈Θ1H_0:\theta\in\Theta_0,H_1:\theta\in\Theta_1H0:θ∈Θ0,H1:θ∈Θ1
    
    L=(a0a10k1θ0k00θ1)L=\left(\begin{array}{cc}a_0&a_1\\0&k_1& \theta_0\\k_0&0&\theta_1\end{array}\right)L=⎝⎛a00k0a1k10θ0θ1⎠⎞
  3. k0=k1k_0=k_1k0=k1时，为贝叶斯假设检验，否则是贝叶斯推断
  4. 求后验期望损失：
    
    R(a0∣x)=Eθ∣xL(a0,θ)=∫Θ1k0π(θ∣x)dθ=k0p(θ1∣x)R(a_0|x)=E^{\theta|x}L(a_0,\theta)=\int_{\Theta_1}k_0\pi(\theta|x)d\theta=k_0p(\theta_1|x)R(a0∣x)=Eθ∣xL(a0,θ)=∫Θ1k0π(θ∣x)dθ=k0p(θ1∣x)
    
    R(a1∣x)=Eθ∣xL(a1,θ)=∫Θ1k1π(θ∣x)dθ=k1p(θ0∣x)R(a_1|x)=E^{\theta|x}L(a_1,\theta)=\int_{\Theta_1}k_1\pi(\theta|x)d\theta=k_1p(\theta_0|x)R(a1∣x)=Eθ∣xL(a1,θ)=∫Θ1k1π(θ∣x)dθ=k1p(θ0∣x)
例题：
1. 设x=(x1,..,xn)x=(x_1,..,x_n)x=(x1,..,xn)是来自正态分布N(θ,1)N(\theta,1)N(θ,1)的一个样本。又设参数θ\thetaθ的先验分布为共轭先验分布N(0,τ2)N(0,\tau^2)N(0,τ2)其中τ2\tau^2τ2已知，而损失函数为0-1损失函数
  
  L(θ,δ)={0,∣δ−θ∣≤ε1,∣δ−θ∣>εL(\theta,\delta)=\begin{cases}0,|\delta-\theta|\le\varepsilon\\1,|\delta-\theta|>\varepsilon\end{cases}L(θ,δ)={0,∣δ−θ∣≤ε1,∣δ−θ∣>ε
  
  试求参数θ\thetaθ的贝叶斯分布
  
  首先求参数θ\thetaθ的后验分布，根据共轭先验分布可以得到
  
  π(θ∣x)=N(∑xin+τ−2,(n+τ−2)−1)\pi(\theta|x)=N(\frac{\sum x_i}{n+\tau^{-2}},(n+\tau^{-2})^{-1})π(θ∣x)=N(n+τ−2∑xi,(n+τ−2)−1)
  
  对于任意一个决策函数，计算后验风险函数
  
  R(δ∣x)=∫−∞∞L(θ,δ)π(θ∣x)dθ=∫∣δ−θ∣>επ(θ∣x)dθR(\delta|x)=\int_{-\infty}^{\infty}L(\theta,\delta)\pi(\theta|x)d\theta=\int_{|\delta-\theta|>\varepsilon}\pi(\theta|x)d\thetaR(δ∣x)=∫−∞∞L(θ,δ)π(θ∣x)dθ=∫∣δ−θ∣>επ(θ∣x)dθ
  
  表示在图上就是pθ∣x(∣δ−θ∣>ε)=1−pθ∣x(∣δ−θ∣≤ε)p^{\theta|x}(|\delta-\theta|>\varepsilon)=1-p^{\theta|x}(|\delta-\theta|\le\varepsilon)pθ∣x(∣δ−θ∣>ε)=1−pθ∣x(∣δ−θ∣≤ε)
  
  求出是上述风险函数最小的时候的决策函数，由于是一个区间，当区间选择[θ−δ,δ−θ][\theta-\delta,\delta-\theta][θ−δ,δ−θ]时，要求区间上的概率最大，所以取δ\deltaδ是均值的情况。
  
  δτ(x)=∑xin+τ−2\delta_{\tau}(x)=\frac{\sum x_i}{n+\tau^{-2}}δτ(x)=n+τ−2∑xi
2. 在市场占有率θ\thetaθ的估计问题中，已知损失函数为
  
  L(θ,δ)={2(δ−θ),0<θ<δθ−δ,δ≤θ≤1L(\theta,\delta)=\begin{cases}2(\delta-\theta),0<\theta<\delta\\\theta-\delta,\delta\le\theta\le1\end{cases}L(θ,δ)={2(δ−θ),0<θ<δθ−δ,δ≤θ≤1
  
  药厂厂长对市场占有率无任何先验信息，在市场调查中，在n个人中有x个人买了新药，求θ\thetaθ的贝叶斯估计
  
  首先求θ\thetaθ的后验分布Be(x+1,n−x+1)Be(x+1,n-x+1)Be(x+1,n−x+1)
  
  根据后验分布，求风险函数
  
  R(δ∣x)=∫01L(θ,δ)π(θ∣x)dθ=2∫0δ(δ−θ)π(θ∣x)dθ+∫δ1(θ−δ)π(θ∣x)dθ=3∫0δ(δ−θ)π(θ∣x)dθ+E(θ∣x)−δR(\delta|x)=\int_0^1L(\theta,\delta)\pi(\theta|x)d\theta=\\2\int_0^{\delta}(\delta-\theta)\pi(\theta|x)d\theta+\int_{\delta}^1(\theta-\delta)\pi(\theta|x)d\theta=\\3\int_0^{\delta}(\delta-\theta)\pi(\theta|x)d\theta+E(\theta|x)-\deltaR(δ∣x)=∫01L(θ,δ)π(θ∣x)dθ=2∫0δ(δ−θ)π(θ∣x)dθ+∫δ1(θ−δ)π(θ∣x)dθ=3∫0δ(δ−θ)π(θ∣x)dθ+E(θ∣x)−δ
  
  求最优行动使上述风险函数最小，求导
  
  dR(δ∣X)dδ=3∫0δπ(θ∣x)dθ−1=0\frac{dR(\delta|X)}{d\delta}=3\int_0^{\delta}\pi(\theta|x)d\theta-1=0dδdR(δ∣X)=3∫0δπ(θ∣x)dθ−1=0
  
  得∫0δπ(θ∣x)dθ=13\int_0^{\delta}\pi(\theta|x)d\theta=\frac13∫0δπ(θ∣x)dθ=31
  
  计算即可

贝叶斯（五）贝叶斯决策相关推荐

机器学习十大经典算法：深入浅出聊贝叶斯决策（贝叶斯公式，最小风险贝叶斯，最小错误贝叶斯）
前言常听人说,在学习一个东西时,如果能够深入浅出的讲给别人听,才算是真的懂了.最近正好在学模式识别,于是就用它来练笔了.贝叶斯决策(Bayes Decision) 是十大经典机器学习算法之一, ...
机器学习实战（三）朴素贝叶斯（Peter Harrington著）
知识储备: 一.概率论和数理统计第一章概率论的基本概念 1.必须要掌握的名词 (1) 样本空间一般可以认为是整个样本 (2) 样本点其中的一个样本,其中每个样本一般可以理解为特征向量 (3) ...
《机器学习实战》——朴素贝叶斯
一前言朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失.是否值得投资.信用等级评定等多分类问题.该算法的优点在于简单易懂.学习效率高.在某些领域的分类问题中能够与决策树.神经网络 ...
《机器学习实战》—— 朴素贝叶斯
文章目录一.朴素贝叶斯二.基于贝叶斯决策理论的分类方法三.数学知识准备 3.1 条件概率 3.2 全概率公式 3.3 贝叶斯推断四.使用条件概率来分类五.文本分类 5.1 从文本中构建词向量 ...
Machine Learning in Action 读书笔记---第4章基于概率论的分类方法：朴素贝叶斯
Machine Learning in Action 读书笔记第4章基于概率论的分类方法:朴素贝叶斯文章目录 Machine Learning in Action 读书笔记一.基于贝叶斯决策理 ...
机器学习实战教程（三）：基于概率论的分类方法——朴素贝叶斯
文章目录一.朴素贝叶斯理论 1.贝叶斯决策理论 2.条件概率 3.全概率公式 4.贝叶斯推断 5.朴素贝叶斯推断二.示例:言论过滤器三.朴素贝叶斯改进之拉普拉斯平滑四.示例:朴素贝叶斯之过滤垃 ...
朴素贝叶斯与逻辑回归
贝叶斯决策理论朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论. 贝叶斯决策理论的核心思想,即选择具有最高概率的决策. 贝叶斯准则告诉我们如何交换条件概率中 ...
朴素贝叶斯—疾病的预测
1. 朴素贝叶斯理论基础贝叶斯决策理论方法时统计模型决策中的一个基本方法,基本思想如下: (1)已知类条件概率密度参数表达式和先验概率 (2)利用贝叶斯公式转换成后验概率 (3)根据后验概率大小进行 ...
机器学习实战教程（四）：朴素贝叶斯基础篇之言论过滤器
一.前言朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失.是否值得投资.信用等级评定等多分类问题.该算法的优点在于简单易懂.学习效率高.在某些领域的分类问题中能够与决策树.神经网络 ...
机器学习实战（四）——基于概率论的分类方法：朴素贝叶斯
朴素贝叶斯法 4.1 基于贝叶斯决策理论的分类方法 4.1.1 贝叶斯决策理论 4.1.2 条件概率 4.1.3 全概率公式 4.1.4 贝叶斯推断 4.1.5 朴素贝叶斯 4.2 使用朴素贝叶斯进行 ...

贝叶斯（五）贝叶斯决策

五、贝叶斯决策

贝叶斯（五）贝叶斯决策相关推荐

最新文章

热门文章