贝叶斯多元Logistic回归理论基础

  • 多元Logistic分布
    • 一元Logit模型
    • 多元Logistic分布
      • t分布近似
      • 多元分类数据的似然函数(t-近似)
  • 后验计算
    • 第一步:用t分布近似的MCMC算法
    • 第二步:重要性调整

原文:Bayesian Multivariate Logistic Regression by O’Brien and Dunson (2004)

多元Logistic分布

一元Logit模型

假设Yi∈{0,1}Y_i \in \{0,1\}Yi​∈{0,1}表示样本i=1,⋯,ni = 1,\cdots,ni=1,⋯,n的类别,并且P(Yi=1)=piP(Y_i=1)=p_iP(Yi​=1)=pi​,则一元Logit模型的形式为
log⁡pi1−pi=xi′β,β∈Rq×1\log \frac{p_i}{1-p_i}=x_i'\beta,\beta \in \mathbb R^{q \times 1}log1−pi​pi​​=xi′​β,β∈Rq×1

可以用辅助变量ZiZ_iZi​改写这个模型。令Yi=1{Zi>0}Y_i=1\{Z_i>0\}Yi​=1{Zi​>0},并且Zi∼L(xi′β,1)Z_i \sim L(x_i'\beta,1)Zi​∼L(xi′​β,1)(一元Logistisc分布),即
f(zi)=exp⁡(−(zi−xi′β))[1+exp⁡(−(zi−xi′β))]2F(zi)=11+exp⁡(−(zi−xi′β))f(z_i)=\frac{\exp(-(z_i-x_i'\beta))}{[1+\exp(-(z_i-x_i'\beta))]^2} \\ F(z_i)=\frac{1}{1+\exp(-(z_i-x_i'\beta))}f(zi​)=[1+exp(−(zi​−xi′​β))]2exp(−(zi​−xi′​β))​F(zi​)=1+exp(−(zi​−xi′​β))1​

可以验证
log⁡pi1−pi=log⁡1−F(0)F(0)=log⁡1−11+exp⁡(xi′β)11+exp⁡(xi′β)=xi′β\log \frac{p_i}{1-p_i}=\log \frac{1-F(0)}{F(0)}=\log \frac{1-\frac{1}{1+\exp(x_i'\beta)}}{\frac{1}{1+\exp(x_i'\beta)}}=x_i'\betalog1−pi​pi​​=logF(0)1−F(0)​=log1+exp(xi′​β)1​1−1+exp(xi′​β)1​​=xi′​β

即用辅助变量改写后的模型与原模型一致。

如果要把这个模型推广到多元,比如ppp个类别的情况,仿照一元Logit模型,我们需要引入0-1向量Yi=(Yi1,⋯,Yip)∈RpY_{i}=(Y_{i1},\cdots,Y_{ip}) \in \mathbb R^pYi​=(Yi1​,⋯,Yip​)∈Rp,其中Yip=1Y_{ip}=1Yip​=1代表样本iii属于第ppp个类别。类似地,我们可以引入辅助变量Zij,j=1,⋯,pZ_{ij},j=1,\cdots,pZij​,j=1,⋯,p表示多元Logit模型:
Yij=1{Zij>0}Y_{ij}=1\{Z_{ij}>0\} \\ Yij​=1{Zij​>0}

其中Zij∼L(xij′β,1)Z_{ij} \sim L(x_{ij}'\beta,1)Zij​∼L(xij′​β,1)(边缘分布), Xi′=(xi1′,⋯,xip′)∈Rp×qX_i'=(x_{i1}',\cdots,x_{ip}') \in \mathbb R^{p \times q}Xi′​=(xi1′​,⋯,xip′​)∈Rp×q。直接使用这个模型隐含的假设是Zi1,⋯,ZipZ_{i1},\cdots,Z_{ip}Zi1​,⋯,Zip​互相独立,而想要在模型中引入不同类别之间的相关性,则需要建立起定义多元Logistic分布的一般方法。

多元Logistic分布

引理1:假设XXX服从一个连续分布,它的CDF为FFF,则F(X)∼Unif(0,1)F(X) \sim Unif(0,1)F(X)∼Unif(0,1)

引理2:假设Y∼Unif(0,1)Y \sim Unif(0,1)Y∼Unif(0,1),则μ+log⁡Y1−Y∼L(μ,1)\mu+\log \frac{Y}{1-Y} \sim L(\mu,1)μ+log1−YY​∼L(μ,1)

根据引理1与引理2,我们可以获得定义多元Logistic分布的一般方法:

  1. 选择一个多元连续分布X⃗=(X1,⋯,XN)\vec X=(X_1,\cdots,X_N)X=(X1​,⋯,XN​),其中X1,⋯,XNX_1,\cdots,X_NX1​,⋯,XN​的边缘分布相同,且CDF均为FFF
  2. 定义Z⃗=(Z1,⋯,ZN)\vec Z=(Z_1,\cdots,Z_N)Z=(Z1​,⋯,ZN​),其中Zi=μi+σilog⁡F(Xi)1−F(Xi)Z_i=\mu_i+\sigma_i \log \frac{F(X_i)}{1-F(X_i)}Zi​=μi​+σi​log1−F(Xi​)F(Xi​)​,从而Zi∼L(μi,σi)Z_i \sim L(\mu_i,\sigma_i)Zi​∼L(μi​,σi​)

用这个方法定义的多元Logistic分布,不同类别之间的相关性由X⃗\vec XX的相关性决定。

t分布近似

一种可行的方案是假设X⃗=(X1,⋯,Xp)\vec X=(X_1,\cdots,X_p)X=(X1​,⋯,Xp​)服从ppp元自由度为ν\nuν,均值为000,scale matrix为RRR的多元t分布,记为X⃗∼Tp,v(0,R)\vec X \sim T_{p,v}(0,R)X∼Tp,v​(0,R),它的密度函数为
f(x⃗∣0,R)=Γ(ν+p2)Γ(ν2)(νπ)p2∣R∣12(1+1νx⃗′R−1x⃗)−ν+p2f(\vec x|0,R)= \frac{\Gamma(\frac{\nu+p}{2})}{\Gamma(\frac{\nu}{2})(\nu \pi)^{\frac{p}{2}}|R|^{\frac{1}{2}}} \left( 1+ \frac{1}{\nu}\vec x'R^{-1}\vec x \right)^{-\frac{\nu+p}{2}}f(x∣0,R)=Γ(2ν​)(νπ)2p​∣R∣21​Γ(2ν+p​)​(1+ν1​x′R−1x)−2ν+p​

它的任意分量XiX_iXi​服从自由度为ν\nuν的一元t分布,记CDF为TνT_{\nu}Tν​。定义Z⃗=(Z1,⋯,Zp)\vec Z=(Z_1,\cdots,Z_p)Z=(Z1​,⋯,Zp​),其中Zi=μi+log⁡Tν(Xi)1−Tν(Xi)Z_i=\mu_i+\log \frac{T_{\nu}(X_i)}{1-T_{\nu}(X_i)}Zi​=μi​+log1−Tν​(Xi​)Tν​(Xi​)​,则Z⃗∼Lp,ν(μ⃗,R)\vec Z \sim L_{p,\nu}(\vec{\mu},R)Z∼Lp,ν​(μ​,R)。这个方案的优势在于1993年,Albert and Chib发现L1,ν(μ,R)L_{1,\nu}(\mu,R)L1,ν​(μ,R)与T1,ν(μ,σ2R)T_{1,\nu}(\mu,\sigma^2R)T1,ν​(μ,σ2R)非常接近,以两个密度函数的L2 distance最小作为标准的话,可以取ν=7.3\nu=7.3ν=7.3,σ2=π2ν−23ν\sigma^2=\pi^2\frac{\nu-2}{3\nu}σ2=π23νν−2​(下文后验相关计算均用这两个取值)。因此,用这个方案建模时的计算思路为,根据t分布作为总体分布,用Gibbs采样得到后验样本,在用后验样本进行推断时,用重要性权重对样本进行调整。

多元分类数据的似然函数(t-近似)

假设一组分类数据为{(Xi,yi)}\{(X_i,y_i)\}{(Xi​,yi​)},其中yiy_iyi​是p维的0-1向量,代表类别信息,XiX_iXi​是p×qp \times qp×q维的矩阵,代表解释变量,根据上述推导,样本的似然函数为
L(β,R)=∏i=1nP(Yi=yi)=∏i=1n∫[∏j=1p1{zij>0}yij{zij<0}1−yij]Lp,v(zi∣Xiβ,R)dzi≈∏i=1n∫[∏j=1p1{zij>0}yij{zij<0}1−yij]Tp,v(zi∣Xiβ,σ2R)dziL(\beta,R)=\prod_{i=1}^n P(Y_i=y_i) \\ = \prod_{i=1}^n \int \left[ \prod_{j=1}^p 1\{z_{ij}>0\}^{y_{ij}}\{z_{ij}<0\}^{1-y_{ij}} \right]L_{p,v}(z_i|X_i\beta,R)dz_i \\ \approx \prod_{i=1}^n \int \left[ \prod_{j=1}^p 1\{z_{ij}>0\}^{y_{ij}}\{z_{ij}<0\}^{1-y_{ij}} \right]T_{p,v}(z_i|X_i\beta,\sigma^2R)dz_iL(β,R)=i=1∏n​P(Yi​=yi​)=i=1∏n​∫[j=1∏p​1{zij​>0}yij​{zij​<0}1−yij​]Lp,v​(zi​∣Xi​β,R)dzi​≈i=1∏n​∫[j=1∏p​1{zij​>0}yij​{zij​<0}1−yij​]Tp,v​(zi​∣Xi​β,σ2R)dzi​

后验计算

用Normal-Inverse Gamma Mixture代替似然中的t分布,得到的模型如下:
yij=1{zij>0}zi∣β,R,ϕi∼Np(Xiβ,σ2ϕi−1R)ϕi∣β,R∼Gamma(0.5ν,0.5ν)y_{ij}=1\{z_{ij}>0\} \\ z_i|\beta,R ,\phi_i \sim N_p(X_i\beta,\sigma^2\phi^{-1}_iR) \\ \phi_i|\beta, R \sim Gamma(0.5\nu,0.5\nu)yij​=1{zij​>0}zi​∣β,R,ϕi​∼Np​(Xi​β,σ2ϕi−1​R)ϕi​∣β,R∼Gamma(0.5ν,0.5ν)

引入β\betaβ与RRR的先验:β∼Nq(β0,Σβ)\beta \sim N_q(\beta_0,\Sigma_{\beta})β∼Nq​(β0​,Σβ​),RRR的先验可以是支撑集为所有相关性系数矩阵上的任意分布。

第一步:用t分布近似的MCMC算法

第二步:重要性调整

用{(β(t),R(t))}t=1T\{(\beta^{(t)},R^{(t)})\}_{t=1}^T{(β(t),R(t))}t=1T​表示一组后验样本,则估计后验均值Eh(β,R)Eh(\beta,R)Eh(β,R)的公式为
∑t=1Th(β(t),R(t))T\sum_{t=1}^T \frac{h(\beta^{(t)},R^{(t)})}{T}t=1∑T​Th(β(t),R(t))​

但是因为这组后验样本是根据近似的总体分布导出的后验分布中采样得到的,所以我们还需要根据重要性权重对样本进行调整,用w(t)w^{(t)}w(t)表示第ttt个后验样本的权重,π(β,R,z∣y)\pi(\beta,R,z|y)π(β,R,z∣y)代表近似的似然导出的后验,π(β,R,z∣y)\pi(\beta,R,z|y)π(β,R,z∣y)代表用真实的似然导出的后验,则
其中
eij=Tν−1(ezij−xij′β(t)1+ezij−xij′β(t))e_{ij}=T_{\nu}^{-1}(\frac{e^{z_{ij}-x_{ij}'\beta^{(t)}}}{1+e^{z_{ij}-x_{ij}'\beta^{(t)}}})eij​=Tν−1​(1+ezij​−xij′​β(t)ezij​−xij′​β(t)​)

贝叶斯多元Logistics回归理论基础相关推荐

  1. R语言贝叶斯参数估计、回归与计算

    贝叶斯统计学是一门基本思想与传统基于频率思想的统计学完全不同的统计学方法:它以其灵活性和先进性在现代的统计学中占据着重要的地位.贝叶斯统计学是开展科学研究不可缺少的重要手段,但是,因为其思想.技术和方 ...

  2. 朴素贝叶斯与逻辑回归区别

    朴素贝叶斯与逻辑回归有什么异同 1.上述链接大佬详细的介绍了朴素贝叶斯.逻辑回归的由来. 2.在B站李宏毅老师机器学习课中第4讲Classification中提到了从贝叶斯公式推导出逻辑函数的激活函数 ...

  3. mh采样算法推导_基于MH抽样算法的贝叶斯Probit分位回归模型研究

    龙源期刊网 http://www.qikan.com.cn 基于 MH 抽样算法的贝叶斯 Probit 分位回 归模型研究 作者:朱慧明 李荣 曾昭法 虞克明 来源:<湖南大学学报 · 自然科学 ...

  4. R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

    在这篇文章中,我将对多元线性回归做同样的事情.我将得出阻塞的Gibbs采样器所需的条件后验分布.然后我将对采样器进行编码并使用模拟数据对其进行测试. 一个贝叶斯模型 假设我们有一个样本大小的​科目.我 ...

  5. 浅谈对机器学习方法(决策树,SVM,knn最近邻,随机森林,朴素贝叶斯、逻辑回归)的理解以及用sklearn工具实现文本分类和回归方法...

    一.决策树 定下一个最初的质点,从该点出发.分叉.(由于最初质点有可能落在边界值上,此时有可能会出现过拟合的问题. 二.SVM  svm是除深度学习在深度学习出现之前最好的分类算法了.它的特征如下: ...

  6. 数据分享|WEKA用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归信贷违约预测报告

    作者:Nuo Liu 数据变得越来越重要,其核心应用"预测"也成为互联网行业以及产业变革的重要力量.近年来网络 P2P借贷发展形势迅猛,一方面普通用户可以更加灵活.便快捷地获得中小 ...

  7. 基于朴素贝叶斯和逻辑回归中文外卖评论情感分类

    数据集介绍 数据集来源 本文用到的数据集是来自爱数科(http://www.idatascience.cn/)的中文外卖评论数据集.该数据集包含大约12000条中文外卖评论及对应的情感标签,因此我们将 ...

  8. 朴素贝叶斯与逻辑回归

    贝叶斯决策理论 朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论. 贝叶斯决策理论的核心思想,即选择具有最高概率的决策. 贝叶斯准则告诉我们如何交换条件概率中 ...

  9. 贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据...

    原文链接:http://tecdat.cn/?p=22702 贝叶斯回归分位数在最近的文献中受到广泛关注,本文实现了贝叶斯系数估计和回归分位数(RQ)中的变量选择,带有lasso和自适应lasso惩罚 ...

最新文章

  1. boost::mp11::mp_bind_back相关用法的测试程序
  2. 10分钟了解分布式CAP、BASE理论
  3. 竞赛|数据竞赛Top解决方案开源整理-科大讯飞AI营销算法、阿里妈妈搜索广告、腾讯广告算法、搜狗的用户画像
  4. java设计模式之道文字版,Java Web设计模式之道 PDF
  5. 遥控器进入鼠标模式,退出鼠标模式,上下左右移动和确认
  6. equalizer android,全球最佳十大安卓均衡器
  7. 笔试12:Bootstrap知识
  8. html武侠文字游戏源码,执剑行!最新武侠文字mud游戏
  9. CAD椭圆怎么画?CAD椭圆绘制步骤
  10. Android,java敏感词,QQ,微信自动过滤组件
  11. 如何使用微软提供的TCHAR.H头文件?
  12. 21、随机调整锐度 transforms.RandomAdjustSharpness()
  13. ecshop 添加php标签,ECSHOP模板制作修改自定义标签,ECSHOP标签大全,ECSHOP模板标
  14. 干货知识:高清监控怎么选配交换机
  15. 安卓APP开发之工程构建
  16. 智能工厂在智能制造企业中的实践应用-东杰智能
  17. 【​观察】以双引擎动态技术破局,瑞数信息再定义传统WAF市场
  18. 物联网传感技术——无线传感网概述
  19. R语言包翻译——翻译
  20. vc++.NET调用oracle10g

热门文章

  1. 在线实时大数据平台Storm本地模式运行的一个小发现
  2. GCN代码超详解析Two-stream adaptive graph convolutional network for Skeleton-Based Action Recognition(三)
  3. PHP中htmlentities和htmlspecialchars的区别
  4. js实现textarea根据内容大小自适应高度
  5. jQuery中blur和focus事件的应用
  6. 调试笔记--jlink 变量转实时波形小技巧
  7. stm32之端口复用和重映射
  8. 解决maltab的中文和英文字体问题,中文乱码
  9. 【POJ3126 Prime Path】【POJ 3087 Shuffle'm Up】【UVA 11624 Fire!】【POJ 3984 迷宫问题】
  10. 网络状态代码数字的含义