logit回归模型假设_logistic回归模型分析

logistic回归模型是一种线性生成模型。本文将介绍logistic回归模型相关的知识，为了更好地理解模型的决策边界函数，本文同时分析了多元变量的协方差对概率分布的影响。

本文脉络:logistic回归模型的含义

logistic模型的决策边界函数分析

logistic模型的参数最优化

logistic回归模型与感知机模型的比较

总结

logistic回归模型的含义

我们把分类模型分成两个阶段，推断阶段和决策阶段，推断阶段对联合概率分布建模，然后归一化，得到后验概率。决策阶段确定每个新输入x的类别。

我们用推断阶段的方法来推导logistic回归模型，首先对类条件概率密度

$p(\overrightarrow{x}|C_{k})$ 和类先验概率分布

$p(C_{k})$ 建模，然后通过贝叶斯定理计算后验概率密度。

考虑二分类的情形，类别C1的后验概率密度;

$P(C1|\overrightarrow{x}) = \frac{P(\overrightarrow{x}|C1)P(C1)}{P(\overrightarrow{x})}$

$P(C1|\overrightarrow{x}) = \frac{P(\overrightarrow{x}|C1)P(C1)}{P(\overrightarrow{x}|C1)P(C1)+P(\overrightarrow{x}|C2)P(C2)}$

$P(C1|\overrightarrow{x}) = \frac{1}{1+\frac{P(\overrightarrow{x}|C2)P(C2)} {P(\overrightarrow{x}|C1)P(C1)} }$

令

$ln\frac{P(\overrightarrow{x}|C1)P(C1)}{P(\overrightarrow{x}|C2)P(C2)} = \alpha$

则:

$P(C1|\overrightarrow{x}) = \frac{1}{1+e^{-\alpha}} = \sigma(\alpha)$

式中的

$\sigma(\alpha)$ 就是logistic函数

因此，logistic回归的值等于输入变量为x的条件下类别为C1的概率

$P(C1|\overrightarrow{x})$

$\sigma(\alpha) = \frac{1}{1+e^{-a}}$

$\alpha = ln\frac{P(\overrightarrow{x}|C1)P(C1)}{P(\overrightarrow{x}|C2)P(C2)}$

$a = ln\frac{P(\overrightarrow{x},C1)}{P(\overrightarrow{x},C2)}$

(1) 当

$a \ge 0时,P(\overrightarrow{x},C1) \ge P(\overrightarrow{x},C2),P(C1|\overrightarrow{x})\ge \frac{1}{2}$ 分类结果为C1

(2) 当

$a < 0 时,P(\overrightarrow{x},C1) < P(\overrightarrow{x},C2),P(C1|\overrightarrow{x})<\frac{1}{2}$ 分类结果为C2

结论：logistic回归值表示所属类的后验概率，无论是二分类还是多分类，分类结果都是后验概率最大所对应的类。

logistic的决策边界函数分析

决策边界函数，简而言之，就是函数的两侧是不同的分类结果。

可定性的分析协方差的三种情况与分布图的关系。

(a) 图表示正常的协方差矩阵的高斯分布图。

(b) 图表示协方差矩阵是对角矩阵的高斯分布图。

logistic的决策边界函数分析

logistic曲线如下图，红色直线(a=0)表示决策边界函数:

假设类条件概率密度是高斯分布，即P(x|Ck),然后求解后验概率的表达式，即P(Ck|x)。我们知道，logistic回归值就是所求的后验概率。

假设类条件概率密度的协方差相同，类条件概率密度为:

$p(x|C_{k}) = \frac{1}{(2 \Pi)^{\frac{D}{2}}} \frac{1}{|\sum|^{\frac{1}{2}}} exp{ -\frac{1}{2}(x - \mu_{k})^{T} \sum^{-1}} (x-\mu_{k})$

由上面的推导公式得后验概率为:

$P(C_{k}|x) = \sigma(w_{k}^{T}x + w_{k0})$

其中:

$w_{k} = \sum^{-1} \mu_{k}$

$w_{k0} = -\frac{1}{2}\mu_{k}^{T}\sum^{-1}\mu_{k} + ln p(C_{k})$

由后验概率

$(P(C_{k}|x))$ 的表达式可知，当类条件的协方差矩阵相等时，决策边界函数是随x线性变化的直线。

结论：如下图，若两类的条件概率密度的协方差相同时(如C1和C2的协方差相同)，则决策边界函数是直线；若两类的条件概率密度的协方差不相同时(如C1和C3，C2和C3)，则决策边界函数是曲线。判断协方差矩阵是否相同可以根据分布图形形状是否相同来判断，如C1和C2的协方差相同，C3和C1、C2的协方差不相同。

假设类条件概率密度符合高斯分布且具有相同的协方差矩阵，则决策边界函数是一条直线；若类条件概率密度符合更一般的指数分布且缩放参数s相同，决策边界函数仍然是一条直线。

logistic模型的参数最优化

logistic模型损失函数

logistic回归模型的含义是后验概率分布，因此可以从概率的角度去设计损失函数。

考虑两分类情况，假设有N个训练样本，logistic模型是

$h_{\theta}(x)，h_{\theta}(x)$ 表示后验概率y=1的概率，则

$1-h_{\theta}(x)$ 表示y=0的概率，变量

$y_{i}$ 取值1或0，且分别代表模型

$h_{\theta}(x)和1-h_{\theta}(x)$

因此，似然函数

$L(\theta):$

$L(\theta) = \prod_{i=1}^{N}(h_{\theta}(x)^{y_{i}})(1-h_{\theta}(x)^{y_{i}})$

损失函数

$J(\theta)：$

$J(\theta) = -L(\theta)$

$J(\theta) = -\prod_{i=1}^{N}(h_{\theta}(x)^{y_{i}})(1-h_{\theta}(x)^{y_{i}})$

logistic模型的参数最优化

损失函数最小化等价于模型参数的最优化，如下图:

$J(\theta) = -\prod_{i=1}^{N}(h_{\theta}(x)^{y_{i}})(1-h_{\theta}(x)^{y_{i}})$

$(J(\theta))min = ln (J(\theta))min$

$ln (J(\theta)) = -\prod_{i=1}^{N} (y_{i}ln (h_{\theta}(x)) + (1-y_{i})ln (1-h_{\theta}(x)))$

利用梯度下降法求最优解，学习速率

$\alpha$ :

$\theta = \theta - \alpha \frac{\partial{J(\theta)}}{\partial{\theta}}$

具体求法本文不介绍，只给出算法的思想。

为了避免过拟合问题，则在原来的损失函数增加正则项，然后利用梯度下降法求最优解，这里也不展开。

logistic模型与感知机模型的比较

logistic模型与感知机模型的相同点

由上面的分析可知，假设类条件概率分布的协方差相同，则logistic模型的决策边界函数是随x线性变化的直线，因此，感知机模型与logistic模型的分类策略一样，即决策边界函数是一样的。如下图:

感知机模型：当点落在直线上方，y>0,则分类结果为C1；反之为C2。

logistic模型：当点落在上方，y>0，则后验概率P(C1|X)>0.5,分类结果为C1；反之为C2。

考虑到对输入变量x进行非线性变换

$\theta(x)$ ,感知机和logistic模型的分类策略仍一样，决策边界函数相同，如下图:

感知机模型:当点落在圆外，y>0，则分类结果为C1；反之为C2。

logistic模型：当点落在圆外，y>0，则后验概率P(C1|X)>0.5,分类结果为C1；反之为C2。

logistic模型与感知机模型的异同点

(1) logistic回归模型限制值的范围在0~1,感知机模型对值范围没有限制，因此logistic模型相比感知机模型，对异常点有更强的鲁棒性。如下图，当有异常数据时，logistic模型要好于感知机模型。

(2) 感知机模型用误分类点到超平面的距离衡量损失函数，而logistic模型则从概率角度去衡量损失函数。

总结

logistic回归的含义是后验概率分布，用概率的角度去设计似然函数，logistic模型相比于感知机模型对异常数据具有更好的鲁棒性。

logit回归模型假设_logistic回归模型分析相关推荐

logit回归模型假设_Logistic回归模型及应用建模（二）
二.因变量多分类 logistic 回归 1.概述:多元Logistic回归模型被用来建立有多个输出变量的模型,且这些预测变量通过一个线性组合变成为一个最终的预测变量.Multinomial Log ...
[DataAnalysis]多元线性回归深入浅出-案例+模型假设+参数估计方法+模型评判方法+变量选择+多重共线性问题
一.案例介绍 1.目的:利用上市公司当年的公开财务指标预测来年盈利情况最重要的投资人决策依据. 2.数据来源:随机抽取深市和沪市2002和2003年的500个上市公司样本预测来年的净资产收益率. 3. ...
logit回归模型假设_一文读懂条件Logistic回归
在医学研究中,为了控制一些重要的混杂因素,经常会把病例和对照按年龄,性别等条件进行配对,形成多个匹配组.各匹配组的病例数和对照人数是任意的,比如一个病例和若干个对照匹配即1:1,在医学上称作" ...
logit回归模型_常见机器学习模型的假设
> Photo by Thought Catalog on Unsplash 暂时忘记深度学习和神经网络. 随着越来越多的人开始进入数据科学领域,我认为重要的是不要忘记这一切的基础. 统计. 如 ...
R语言回归模型构建、回归模型基本假设（正态性、线性、独立性、方差齐性）、回归模型诊断、car包诊断回归模型、特殊观察样本分析、数据变换、模型比较、特征筛选、交叉验证、预测变量相对重要度
R语言回归模型构建.回归模型基本假设(正态性.线性.独立性.方差齐性).回归模型诊断.car包诊断回归模型.特殊观察样本分析.数据变换.模型比较.特征筛选.交叉验证.预测变量相对重要度目录
R语言VaR市场风险计算方法与回测、用LOGIT逻辑回归、PROBIT模型信用风险与分类模型...
全文链接:http://tecdat.cn/?p=27530 市场风险指的是由金融市场中资产的价格下跌或价格波动增加所导致的可能损失. 相关视频市场风险包含两种类型:相对风险和绝对风险.绝对风险关 ...
r语言解释回归模型的假设_模型假设-解释
r语言解释回归模型的假设 Ever heard of model assumptions? What are they? And why are they important? A model is ...
逻辑回归模型算法研究与案例分析
逻辑回归模型算法研究与案例分析 (白宁超 2018年9月6日15: 21:20) 导读:逻辑回归(Logistic regression)即逻辑模型,属于常见的一种分类算法.本文将从理论介绍开始,搞清 ...
R语言与临床模型预测——LASSO回归，单因素多因素cox，差异表达分析，Venn图，森林图，列线图，矫正曲线，ROC全套代码及解析——第十三部分校准曲线本专栏可免费答疑
1.下载数据 2. 匹配基因 3. 基因去重复 4.匹配临床数据 5.批量cox回归分析 6.差异表达基因筛选 7.取交集,选出预后相关的差异表达基因 8.森林图绘制 9.lasso回归进一步排除具有 ...
python logistic回归_logistic回归介绍与源码分析
1. 介绍(由线性模型引出logistic回归) 首先介绍一下什么是线性模型呢? 线性模型的定义如下:给定个属性描述的样本 , 代表样本在第个属性上的取值. 线性模型的目的是学习一个函数,它可以通 ...

logit回归模型假设_logistic回归模型分析

logit回归模型假设_logistic回归模型分析相关推荐

最新文章

热门文章