统计学习方法：五. 逻辑回归logistic regression

逻辑回归logistic regression
- Logistic的起源
- 1).概念logistic回归又称logistic回归分析，是一种广义的线性回归分析模型。
- 2).Logistic分布：——连续性概率分布
- - - F(x)F(x)F(x)曲线
  - 3)适用范围：预测一件==二分类事情==是否发生——跟其==数值型自变量==的关系；
- 0）模型：
- 1）公式推导
- - 2）将 yyy 视为类后验概率估计，重写公式有:
- 3)使用对数几率的意义在哪？
- 4)用途：

逻辑回归logistic regression

分类模型，并常用于二分类。

Logistic的起源

人口增长模型——早期快速增长，但不能无限增长上去
人口增长率和人口量呈现线性关系
求积分，得到初步的人口增长模型；—— 但有最大环境容纳量上限限制，∴用人口量的二次函数拟合

1).概念logistic回归又称logistic回归分析，是一种广义的线性回归分析模型。

本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。

常用于数据挖掘，疾病自动诊断，经济预测等领域。
简单、可并行化、可解释强

2).Logistic分布：——连续性概率分布

分布函数：F(x)=P(X≤x)=11+e−(x−μ)/γ概率密度函数：f(x)=F′(X≤x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2\begin{gathered} 分布函数：F(x)=P(X \leq x)=\frac{1}{1+e^{-(x-\mu) / \gamma}} \\ 概率密度函数：f(x)=F^{\prime}(X \leq x)=\frac{e^{-(x-\mu) / \gamma}}{\gamma\left(1+e^{-(x-\mu) / \gamma}\right)^{2}} \end{gathered} 分布函数：F(x)=P(X≤x)=1+e−(x−μ)/γ1概率密度函数：f(x)=F′(X≤x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
其中，μμμ表示位置参数，γ>0γ>0γ>0 为形状参数;

Logistic 分布的形状与正态分布的形状相似，但是 Logistic 分布的尾部更长，所以我们可以使用 Logistic 分布来建模比正态分布具有更长尾部和更高波峰的数据分布。

F(x)F(x)F(x)曲线

在深度学习中常用到的 Sigmoid 函数就是 Logistic 的分布函数在 μ=0,γ=1\mu=0, \gamma=1μ=0,γ=1的特殊形式。

3)适用范围：预测一件二分类事情是否发生——跟其数值型自变量的关系；

0）模型：

z=wTx+b∈Rp=L(z)∈[0,1]\begin{gathered} z&=&w^{T} x+b \ \in R\\ p&=&L(z) \ \in [0,1] \end{gathered} zp==wTx+b ∈RL(z) ∈[0,1]

xxx 是自变量向量，其中w和b是待求参数向量

ppp是隐状态；要拟合分类概率 P(Y=1)P(Y = 1)P(Y=1) 与输入向量 xxx 的直接关系，然后通过比较概率值来判断类别;

然后根据p 与1-p的大小决定因变量的值。
Logistic中因变量为二分类变量，取某个概率作为方程的因变量估计值，取值范围为0-1；

1）公式推导

∵直接用zzz来拟合条件概率 p(Y=1∣x)p(Y = 1| x)p(Y=1∣x)，取值范围不能拟合到[0,1[0,1[0,1
∴考虑采用广义线性模型：

最理想的是单位阶跃函数:
p(y=1∣x)={0,z<00.5,z=01,z>0,z=wTx+bp(y=1 \mid x)=\left\{\begin{array}{ll} 0, & z<0 \\ 0.5, & z=0 \\ 1, & z>0 \end{array}, \quad z=w^{T} x+b\right. p(y=1∣x)=⎩⎨⎧0,0.5,1,z<0z=0z>0,z=wTx+b

但是这个阶跃函数不可微，对数几率函数是一个常用的替代函数,即：
y=11+e−(wTx+b)y=\frac{1}{1+e^{-\left(w^{T} x+b\right)}} y=1+e−(wTx+b)1

于是有:
ln⁡y1−y=wTx+b\ln \frac{y}{1-y}=w^{T} x+b ln1−yy=wTx+b

将 y 视为 x 为正例的概率，则 1-y 是输入x 为其反例的概率。两者的比值称为几率（odds），指该事件发生与不发生的概率比值，若事件发生的概率为 p。则对数几率：
ln⁡(odds )=ln⁡y1−y\ln (\text { odds })=\ln \frac{y}{1-y} ln( odds )=ln1−yy

2）将 yyy 视为类后验概率估计，重写公式有:

wTx+b=ln⁡P(Y=1∣x)1−P(Y=1∣x)P(Y=1∣x)=11+e−(wTx+b)\begin{gathered} w^{T} x+b&=&\ln \frac{P(Y=1 \mid x)}{1-P(Y=1 \mid x)} \\ P(Y=1 \mid x)&=&\frac{1}{1+e^{-\left(w^{T} x+b\right)}} \end{gathered} wTx+bP(Y=1∣x)==ln1−P(Y=1∣x)P(Y=1∣x)1+e−(wTx+b)1
即输出 Y=1 的对数几率是由输入 x 的线性函数表示的模型，这就是逻辑回归模型。

因此，逻辑回归的思路是，先拟合决策边界(不局限于线性，还可以是多项式)，再建立这个边界与分类的概率联系，从而得到了二分类情况下的概率。

3)使用对数几率的意义在哪？

Logistic 回归实际上是使用线性回归模型的预测值逼近分类任务真实标记的对数几率
其有点有：

直接对分类的概率建模，无需实现假设数据分布，从而避免了假设分布不准确带来的问题（区别于生成式模型）；

不仅可预测出类别，还能得到该预测的概率，这对一些利用概率辅助决策的任务很有用；

对数几率函数是任意阶可导的凸函数，有许多数值优化算法都可以求出最优解。

4)用途：

预测：如果已经建立了logistic回归模型，则可以根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大。
寻找某一疾病的危险因素。

判别: 根据logistic模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。

探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率;以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的体征与生活方式等。因此:

因变量就为是否胃癌，值为“是”或“否”，

自变量就可以包括很多了，如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。

然后通过logistic回归分析，可以得到自变量的权重，从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。

札记_ML——《统计学习方法》逻辑回归logistic regression)相关推荐

Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”
Coursera公开课笔记: 斯坦福大学机器学习第六课"逻辑回归(Logistic Regression)" 斯坦福大学机器学习第六课"逻辑回归"学习笔记,本次 ...
斯坦福大学机器学习第四课“逻辑回归(Logistic Regression)”
斯坦福大学机器学习第四课"逻辑回归(Logistic Regression)" 本次课程主要包括7部分: 1) Classification(分类) 2) Hypothesis R ...
逻辑回归(Logistic Regression)简介及C++实现
逻辑回归(Logistic Regression):该模型用于分类而非回归,可以使用logistic sigmoid函数( 可参考:http://blog.csdn.net/fengbingchun/ ...
OpenCV3.3中逻辑回归(Logistic Regression)使用举例
OpenCV3.3中给出了逻辑回归(logistic regression)的实现,即cv::ml::LogisticRegression类,类的声明在include/opencv2/ml.hpp文件 ...
OpenCV逻辑回归Logistic Regression的实例(附完整代码)
OpenCV逻辑回归Logistic Regression的实例 OpenCV逻辑回归Logistic Regression的实例 OpenCV逻辑回归Logistic Regression的实例 # ...
逻辑回归(Logistic Regression, LR)又称为逻辑回归分析，是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。例如，我们可以将购买的概率设置为因变量，将用户的
逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种.通过历史数据的表现对未来结果发生的概率进行预测.例如,我们可以将购买的概率设置为因变量,将用户的 ...
逻辑回归(logistic regression)的本质——极大似然估计
文章目录 1 前言 2 什么是逻辑回归 3 逻辑回归的代价函数 4 利用梯度下降法求参数 5 结束语 6 参考文献 1 前言逻辑回归是分类当中极为常用的手段,因此,掌握其内在原理是非常必要的.我会争 ...
CS229学习笔记(3)逻辑回归(Logistic Regression)
1.分类问题你要预测的变量yyy是离散的值,我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法,这是目前最流行使用最广泛的一种学习算法. 从二元的分类问题开始讨论. 我们 ...
机器学习笔记04：逻辑回归(Logistic regression)、分类(Classification)
之前我们已经大概学习了用线性回归(Linear Regression)来解决一些预测问题,详见: 1.<机器学习笔记01:线性回归(Linear Regression)和梯度下降(Gradien ...

札记_ML——《统计学习方法》逻辑回归logistic regression)