对数几率回归（Logistic Regression）总结

对数几率回归logistic regression，虽然名字是回归，但是实际上它是处理分类问题的算法。简单的说回归问题和分类问题如下：

回归问题：预测一个连续的输出。
分类问题：离散输出，比如二分类问题输出0或1.

逻辑回归常用于垃圾邮件分类，天气预测、疾病判断和广告投放。

一、Logistic回归假设函数

对于一个分类问题，希望找到一个预测函数hθ(x)，使得：

只有发生“y=1”（正例）与不发生“y=0”（反例）两种结果（分类问题）

sigmoid函数可以满足这个性质：

其中的θTx是一个线性的函数

所以发生与不发生的概率：

对数几率：

二、代价函数

为了估计参数θ，我们如果采用线性回归的代价函数作为logistic的代价函数，如下：
（注：线性回归的参数可以用梯度下降法和最小二乘法来求得，最小二乘法能求出固定形式的解析解）

其中，i表示第i个样本，y(i)是真实值，hθ(x(i))是预测的值

酱的话求min代价函数J(θ)将会非常复杂，有多个局部最小值，也就是非凸的，如下所示：

我们希望的代价函数是这样的……

所以，我们用最大化似然函数的方法来估计参数……

对数似然函数如下（max）：

即令每个样本属于其真实标记的概率越大越好，对数似然函数L(θ)是高阶连续可导的凸函数，由凸优化理论可以根据梯度下降法、牛顿法等求最优解θ。

所以，logistic回归的代价函数（min）：

三、过拟合问题

对于线性回归或逻辑回归的损失函数构成的模型，可能会有些权重很大，有些权重很小，导致过拟合（就是过分拟合了训练数据），使得模型的复杂度提高，泛化能力较差（对未知数据的预测能力）。
下面左图即为欠拟合，中图为合适的拟合，右图为过拟合。

问题的主因
过拟合问题往往源自过多的特征。

解决方法
1）减少特征数量x（减少特征会失去一些信息，即使特征选的很好）
可用人工选择要保留的特征；
模型选择算法；
2）正则化，加上惩罚项（特征较多时比较有效）
保留所有特征，但减少θ的大小，即，对那些容易导致过拟合的θ进行惩罚

正则化方法
正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项就越大。
以多项式回归为例。左图是适当拟合，右图是过拟合。

lambda是正则项系数：
如果它的值很大，说明对模型的复杂度惩罚大，对拟合数据的损失惩罚小，这样它就不会过分拟合数据，在训练数据上的偏差较大，在未知数据上的方差较小，但是可能出现欠拟合的现象；
如果它的值很小，说明比较注重对训练数据的拟合，在训练数据上的偏差会小，但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为：

四、逻辑回归的优缺点

优点：

1）它不仅预测类别，而且可以得到近似概率预测，这对许多概率辅助决策的任务很有用；
2）可以适用于连续性和类别性自变量；
3）容易使用和解释；
4）它是直接对分类可能性建模，无需事先假设数据分布，这样就避免了假设分布不准确问题；
5）对数几率函数是任意阶可导凸函数，有很好的数学性质，现有许多的数值优化算法都可以直接用于求解。

缺点：

1）对模型中自变量多重共线性较为敏感，例如两个高度相关自变量同时放入模型，可能导致较弱的一个自变量回归符号不符合预期，符号被扭转。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量，以减少候选变量之间的相关性；

2）预测结果呈“S”型，因此从log(odds)向概率转化的过程是非线性的，在两端随着log(odds)值的变化，概率变化很小，边际值太小，slope太小，而中间概率的变化很大，很敏感。导致很多区间的变量变化对目标概率的影响没有区分度，无法确定阀值。

                    <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/production/markdown_views-ea0013b516.css"></div>

对数几率回归（Logistic Regression）总结相关推荐

对数几率回归 —— Logistic Regression
机器学习基础算法python代码实现可参考:zlxy9892/ml_code 1 原理 1.1 引入首先,在引入LR(Logistic Regression)模型之前,非常重要的一个概念是,该模型在 ...
对数几率回归——Logistics Regression原理
Logistic Regression 简介对数几率回归,也称为逻辑回归,虽然名为"回归",但实际上是分类学习方法. 优点不仅可以预测类别,还可以得到近似概率,对许多需要利用概 ...
对数几率回归原理和代码实现--机器学习
对数几率回归Logistic Regression 原理代码实现原理对数几率回归,有的也叫逻辑回归,虽然带有回归二字,但本质是做分类任务的,也是线性模型的一种. 之前介绍过线性回归,就是用最简单 ...
对数几率回归（Logistic Regression）分析与实践
目录 1 对数几率回归原理分析 1.1 引入 1.2 损失函数 1.3 求最优解 2 对数几率回归实践 Logistic回归的一般过程 Logistic回归的优缺点 Logistic回归算法描述(改 ...
逻辑回归(logistic regression)的本质——极大似然估计
文章目录 1 前言 2 什么是逻辑回归 3 逻辑回归的代价函数 4 利用梯度下降法求参数 5 结束语 6 参考文献 1 前言逻辑回归是分类当中极为常用的手段,因此,掌握其内在原理是非常必要的.我会争 ...
python 逻辑回归复杂抽样_逻辑回归(Logistic Regression) ----转载
概要: 1. 介绍Logistic Regression的数学模型,推导并详细解释求解最优回归系数的过程: 2. Python实现Logistic Regression的基本版: 3. 介绍sklea ...
机器学习（二）线性模型——线性回归、对数几率回归、线性判别分析
一.线性回归线性回归(linear regression:试图学得一个线性模型以尽可能准确地预测实值输出标记. 1.最简单的形式:输入属性的数且只有一个, 最小二乘法:基于均方差误差最小化来进行模型 ...
个人总结：从线性回归到逻辑回归为什么逻辑回归又叫对数几率回归？
逻辑回归不是回归算法,是分类算法,可以处理二元分类以及多元分类. 线性回归线性回归的模型是求出特征向量Y和输入样本矩阵X之间的线性关系系数θ,满足Y = Xθ.此时Y是连续的,所以是回归模型. 对应 ...
札记_ML——《统计学习方法》逻辑回归logistic regression)
统计学习方法:五. 逻辑回归logistic regression 逻辑回归logistic regression Logistic的起源 1).概念logistic回归又称logistic回归分析, ...

对数几率回归（Logistic Regression）总结

对数几率回归（Logistic Regression）总结相关推荐

最新文章

热门文章