对数几率回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法。简单的说回归问题和分类问题如下:

回归问题:预测一个连续的输出。
分类问题:离散输出,比如二分类问题输出0或1.

逻辑回归常用于垃圾邮件分类,天气预测、疾病判断和广告投放。

一、Logistic回归假设函数

对于一个分类问题,希望找到一个预测函数hθ(x),使得:

只有发生“y=1”(正例)与不发生“y=0”(反例)两种结果(分类问题)

sigmoid函数可以满足这个性质:

其中的θTx是一个线性的函数

所以发生与不发生的概率:

对数几率:

=

二、代价函数

为了估计参数θ,我们如果采用线性回归的代价函数作为logistic的代价函数,如下:
(注:线性回归的参数可以用梯度下降法和最小二乘法来求得,最小二乘法能求出固定形式的解析解)

其中,i表示第i个样本,y(i)是真实值,hθ(x(i))是预测的值

酱的话求min代价函数J(θ)将会非常复杂,有多个局部最小值,也就是非凸的,如下所示:

我们希望的代价函数是这样的……

所以,我们用最大化似然函数的方法来估计参数……

对数似然函数如下(max):


即令每个样本属于其真实标记的概率越大越好,对数似然函数L(θ)是高阶连续可导的凸函数,由凸优化理论可以根据梯度下降法、牛顿法等求最优解θ。

所以,logistic回归的代价函数(min):

三、过拟合问题

对于线性回归或逻辑回归的损失函数构成的模型,可能会有些权重很大,有些权重很小,导致过拟合(就是过分拟合了训练数据),使得模型的复杂度提高,泛化能力较差(对未知数据的预测能力)。
下面左图即为欠拟合,中图为合适的拟合,右图为过拟合。

问题的主因
过拟合问题往往源自过多的特征。

解决方法
1)减少特征数量x(减少特征会失去一些信息,即使特征选的很好)
可用人工选择要保留的特征;
模型选择算法;
2)正则化,加上惩罚项(特征较多时比较有效)
保留所有特征,但减少θ的大小,即,对那些容易导致过拟合的θ进行惩罚

正则化方法
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大。
以多项式回归为例。左图是适当拟合,右图是过拟合。

lambda是正则项系数:
如果它的值很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,在训练数据上的偏差较大,在未知数据上的方差较小,但是可能出现欠拟合的现象;
如果它的值很小,说明比较注重对训练数据的拟合,在训练数据上的偏差会小,但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为:

四、逻辑回归的优缺点

优点:

1)它不仅预测类别,而且可以得到近似概率预测,这对许多概率辅助决策的任务很有用;
2)可以适用于连续性和类别性自变量;
3)容易使用和解释;
4)它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不准确问题;
5)对数几率函数是任意阶可导凸函数,有很好的数学性质,现有许多的数值优化算法都可以直接用于求解。

缺点:

1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。​需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;

2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着​log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。

                    <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/production/markdown_views-ea0013b516.css"></div>

对数几率回归(Logistic Regression)总结相关推荐

  1. 对数几率回归 —— Logistic Regression

    机器学习基础算法python代码实现可参考:zlxy9892/ml_code 1 原理 1.1 引入 首先,在引入LR(Logistic Regression)模型之前,非常重要的一个概念是,该模型在 ...

  2. 对数几率回归——Logistics Regression原理

    Logistic Regression 简介 对数几率回归,也称为逻辑回归,虽然名为"回归",但实际上是分类学习方法. 优点 不仅可以预测类别,还可以得到近似概率,对许多需要利用概 ...

  3. 对数几率回归原理和代码实现--机器学习

    对数几率回归Logistic Regression 原理 代码实现 原理 对数几率回归,有的也叫逻辑回归,虽然带有回归二字,但本质是做分类任务的,也是线性模型的一种. 之前介绍过线性回归,就是用最简单 ...

  4. 对数几率回归(Logistic Regression)分析与实践

    目录 1 对数几率回归原理分析 1.1 引入 1.2 损失函数 1.3  求最优解 2 对数几率回归实践 Logistic回归的一般过程 Logistic回归的优缺点 Logistic回归算法描述(改 ...

  5. 逻辑回归(logistic regression)的本质——极大似然估计

    文章目录 1 前言 2 什么是逻辑回归 3 逻辑回归的代价函数 4 利用梯度下降法求参数 5 结束语 6 参考文献 1 前言 逻辑回归是分类当中极为常用的手段,因此,掌握其内在原理是非常必要的.我会争 ...

  6. python 逻辑回归 复杂抽样_逻辑回归(Logistic Regression) ----转载

    概要: 1. 介绍Logistic Regression的数学模型,推导并详细解释求解最优回归系数的过程: 2. Python实现Logistic Regression的基本版: 3. 介绍sklea ...

  7. 机器学习(二)线性模型——线性回归、对数几率回归、线性判别分析

    一.线性回归 线性回归(linear regression:试图学得一个线性模型以尽可能准确地预测实值输出标记. 1.最简单的形式:输入属性的数且只有一个, 最小二乘法:基于均方差误差最小化来进行模型 ...

  8. 个人总结:从 线性回归 到 逻辑回归 为什么逻辑回归又叫对数几率回归?

    逻辑回归不是回归算法,是分类算法,可以处理二元分类以及多元分类. 线性回归 线性回归的模型是求出特征向量Y和输入样本矩阵X之间的线性关系系数θ,满足Y = Xθ.此时Y是连续的,所以是回归模型. 对应 ...

  9. 札记_ML——《统计学习方法》逻辑回归logistic regression)

    统计学习方法:五. 逻辑回归logistic regression 逻辑回归logistic regression Logistic的起源 1).概念logistic回归又称logistic回归分析, ...

最新文章

  1. 从分散到整合飞塔中国区商业战略的新方向
  2. 警告:Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA(亲测)
  3. kdj买卖指标公式源码_通达信指标公式源码MACD背离KDJ背离指标
  4. C++ opengl GL_QUAD_STRIP的绘制
  5. 《架构系列四:一键部署应用到Tomcat集群中》
  6. 利用公式画图_【高中数学】重要公式大汇总!
  7. 做游戏,学编程(C语言) 9 贪吃蛇
  8. envi反演水质参数_基于大气校正法的Landsat 8 TIRS地表温度反演
  9. Ubuntu18.04安装cmake(附免费下载cmake)。
  10. oracle adpatch 回退,Oracle EBS施用adpatch工具打patch过程
  11. java throw 和catch_Java catch与throw同时使用的操作
  12. Depsolving loop limit reached
  13. matlab线性代数方程的解法,Matlab中线性代数方程组的求解.pdf
  14. 数据库备份的几种解决方案
  15. Second season nineteenth episode,Eddie does not move out
  16. 体脂秤模块的原理和基本功能说明
  17. wps office word 插入图片显示异常 只显示一个长条
  18. Arduino UNO控制带AB相磁通量式编码器电动推杆(测试阻尼)实录(L289N电机驱动)
  19. halcon拓展系列—求平面度、段差算子regions_to_plane
  20. Syclover战队专访 | 年度终局之战,键指圣诞狂欢

热门文章

  1. 最通俗的运维开发工程师招聘解析
  2. 一个老兵的linux学习和面试经验分享 【转载】
  3. 友元 异常 RTTI 类型转换符
  4. Xshell光标消失
  5. 开源电商Sylius如何执行自动化测试
  6. 浪潮刀片服务器型号,浪潮刀片服务器.pdf
  7. C# 实现虚拟打印机 HP Color LaserJet 4500 (2) True Type Font字体显示
  8. JavaScript 简单 登录验证 固定账号密码
  9. labview在不同VI间传递波形(全局变量)
  10. RFID固定资产管理系统更好更快捷的掌握资产情况 资产盘查好帮手