对数几率回归(Logistic Regression)总结
对数几率回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法。简单的说回归问题和分类问题如下:
回归问题:预测一个连续的输出。
分类问题:离散输出,比如二分类问题输出0或1.
逻辑回归常用于垃圾邮件分类,天气预测、疾病判断和广告投放。
一、Logistic回归假设函数
对于一个分类问题,希望找到一个预测函数hθ(x),使得:
只有发生“y=1”(正例)与不发生“y=0”(反例)两种结果(分类问题)
sigmoid函数可以满足这个性质:
其中的θTx是一个线性的函数
所以发生与不发生的概率:
对数几率:
=
二、代价函数
为了估计参数θ,我们如果采用线性回归的代价函数作为logistic的代价函数,如下:
(注:线性回归的参数可以用梯度下降法和最小二乘法来求得,最小二乘法能求出固定形式的解析解)
其中,i表示第i个样本,y(i)是真实值,hθ(x(i))是预测的值
酱的话求min代价函数J(θ)将会非常复杂,有多个局部最小值,也就是非凸的,如下所示:
我们希望的代价函数是这样的……
所以,我们用最大化似然函数的方法来估计参数……
对数似然函数如下(max):
即令每个样本属于其真实标记的概率越大越好,对数似然函数L(θ)是高阶连续可导的凸函数,由凸优化理论可以根据梯度下降法、牛顿法等求最优解θ。
所以,logistic回归的代价函数(min):
三、过拟合问题
对于线性回归或逻辑回归的损失函数构成的模型,可能会有些权重很大,有些权重很小,导致过拟合(就是过分拟合了训练数据),使得模型的复杂度提高,泛化能力较差(对未知数据的预测能力)。
下面左图即为欠拟合,中图为合适的拟合,右图为过拟合。
问题的主因
过拟合问题往往源自过多的特征。
解决方法
1)减少特征数量x(减少特征会失去一些信息,即使特征选的很好)
可用人工选择要保留的特征;
模型选择算法;
2)正则化,加上惩罚项(特征较多时比较有效)
保留所有特征,但减少θ的大小,即,对那些容易导致过拟合的θ进行惩罚
正则化方法
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大。
以多项式回归为例。左图是适当拟合,右图是过拟合。
lambda是正则项系数:
如果它的值很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,在训练数据上的偏差较大,在未知数据上的方差较小,但是可能出现欠拟合的现象;
如果它的值很小,说明比较注重对训练数据的拟合,在训练数据上的偏差会小,但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为:
四、逻辑回归的优缺点
优点:
1)它不仅预测类别,而且可以得到近似概率预测,这对许多概率辅助决策的任务很有用;
2)可以适用于连续性和类别性自变量;
3)容易使用和解释;
4)它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不准确问题;
5)对数几率函数是任意阶可导凸函数,有很好的数学性质,现有许多的数值优化算法都可以直接用于求解。
缺点:
1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;
2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。
<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/production/markdown_views-ea0013b516.css"></div>
对数几率回归(Logistic Regression)总结相关推荐
- 对数几率回归 —— Logistic Regression
机器学习基础算法python代码实现可参考:zlxy9892/ml_code 1 原理 1.1 引入 首先,在引入LR(Logistic Regression)模型之前,非常重要的一个概念是,该模型在 ...
- 对数几率回归——Logistics Regression原理
Logistic Regression 简介 对数几率回归,也称为逻辑回归,虽然名为"回归",但实际上是分类学习方法. 优点 不仅可以预测类别,还可以得到近似概率,对许多需要利用概 ...
- 对数几率回归原理和代码实现--机器学习
对数几率回归Logistic Regression 原理 代码实现 原理 对数几率回归,有的也叫逻辑回归,虽然带有回归二字,但本质是做分类任务的,也是线性模型的一种. 之前介绍过线性回归,就是用最简单 ...
- 对数几率回归(Logistic Regression)分析与实践
目录 1 对数几率回归原理分析 1.1 引入 1.2 损失函数 1.3 求最优解 2 对数几率回归实践 Logistic回归的一般过程 Logistic回归的优缺点 Logistic回归算法描述(改 ...
- 逻辑回归(logistic regression)的本质——极大似然估计
文章目录 1 前言 2 什么是逻辑回归 3 逻辑回归的代价函数 4 利用梯度下降法求参数 5 结束语 6 参考文献 1 前言 逻辑回归是分类当中极为常用的手段,因此,掌握其内在原理是非常必要的.我会争 ...
- python 逻辑回归 复杂抽样_逻辑回归(Logistic Regression) ----转载
概要: 1. 介绍Logistic Regression的数学模型,推导并详细解释求解最优回归系数的过程: 2. Python实现Logistic Regression的基本版: 3. 介绍sklea ...
- 机器学习(二)线性模型——线性回归、对数几率回归、线性判别分析
一.线性回归 线性回归(linear regression:试图学得一个线性模型以尽可能准确地预测实值输出标记. 1.最简单的形式:输入属性的数且只有一个, 最小二乘法:基于均方差误差最小化来进行模型 ...
- 个人总结:从 线性回归 到 逻辑回归 为什么逻辑回归又叫对数几率回归?
逻辑回归不是回归算法,是分类算法,可以处理二元分类以及多元分类. 线性回归 线性回归的模型是求出特征向量Y和输入样本矩阵X之间的线性关系系数θ,满足Y = Xθ.此时Y是连续的,所以是回归模型. 对应 ...
- 札记_ML——《统计学习方法》逻辑回归logistic regression)
统计学习方法:五. 逻辑回归logistic regression 逻辑回归logistic regression Logistic的起源 1).概念logistic回归又称logistic回归分析, ...
最新文章
- 从分散到整合飞塔中国区商业战略的新方向
- 警告:Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA(亲测)
- kdj买卖指标公式源码_通达信指标公式源码MACD背离KDJ背离指标
- C++ opengl GL_QUAD_STRIP的绘制
- 《架构系列四:一键部署应用到Tomcat集群中》
- 利用公式画图_【高中数学】重要公式大汇总!
- 做游戏,学编程(C语言) 9 贪吃蛇
- envi反演水质参数_基于大气校正法的Landsat 8 TIRS地表温度反演
- Ubuntu18.04安装cmake(附免费下载cmake)。
- oracle adpatch 回退,Oracle EBS施用adpatch工具打patch过程
- java throw 和catch_Java catch与throw同时使用的操作
- Depsolving loop limit reached
- matlab线性代数方程的解法,Matlab中线性代数方程组的求解.pdf
- 数据库备份的几种解决方案
- Second season nineteenth episode,Eddie does not move out
- 体脂秤模块的原理和基本功能说明
- wps office word 插入图片显示异常 只显示一个长条
- Arduino UNO控制带AB相磁通量式编码器电动推杆(测试阻尼)实录(L289N电机驱动)
- halcon拓展系列—求平面度、段差算子regions_to_plane
- Syclover战队专访 | 年度终局之战,键指圣诞狂欢