数据嗨客 | 第4期:逻辑回归
摘要:逻辑回归,也称LogisticRegression,主要区别于一般的线性回归模型。
1引子
大家在日常的工作和学习中是不是经常有这样的疑问:邮箱是如何自动区分正常邮件和垃圾邮件的呢?
银行是如何判断是否通过你的贷款申请的呢?
经常收到某种商品的推荐信息,商家又是如何知道你对这个商品感兴趣的呢?
为了回答上述疑问,这一期给大家介绍逻辑回归算法。
逻辑回归,也称LogisticRegression,主要区别于一般的线性回归模型。
我们知道,一般的线性回归模型都是处理因变量是连续变量的问题,如果因变量是定性变量,一般线性回归模型就不再适用。
逻辑回归算法因其原理的相对简单,可解释性强等优点已成为互联网领域最常用也最有影响力的分类算法之一,同时它还可以作为众多集成算法以及深度学习的基本组成单位,所以学好逻辑回归尤其重要。
或许有人会有疑问,为什么对于分类问题,逻辑回归行而一般的线性回归模型却不行呢?
二者的区别又是什么呢?
下面将从现实意义和数学理论上给出解释。
2定性因变量回归方程的意义
设因变量y是只取0,1两个值,考虑简单线性回归模型:
在这种y只取0和1两个值的情况下,因变量均值
有着特殊的意义。
由于y是0-1型随机变量,得到如下概率分布:
P(y=1)=p
P(y=0)=1−p
根据离散型随机变量期望值的定义,可得
E(y)=1(p)+0(1−p)=p
所以,作为由回归函数给定的因变量均值,是自变量水平为x时y=1的概率。
3逻辑回归模型的特别之处
对于一般的线性模型
误差项有大三假定条件:
(1)误差项ε是一个期望为0的随机变量,即;
(2)误差项ε是一个服从正态分布的随机变量,且相互独立,即
(3)对于所有的x,的方差都相同,这意味着对于一个特定的x值,y的方差也都等于。
而在因变量y只能取0和1的逻辑回归模型,误差项显然是两点型的离散分布,不满足误差项正态分布的基本假定;
同时误差项的方差可以看出误差项随着x的不同水平而变化,是异方差,不满足线性回归的基本假定;
当因变量为0和1时,回归方程代表的是概率分布,所以因变量的均值受到的限制,一般的线性回归方程不会有这种限制。而逻辑回归却利用一些数学变化巧妙的解决了这些的问题,请看下面一节。
4从一般线性回归到逻辑回归
当被解释变量y为0和1的二分类变量时,虽然无法采用一般的线性回归模型建模,但是可以借鉴其理论基础:
第一,一般线性模型
方程左侧的概率p的取值范围为[0,1],方程右边的额取值范围在−∞∼+∞之间。
如果对概率p做合理的变换,使其的取值范围与右侧吻合,则左侧和右侧可以通过等号连接起来。
第二,一般线性模型
方程中的概率p与解释变量之间的关系是线性的。
但在实际的应用中,它们之间的关系往往是非线性的,例如通过银行贷款申请的概率通常不会随着年收入(或者年龄等)的增长而线性增长,于是对概率p的变换应该是采用非线性变换。
基于以上的分析,可采取一下两步变换:
第一步,将概率p转换成
称为logitP。
上述的两步变换称为logit变换。经过logit变换,logitP的取值范围范围为−∞∼+∞,与一般线性回归模型右侧的取值范围吻合。
同时logitP与p之间保持单调一致性。
至此,用等号将logitP和一般线性模型的右侧连接起来,得到
,即为逻辑回归模型。
这样我们就完成从一般线性模型到逻辑回归模型的演变。
或许有人还会质疑logit变换的合理性,那么我们就继续往下扒。
从以上的推导和变换我们得到,
故有
其为(0,1)型的Sigmoid函数,如下图所示。这是一个非线性函数,很好的体现了概率p与解释变量之间的非线性关系。
5逻辑回归模型的解读
逻辑回归方程的右侧与一般线性回归方程的形式一致,可用类似的方法解释逻辑回归方程系数的含义,即当其他自变量保持不变时,自变量xi每增加一个单位,logitP平均增加(或减少)βi个单位。
在实际应用中,人们更关心自变量为优势Ω带来的变化,其中优势
表示某一事件的发生概率与不发生概率之比。同时我们还会通过优势比来进行不同组别之间风险的对比分析。
在逻辑回归方程中,,当其他自变量不变时,xi每增加一个单位,优势变为原来优势的,优势比即为。
6逻辑回归模型的参数估计
设y是0-1型变量,是与y相关的确定性变量,n组观测数据为,其中,是取值0或1的随机变量,yi与的关系如下:
其中,函数f(x)是值域在[0,1]区间内的单调增函数。对于逻辑回归
于是yi是均值为
的0-1分布,概率函数为
可以把yi的概率函数合写为
于是,的似然函数为
对似然函数取自然对数,得
对于logistic回归,将
代入得
最大似然估计就是选取的估计值,使上式最大。同时,作为一个最优化问题,可以采用梯度下降法和牛顿法等最优化算法。
7逻辑回归模型的检验
逻辑回归方程的显著性检验的目的是检验所有自变量与logitP的线性关系是否显著,是否可以选择线性模型。
原假设是假设各回归系数同时为0,自变量全体与logitP的线性关系不显著。
如果方程中的诸多自变量对logitP的线性解释有显著意义,那么必然会使回归方程对样本的拟合得到显著提高。
可通过对数似然比测度拟合程度是否有所提高。
我们通常采用似然比检验统计量也可称为似然比卡方,其中L表示引入变量前回归方程的似然函数值,表示引入变量xi后回归方程的似然函数值。
似然比检验统计量越大表明引入变量xi越有意义。
如果似然比卡方观测值的概率p值小于给定的显著性水平,不接受原假设,即认为自变量全体与logitP之间的线性关系显著。
反之,线性关系不显著。
8回归系数的显著性检验
逻辑回归系数的显著性检验是检验方程中各变量与logitP之间是否具有线性关系。原假设是假设变量与logitP之间的线性关系不显著,即。
回归系数的显著性检验采用的是Wald统计量,其中,
是回归系数,是回归系数的标准误差。
Wald检验统计量近似服从卡方分布,当变量xi的Wald观测值的p值小于给定的显著性水平,不接受原假设,即变量xi与logitP的线性关系显著,应保留该变量。
9后记
逻辑回归虽然简单,但是因为其运算过程简单,而且分类效果不会太差,所以在业界应用广泛。
我们大名鼎鼎的围棋高手AlphaGo在快速走子的过程中,也有用到该算法哟。
本次对逻辑回归的介绍就到这里,下一期我们将介绍支持向量机。
数据嗨客 | 第4期:逻辑回归相关推荐
- 数据嗨客 | 第1期
数据嗨客 | 第1期:5分钟包你看懂"机器学习" 郑来轶 10 个月前 和大数据一样,机器学习(MachineLearning, ML)是一个热门而又有略有误导性的名词. 字面上它 ...
- 写文章 数据嗨客 | 第2期:线性回归 数据嗨客 | 第2期:线性回归 泊数 泊数 1 年前 普林大数据学院——“机器学习”系列 普林大数据学院依托北京大数据研究院和北京大学,为有需求的企业
数据嗨客 | 第2期:线性回归 泊数 1 年前 普林大数据学院--"机器学习"系列 普林大数据学院依托北京大数据研究院和北京大学,为有需求的企业和用户提供线上线下结合大数据培训服务 ...
- 数据嗨客 | 第3期:朴素贝叶斯和垃圾邮件过滤 机器学习 2016-11-01 0 摘要:概率论只不过是把常识用数学公式表达了出来。 概率论只不过是把常识用数学公式表达了出来。 —
数据嗨客 | 第3期:朴素贝叶斯和垃圾邮件过滤 机器学习 2016-11-01 0 摘要:概率论只不过是把常识用数学公式表达了出来. 概率论只不过是把常识用数学公式表达了出来. ----拉普拉斯 由于 ...
- 使用聚类算法(Kmeans)进行数据降维并作为分类算法逻辑回归(logistic Regression)的数据预处理步骤实战
使用聚类算法(Kmeans)进行数据降维并作为分类算法逻辑回归(logistic Regression)的数据预处理步骤实战 目录
- 数据嗨客的python学习(笔记)
进度 本来打算两三天完成的,但是现在已经是第三天了.尽快完成吧! 记录与思考 在Python里四个空格和Tab键是不一样的,因为网站的默认是四个空格,所以有时候我打的是Tab键就会出现错误. 由于二维 ...
- sklearn实战-----5.逻辑回归与评分卡
1 概述 1.1 名为"回归"的分类器 在过去的四周中,我们接触了不少带"回归"二字的算法,回归树,随机森林的回归,无一例外他们都是区别于分类 算法们,用来处理 ...
- 机器学习第5天:逻辑回归
文章目录 一.环境 二.具体实现步骤 第1步:数据预处理 导入库 导入数据 将数据集分成训练集和测试集 第2步:逻辑回归模型 第3步:预测结果 第4步:评估预测结果 可视化 三.可视化结果展示 四.逻 ...
- 【机器学习基础】(三):理解逻辑回归及二分类、多分类代码实践
本文是机器学习系列的第三篇,算上前置机器学习系列是第八篇.本文的概念相对简单,主要侧重于代码实践. 上一篇文章说到,我们可以用线性回归做预测,但显然现实生活中不止有预测的问题还有分类的问题.我们可以从 ...
- 风控模型师面试准备--技术篇(逻辑回归、决策树、集成学习)
原文地址:https://zhuanlan.zhihu.com/p/56175215 编辑于2019-02-12,持续更新中,有风控建模工作经验的,或者想转行风控建模的小伙伴可以互相交流下... 一. ...
最新文章
- 030_vue命名路由
- 春招实习前端面试题汇总
- ABP从入门到精通(4):使用基于JWT标准的Token访问WebApi
- spring随笔(二) AOP
- 在此服务上找不到此服务_windows无法连接到服务,此问题阻止标准用户登录,怎么办?...
- No input file specified的解决方法
- HTML5网站大观:10个精美的 HTML5 企业网站欣赏
- 老旗舰华为能用上鸿蒙吗,荣耀手机能升级鸿蒙吗?五款旗舰优先,老荣耀机主或有惊喜...
- 毁掉孩子自信的10个杀手
- CocosCreator之粒子动画入门:飞机尾焰
- php curl 417,cURL简单文件上传-417预期失败
- 又一股份制银行,菊风「视频能力平台」承包了
- unity C# 时间换算记录
- mysql的sid_修改数据库的SID
- Educational Codeforces Round 61 (Rated for Div. 2) D. Stressful Training(贪心+二分)
- trunc和round区别
- vue3中使用canvas
- 103个后台PSD源文件、素材网站
- Cisco3905话机一直停留在‘image downloading fail’界面
- 求答案 ? 一筐鸡蛋: 1个1个拿,正好拿完。 2个2个拿,还剩1个。 3个3个拿,正好拿完。 4个4个拿,还剩1个。 5个5个拿,还差1个。 6个6个拿,还剩3个。 7个7个拿,还剩4个。 8个8个