目录

1、逻辑回归与线性回归的联系与区别

2、逻辑回归的原理

3、逻辑回归损失函数推导及优化

4、 正则化与模型评估指标

5、逻辑回归的优缺点

6、样本不均衡问题解决办法

7、sklearn参数


1、逻辑回归与线性回归的联系与区别

联系:

逻辑回归与线性回归都属于广义线性回归模型。

逻辑回归往往是解决二元0/1分类问题的,之所以叫“回归”因为其本质还是线性回归。可以认为逻辑回归的输入是线性回归的输出,将逻辑斯蒂函数(Sigmoid曲线)作用于线性回归的输出得到输出结果。

线性回归y = ax + b, 其中a和b是待求参数;
逻辑回归p = S(ax + b), 其中a和b是待求参数, S是逻辑斯蒂函数,然后根据p与1-p的大小确定输出的值,通常阈值取0.5,若p大于0.5则归为1这类。

区别:

1、线性回归目标函数是最小二乘,而逻辑回归则是似然函数。也正是因为使用的参数估计的方法不同,线性回归模型更容易受到异常值(outlier)的影响,有可能需要不断变换阈值(threshold);
2、线性回归是在整个实数域范围内进行预测,敏感度一致。逻辑回归则将预测值限定为[0,1]间。因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。
3、线性回归中,独立变量的系数解释十分明了,就是保持其他变量不变时,改变单个变量因变量的改变量。逻辑回归中,自变量系数的解释就要视情况而定了,要看选用的概率分布是什么,如二项式分布,泊松分布等。

2、逻辑回归的原理

以二元逻辑回归为例

3、逻辑回归损失函数推导及优化

逻辑回归采用交叉熵作为代价函数,即对数损失函数(logarithmic loss function) 或对数似然损失函数(log-likehood loss function):

L(Y,P(Y|X))=−logP(Y|X)

对数损失函数能够有效避免梯度消失。

对于二元逻辑回归的损失函数极小化,有比较多的方法,最常见的有梯度下降法,坐标轴下降法,等牛顿法等。这里推导出梯度下降法中θ每次迭代的公式。由于代数法推导比较的繁琐,我习惯于用矩阵法来做损失函数的优化过程,这里给出矩阵法推导二元逻辑回归梯度的过程。

4、 正则化与模型评估指标

逻辑回归的L1正则化的损失函数表达式如下,相比普通的逻辑回归损失函数,增加了L1的范数做作为惩罚,超参数α作为惩罚系数,调节惩罚项的大小。

模型评估指标:

  • 精准率
  • 召回率
  • F1 score
  • precision—recall的平衡(曲线)
  • ROC曲线

详情参考:逻辑回归及其评价指标——自学第九篇
https://blog.csdn.net/yh_1021/article/details/82765923

5、逻辑回归的优缺点

优点:

1、实现简单;

2、分类时计算量非常小,速度很快,存储资源低;

缺点:

1、容易欠拟合,一般准确度不太高;

2、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;

6、样本不均衡问题解决办法

处理样本不均衡数据一般可以有以下方法:

1、人为将样本变为均衡数据。

上采样:重复采样样本量少的部分,以数据量多的一方的样本数量为标准,把样本数量较少的类的样本数量生成和样本数量多的一方相同。

下采样:减少采样样本量多的部分,以数据量少的一方的样本数量为标准。

2、调节模型参数(class_weigh,sample_weight,这些参数不是对样本进行上采样下采样等处理,而是在损失函数上对不同的样本加上权重)

(A)逻辑回归中的参数class_weigh;

在逻辑回归中,参数class_weight默认None,此模式表示假设数据集中的所有标签是均衡的,即自动认为标签的比例是1:1。所以当样本不均衡的时候,我们可以使用形如{标签的值1:权重1,标签的值2:权重2}的字典来输入真实的样本标签比例(例如{“违约”:10,“未违约”:1}),来提高违约样本在损失函数中的权重。

或者使用”balanced“模式,sklearn内部原理:直接使用n_samples/(n_classes * np.bincount(y)),即样本总数/(类别数量*y0出现频率)作为权重,可以比较好地修正我们的样本不均衡情况。

7、sklearn参数

参考博客原文:https://blog.csdn.net/MY578719543/article/details/88093323

算法梳理(二)逻辑回归算法梳理相关推荐

  1. 机器学习基础算法四:逻辑回归算法实验

    逻辑回归算法实验 一.逻辑回归介绍 逻辑回归是一种分类模型 z=WTX=w0+w1x1+w2x2+......+wnxnz =W^{T}X=w^{0}+w^{1}x^{1}+w^{2}x^{2}+.. ...

  2. 收藏!!如何 Get 机器学习必备的算法技能? | 逻辑回归

    本文是吴恩达老师的机器学习课程[1]的笔记和代码复现部分(逻辑回归). 作者:黄海广[2] 备注:笔记和作业(含数据.原始作业文件).视频都在github[3]中下载. 我将陆续将课程笔记和课程代码发 ...

  3. 机器学习算法平台alink_机器学习-逻辑回归算法

    1-逻辑回归算法原理推导 逻辑回归算法其实是一个分类算法,是非常经典,优秀的算法.一般我们不知道用哪个分类算法的时候,首先用逻辑回归算法试一试:它不仅可以实现二分类算法,还可以解决多分类问题 逻辑回归 ...

  4. python实现逻辑回归算法_逻辑回归算法的实现

    前言 在之前的学习中,我们已经学习了逻辑回归算法的具体数学原理及其简单的推导过程,现在,我们可以用python实现逻辑回归的算法了. 环境 python3.6 jupyter-notebook 绘制数 ...

  5. spark 逻辑回归算法案例_黄美灵的Spark ML机器学习实战

    原标题:黄美灵的Spark ML机器学习实战 本课程主要讲解基于Spark 2.x的ML,ML是相比MLlib更高级的机器学习库,相比MLlib更加高效.快捷:ML实现了常用的机器学习,如:聚类.分类 ...

  6. 逻辑回归算法梳理-2

    机器学习初级算法梳理二 任务二:逻辑回归算法梳理 1.逻辑回归与线性回归的联系与区别 1.1 相同点 1.2 不同点 2. 逻辑回归的原理 3.逻辑回归损失函数推导及优化 3.1 推导 3.2 优化 ...

  7. ML之LoR:基于LoR(逻辑回归)算法对乳腺癌肿瘤(9+1)进行二分类预测(良/恶性)

    ML之LoR:基于LoR(逻辑回归)算法对乳腺癌肿瘤(9+1)进行二分类预测(良/恶性) 目录 输出结果 设计思路 数据集 核心代码 输出结果 Testing accuracy (10 trainin ...

  8. 逻辑回归算法实现鸢尾花数据集的二分类

    1.介绍 前言   为了更好的理解本章内容,请参考下面的网址,自主学习一些矩阵求导运算. https://zhuanlan.zhihu.com/p/158182135机器学习约定规则: 向量对标量求导 ...

  9. 逻辑回归算法——经典的二分类算法

    一.概述 1.逻辑回归(Logistic Regression)算法是分类算法,而不是回归算法 2.决策边界:可以是非线性的(高阶) 二.sigmoid函数 1.定义: g ( z ) = 1 1 + ...

  10. 逻辑回归算法原理简介

    1,逻辑回归简介 逻辑回归完成分类任务,是经典的二分类算法(也可以解决多分类问题),机器学习算法一般选择先逻辑回归(优先选择)再用复杂的,逻辑回归的决策边界可以是非线性的(高阶).可以通过参数对结果进 ...

最新文章

  1. desktop docker 无法卸载_用containerd替换docker(shim)
  2. Ubuntu下 MySQL安装
  3. microsoftexchange邮箱容量怎样看_企业邮箱申请注册的要求有哪些?_网站建设_创客网络...
  4. 计算机等级考试初级网络工程师,2019年全国计算机等级考试网络工程师四级,需..._网络编辑_帮考网...
  5. python测试题 - 列表,字典,字符串
  6. HDU 4825:Print Article(01字典树)
  7. AcWing 208. 开关问题 (高斯消元+状压)打卡
  8. FriendStyle CSS
  9. 尚硅谷大数据之数据质量管理
  10. 前端安全- 常见的网络攻击
  11. java tomcat热部署_intellij idea tomcat热部署配置教程
  12. 开源游戏服务器框架NoahGameFrame(NF)服务器端环境搭建(二)
  13. 如何鉴别电脑电源是否虚标(实际输出瓦数)
  14. golang 字符串拼接 字符串数组转字符串
  15. 用计算机打字教案,《打字机》教案
  16. 微软近日更新网页版Skype增通知版面和关键词搜寻
  17. java地铁最短距离_地铁线路最短路径问题
  18. Qt5.13.2中配置opencv4.5.0踩坑记录
  19. 图像质量评价领域前沿综述(2022)
  20. 无线对讲软交换调度服务器,应急指挥对讲调度SIP通信系统的功能介绍

热门文章

  1. 软件架构的10个质量属性
  2. Java网络商城项目 SpringBoot+SpringCloud+Vue 网络商城(SSM前后端分离项目)十六(商品排序,Thymeleaf快速入门,商品详情页的展示)
  3. docker:IPv4 forwarding is disabled. Networking will not work. 解决方法
  4. 编码乱码问题解释,解决Tomcat乱码的最快速有效办法。【希望能够指正】
  5. ​WebStorm 超好用的10款插件,效率提升了好多!
  6. JAVA核心知识点之 数据结构:总结概述
  7. ArcGIS Pro_地理配准
  8. SAP ABAP CDS view Association 引入的缘由
  9. 浅谈对IT架构师的理解
  10. jQJQJQJQJQJQ