LR为什么用sigmoid函数, 为什么不用其他函数?

  1. 逻辑回归的条件分布是伯努利分布,而线性回归的是高斯分布。
  2. 逻辑回归要预测的值是概率,因此要通过sigmoid函数约束到(0,1)区间,从而输出因为逻辑回归预测的是某个输出值(0或1)的概率。

sigmoid函数有什么优点和缺点?

优点

  • 输入范围是−∞→+∞−∞→+∞ ,输出范围为(0,1),正好满足概率分布为(0,1)的要求。我们用概率去描述分类器,自然比单纯的某个阈值要方便很多;
  • 单调上升的函数,具有良好的连续性,不存在不连续点并且可导。
  • 函数关于(0,0.5) 中心对称

缺点

  • 幂运算相对耗时
  • sigmoid 函数反向传播时,很容易就会出现梯度消失的情况

LR和SVM有什么区别?

  • 相同点:

    • 都是监督的分类算法
    • 都是线性分类方法(LR也是可以加核函数)
    • 都是判别模型
      判别模型和生成模型是两个相对应的模型。
      判别模型是直接生成一个表示P(Y|X)P(Y|X)或者Y=f(X)的判别函数(或预测模型)
      生成模型是先计算联合概率分布P(Y,X)P(Y,X)然后通过贝叶斯公式转化为条件概率。
      SVM和LR,KNN,决策树都是判别模型,而朴素贝叶斯,隐马尔可夫模型是生成模型。
      生成算法尝试去找到底这个数据是怎么生成的(产生的),然后再对一个信号进行分类。基于你的生成假设,那么那个类别最有可能产生这个信号,这个信号就属于那个类别。判别模型不关心数据是怎么生成的,它只关心信号之间的差别,然后用差别来简单对给定的一个信号进行分类。
  • 不同点:

    • LR的损失函数是cross entropy,SVM的损失函数是最大化间隔距离。不同的loss function代表了不同的假设前提,也就代表了不同的分类原理。LR方法基于概率理论,假设样本为0或者1的概率可以用sigmoid函数来表示,然后通过极大似然估计的方法估计出参数的值,或者从信息论的角度来看,其是让模型产生的分布P(Y|X)P(Y|X)尽可能接近训练数据的分布,相当于最小化KL距离(因为KL距离展开后,后一项为常数,剩下的一项就是cross entropy)。
    • SVM只考虑分类面上的点,而LR考虑所有点。支持向量机基于几何间隔最大化原理,认为存在最大几何间隔的分类面为最优分类面。SVM中,在支持向量之外添加减少任何点都对结果没有影响,而LR则是每一个点都会影响决策。Linear SVM不直接依赖于数据分布,分类平面不受一类点影响。LR则是受所有数据点的影响,所以受数据本身分布影响的,如果数据不同类别strongly unbalance,一般需要先对数据做balancing。
    • SVM不能产生概率,LR可以产生概率
      LR本身就是基于概率的,所以它产生的结果代表了分成某一类的概率,而SVM则因为优化的目标不含有概率因素,所以其不能直接产生概率(虽然现有的工具包,可以让SVM产生概率,但是那不是SVM原本自身产生的,而是在SVM基础上建立了一个别的模型,当其要输出概率的时候,还是转化为LR)。SVM甚至是SVR本质上都不是概率模型,因为其基于的假设就不是关于概率的
      SVM依赖于数据的测度,而LR则不受影响。因为SVM是基于距离的,而LR是基于概率的,所以LR是不受数据不同维度测度不同的影响,而SVM因为要最小化12||w||212||w||2所以其依赖于不同维度测度的不同,如果差别较大需要做normalization。当然如果LR要加上正则化时,也是需要normalization一下的。如果不归一化,各维特征的跨度差距很大,目标函数就会是“扁”的,在进行梯度下降的时候,梯度的方向就会偏离最小值的方向,走很多弯路。
    • SVM会用核函数而LR一般不用核函数的原因
      SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算量。而LR则每个点都需要两两计算核函数,计算量太过庞大。
    • LR和SVM在实际应用的区别
      根据经验来看,对于小规模数据集,SVM的效果要好于LR,但是大数据中,SVM的计算复杂度受到限制,而LR因为训练简单,可以在线训练,所以经常会被大量采用。

Logistics vs 随机森林 vs SVM

  • 模型
  • 损失函数
  • 优缺点
  • 应用场景

逻辑回归适用于处理接近线性可分的分类问题
如果边界是非线性的,并且能通过不断将特征空间切分为矩形来模拟,那么决策树是比逻辑回归更好的选择。
逻辑回归算法对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。严重的多重共线性则可以使用逻辑回归结合L2正则化来解决,不过如果要得到一个简约模型,L2正则化并不是最好的选择,因为它建立的模型涵盖了全部的特征

逻辑回归的优点:
• 便利的观测样本概率分数;
• 已有工具的高效实现;
• 对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决;
• 逻辑回归广泛的应用于工业问题上(这一点很重要)。

逻辑回归的缺点:
• 当特征空间很大时,逻辑回归的性能不是很好;
• 不能很好地处理大量多类特征或变量;
• 对于非线性特征,需要进行转换;
• 依赖于全部的数据(个人觉得这并不是一个很严重的缺点)。

决策树的优点:
• 直观的决策规则
• 可以处理非线性特征
• 考虑了变量之间的相互作用

决策树的缺点:
• 训练集上的效果高度优于测试集,即过拟合[随机森林克服了此缺点]
• 没有将排名分数作为直接结果

随机森林优点
1、在当前的很多数据集上,相对其他算法有着很大的优势,表现良好
2、它能够处理很高维度(feature很多)的数据,并且不用做特征选择
3、在训练完后,它能够给出哪些feature比较重要
4、 在创建随机森林的时候,对generlization error使用的是无偏估计,模型泛化能力强
5、训练速度快,容易做成并行化方法,训练时树与树之间是相互独立的
6、 在训练过程中,能够检测到feature间的互相影响
7、 实现比较简单
8、 对于不平衡的数据集来说,它可以平衡误差。
1)每棵树都选择部分样本及部分特征,一定程度避免过拟合;
2)每棵树随机选择样本并随机选择特征,使得具有很好的抗噪能力,性能稳定;
对缺失值不敏感,如果有很大一部分的特征遗失,仍可以维持准确度
随机森林有out of bag,不需要单独换分交叉验证集

随机森林缺点:
1) 参数较复杂;
2) 模型训练和预测都比较慢。

SVM的优点:
• 能够处理大型特征空间
• 能够处理非线性特征之间的相互作用
• 无需依赖整个数据

SVM的缺点:
• 当观测样本很多时,效率并不是很高
• 有时候很难找到一个合适的核函数
为此,我试着编写一个简单的工作流,决定应该何时选择这三种算法,流程如下:
• 首当其冲应该选择的就是逻辑回归,如果它的效果不怎么样,那么可以将它的结果作为基准来参考;
• 然后试试决策树(随机森林)是否可以大幅度提升模型性能。即使你并没有把它当做最终模型,你也可以使用随机森林来移除噪声变量;
• 如果特征的数量和观测样本特别多,那么当资源和时间充足时,使用SVM不失为一种选择。

LR逻辑斯蒂回归 — 机器学习面试相关推荐

  1. 逻辑斯蒂回归 逻辑回归_逻辑回归简介

    逻辑斯蒂回归 逻辑回归 Logistic regression is a classification algorithm, which is pretty popular in some commu ...

  2. 瞎聊机器学习——LR(Logistic Regression)逻辑斯蒂回归(一)

    逻辑斯蒂回归是我们在学习以及工作中经常用到的一种分类模型,下面通过本文来讲解一下逻辑斯蒂回归(logistic regression,下文简称LR)的概念.数学推导. 一.逻辑斯蒂回归的概念 首先希望 ...

  3. SKlearn——逻辑斯蒂回归(LR)参数设置

    sklearn-逻辑斯蒂回归 SKlearn--逻辑斯蒂回归(LR) 1. from skearn.linear_model import LogisticRegression 2.其中部分参数设置 ...

  4. 【机器学习】逻辑斯蒂回归(Logistic Regression)详解

    引言 LR回归,虽然这个算法从名字上来看,是回归算法,但其实际上是一个分类算法,学术界也叫它logit regression, maximum-entropy classification (MaxE ...

  5. 【机器学习】逻辑斯蒂回归原理推导与求解

    1.概念 逻辑斯蒂回归又称为"对数几率回归",虽然名字有回归,但是实际上却是一种经典的分类方法,其主要思想是:根据现有数据对分类边界线(Decision Boundary)建立回归 ...

  6. 机器学习笔记之(3)——Logistic回归(逻辑斯蒂回归)

    本博文为逻辑斯特回归的学习笔记.由于仅仅是学习笔记,水平有限,还望广大读者朋友多多赐教. 假设现在有一些数据点,我们用一条直线对这些点进行拟合(该直线称为最佳拟合直线),这个拟合的过程就称为回归. 利 ...

  7. 一文“妙”解逻辑斯蒂回归(LR)算法

    一.前言 在感知器算法中,如下图 如果我们使用一个f(z)=z函数,作为激励函数,那么该模型即为线性回归.而在逻辑斯蒂回归中,我们将会采用f(z)=sigmoid(z) 函数作为激励函数,所以它被称为 ...

  8. 逻辑斯蒂回归_逻辑斯蒂回归详细解析 | 统计学习方法学习笔记 | 数据分析 | 机器学习...

    本文包括: 重要概念 逻辑斯蒂回归和线性回归 二项逻辑斯谛回归模型 逻辑斯蒂回顾与几率 模型参数估计 多项逻辑斯谛回归 其它有关数据分析,机器学习的文章及社群 1.重要概念: 在正式介绍逻辑斯蒂回归模 ...

  9. 【机器学习】逻辑斯蒂回归概率计算和手动计算对比

    二分类,逻辑斯蒂回归概率计算 import numpy as np from sklearn import datasets from sklearn.linear_model import Logi ...

最新文章

  1. UITextView添加占位字符
  2. Linux下快捷键使用
  3. PKCS7填充标准代码--C语言实现
  4. 醒醒,迪卡侬请停止“低调”!
  5. Python基础教程:菱形继承问题
  6. PyCharm中目录directory与包package的区别
  7. Ubuntu16.04怎样安装Python3.6
  8. Linux下mysql新建账号及权限设置
  9. Jmeter+ant运行脚本,得到HTML报告
  10. ACM训练计划(上)
  11. 【英语学习】【WOTD】impetus 释义/词源/示例
  12. MySQL注释(转)
  13. [PyTorch] 基于Python和PyTorch的cifar-10分类
  14. 计算机应用基础实例,计算机应用基础案例教程(Windows 7+Office 2010)
  15. rk3128屏幕占空比参数设置_rk3128 — spdif dts配置
  16. opencv3.2.0实现视频抽帧,并保存成图片
  17. python123.io在线编程,详解Python IO编程
  18. MikroTik RB750r2/RB750gr3 操作记录
  19. Excel不用知道sumifs函数也可以多条件求和
  20. QGIS之十三矢量化电子地图并矩形化

热门文章

  1. 一个数的二进制中有多少个1
  2. 18 PP配置-生产计划-检查 MRP 元素的文本
  3. STL之双向循环链表(List)的内部关系
  4. microsoft excel正在等待其他某个应用程序_如何删除 Mac 储存空间的其他选项?
  5. java secondtotime_Java中的LocalTime toSecondOfDay()方法
  6. 共享可写节包含重定位_深度探索win32可执行文件格式
  7. 安装torch_sparse失败解决方法
  8. Windows手动更新补丁
  9. PyTorch:存储和恢复模型并查看参数,load_state_dict(),state_dict()
  10. 3-1HDFS基本概念