本系列教程特点:

基于《机器学习实战》
尽量避免讲太多数学公式,通过简单直白的方式讲解各算法的原理
对于算法实现的代码进行详细讲解

哪些读者可以食用:

了解机器学习的基本术语
会Python语言

会numpy和pandas库的使用

写在前面

Logistic回归涉及到高等数学,线性代数,概率论,优化问题。本文尽量以最简单易懂的叙述方式,以少讲公式原理,多讲形象化案例为原则,给读者讲懂Logistic回归。如对数学公式过敏,引发不适,后果自负。

Logistic回归原理与推导

Logistic回归中虽然有回归的字样,但该算法是一个分类算法,如图所示,有两类数据(红点和绿点)分布如下,如果需要对两类数据进行分类,我们可以通过一条直线进行划分(w0 * x0 + w1 * x1+w2 * x2)。当新的样本(x1,x2)需要预测时,带入直线函数中,函数值大于0,则为绿色样本(正样本),否则为红样本(负样本)。 推广到高维空间中,我们需要得到一个超平面(在二维是直线,在三维是平面,在n维是n-1的超平面)切分我们的样本数据,实际上也就是求该超平面的W参数,这很类似于回归,所以取名为Logistic回归。

sigmoid函数

当然,我们不直接使用z函数,我们需要把z值转换到区间[0-1]之间,转换的z值就是判断新样本属于正样本的概率大小。我们使用sigmoid函数完成这个转换过程,公式如下。通过观察sigmoid函数图,如图所示,当z值大于0时,σ值大于0.5,当z值小于0时,σ值小于于0.5。利用sigmoid函数,使得Logistic回归本质上是一个基于条件概率的判别模型。


目标函数

其实,我们现在就是求W,如何求W呢,我们先看下图,我们都能看出第二个图的直线切分的最好,换句话说,能让这些样本点离直线越远越好,这样对于新样本的到来,也具有很好的划分,那如何用公式表示并计算这个目标函数呢?

我们把sigmoid公式应用到z函数中:

通过条件概率可推出下面公式,对公式进行整合为一个,见下。

假定样本与样本之间相互独立,那么整个样本集生成的概率即为所有样本生成概率的乘积:

这个公式过于复杂,不太容易求导,这里通过log转换:

这时就需要这个目标函数的值最大,以此求出θ。

梯度上升法

在介绍梯度上升法之前,我们看一个中学知识:求下面函数在x等于多少时,取最大值。

函数图:

解:求f(x)的导数:2x,令其为0,求得x=0时,取最大值为0。但在函数复杂时,求出导数也很难计算函数的极值,这时就需要使用梯度上升法,通过迭代,一步步逼近极值,公式如下,我们顺着导数的方向(梯度)一步步逼近。

利用梯度算法计算该函数的x值:


def f(x_old):
return -2*x_old

def cal():

x_new = -6

x_old = 0 eps = 0.01

while abs(x_new-x_old)>presision:

presision = 0.00001 x_old=x_new

-0.0004892181072978443

x_new=x_old+eps*f(x_old) return x_new


目标函数求解

这里,我们对函数求偏导,得到迭代公式如下:

Logistic回归实践

数据情况

读入数据,并绘图显示:


def loadDataSet():
dataMat = [];labelMat = []
fr = open('数据/Logistic/TestSet.txt')

for line in fr.readlines():

dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])

lineArr = line.strip().split()

return dataMat, labelMat
labelMat.append(int(lineArr[2]))


训练算法

利用梯度迭代公式,计算W:


def sigmoid(inX):
return 1.0/(1 + np.exp(-inX))
def gradAscent(dataMatIn, labelMatIn):

dataMatrix = np.mat(dataMatIn)

labelMat = np.mat(labelMatIn).transpose()

m,n = np.shape(dataMatrix) alpha = 0.001 maxCycles = 500

h = sigmoid(dataMatrix * weights)

weights = np.ones((n,1)) for k in range(maxCycles): error = labelMat - h

return weights
weights = weights + alpha * dataMatrix.transpose() * error

通过计算的weights绘图,查看分类结果:

算法优缺点

  • 优点:易于理解和计算

  • 缺点:精度不高

原文发布时间为:2018-06-23
本文作者:罗罗攀
本文来自云栖社区合作伙伴“Python爱好者社区”,了解相关信息可以关注“Python爱好者社区”。

机器学习实战之Logistic回归相关推荐

  1. logistic回归分析优点_机器学习实战项目-Logistic回归

    Logistic 回归 概述 Logistic 回归虽然名字叫回归,但是它是用来做分类的.其主要思想是: 根据现有数据对分类边界线建立回归公式,以此进行分类. 须知概念 Sigmoid 函数 回归 概 ...

  2. 【Python 机器学习实战】Logistic回归

    引言 假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归. 利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进 ...

  3. 机器学习实战之logistic回归分类

    利用logistic回归进行分类的主要思想:根据现有数据对分类边界建立回归公式,并以此进行分类. logistic优缺点: 优点:计算代价不高,易于理解和实现. 缺点:容易欠拟合,分类精度可能不高. ...

  4. 机器学习实战之Logistic回归(四)从疝气病症状预测病马的死亡率(含数据集)

    Logistic回归(三)从疝气病症状预测病马的死亡率(含数据集) 准备 准备数据:处理数据中的缺失值 训练算法:使用优化算法,找到最佳系数 测试算法:用Logistic回归进行分类 转载请注明作者和 ...

  5. kmeans python interation flag_机器学习经典算法-logistic回归代码详解

    一.算法简要 我们希望有这么一种函数:接受输入然后预测出类别,这样用于分类.这里,用到了数学中的sigmoid函数,sigmoid函数的具体表达式和函数图象如下: 可以较为清楚的看到,当输入的x小于0 ...

  6. python数据分析实战案例logistic_Python机器学习随笔之logistic回归识别手写数字

    编者注:本文用logistic回归来识别多分类问题的手写数字,是之前logisitic回归二分类问题的延续,该篇文章关于其思想以及编程原理见本人之前文章,在这里只注重识别及其编程过程. 01数据准备 ...

  7. 《机器学习实战》 Logistic回归预测患有疝气病的马的存活问题

    <机器学习实战> 实现使用Logistic回归来预测患有疝气病的马的存活问题: 结果截图: 完整代码: # -*- coding: utf-8 -*- # @Time : 2021/6/2 ...

  8. 机器学习实战_09_树回归_源代码错误修正

    <机器学习实战>第9章的树回归运行时频繁出错,这里主要有两点: 1. TypeError: unhashable type: 'matrix' 出错的代码行是: for splitVal ...

  9. 机器学习实战:逻辑回归(2)-从疝气病症预测病马的死亡率

    1.准备数据:处理数据中的缺失值 可选的做法: 使用可用特征的均值来填补缺失值: 使用特殊值来填补缺失值,如-1: 忽略有缺失值的样本: 使用相似样本的均值添补缺失值: 使用另外的机器学习算法预测缺失 ...

最新文章

  1. redis--Sentinel
  2. 【laravel5.4 + TP5.0】hasOne和belongsTo的区别
  3. mysql group where_[MySQL] 测试where group by order by的索引问题
  4. css3弧形跑道效果_【Tableau 图表】你是不是真的需要一个跑道图呢?
  5. ArcGIS地图文档(mxd)过大的问题
  6. 使用struts框架接受http请求过来的get和post数据的方法:
  7. linux根分区inode满了该怎么办,linux inode已满解决方法 新的问题No space left on device...
  8. flutter ios打包_Flutter 的Android 、iOS 打包
  9. 2021年最新版裁判文书逆向
  10. C++实现鼠标左键点击关闭控制台
  11. 这场大雨还没把我浇醒吗?
  12. 表分区的几种类型及操作方法
  13. MysqlWorkbench中无法显示表[tables could not be fetched]
  14. python自学视频与excel_小白也能学习的 python pandas excel 处理[视频]
  15. python获取当前时间的函数_Python日期与时间
  16. 农村房屋买卖带承包耕地协议是否有效
  17. WuThreat身份安全云-TVD每日漏洞情报-2022-12-23
  18. TwinCAT3使用中常见的问题及处理
  19. python pymssql — pymssql模块使用指南
  20. 【工作复盘】2021年1月份工作复盘——2021年1月30日

热门文章

  1. 人生苦短,我用python-- Day6 面向对象
  2. hdu 2069 1 5 10 25 50 这几种硬币 一共100个(母函数)
  3. 移动端如何定义字体font-family
  4. ubuntu下安装ettercap
  5. 在线base64加密解密工具
  6. vim 的ctags,taglist和supertab详解
  7. eclipse工具的使用心得
  8. 数据库 设计中的英文术语
  9. Java Socket实战之六 使用NIO包实现Socket通信
  10. Java Web开发应用中要掌握的一些感念 疯狂JAVA