转载自:http://blog.csdn.net/marvin521/article/details/9263483

从这节算是开始进入“正规”的机器学习了吧,之所以“正规”因为它开始要建立价值函数(cost function),接着优化价值函数求出权重,然后测试验证。这整套的流程是机器学习必经环节。今天要学习的话题是逻辑回归,逻辑回归也是一种有监督学习方法(supervised machine learning)。逻辑回归一般用来做预测,也可以用来做分类,预测是某个类别^.^!线性回归想比大家都不陌生了,y=kx+b,给定一堆数据点,拟合出k和b的值就行了,下次给定X时,就可以计算出y,这就是回归。而逻辑回归跟这个有点区别,它是一种非线性函数,拟合功能颇为强大,而且它是连续函数,可以对其求导,这点很重要,如果一个函数不可求导,那它在机器学习用起来很麻烦,早期的海维赛德(Heaviside)阶梯函数就因此被sigmoid函数取代,因为可导意味着我们可以很快找到其极值点,这就是优化方法的重要思想之一:利用求导,得到梯度,然后用梯度下降法更新参数。

下面来看看逻辑回归的sigmoid函数,如(图一)所示:

(图一)

(图一)中上图是sigmoid函数在定义域[-5,5] 上的形状,而下图是在定义域[-60,60]上的形状,由这两个图可以看出,它比较适合做二类的回归,因为严重两级分化。Sigmoid函数的如(公式一)所示:

(公式一)

现在有了二类回归函数模型,就可以把特征映射到这个模型上了,而且sigmoid函数的自变量只有一个Z,假设我们的特征为X=[x0,x1,x2…xn]。令

,当给定大批的训练样本特征X时,我们只要找到合适的W=[w0,w1,w2…wn]来正确的把每个样本特征X映射到sigmoid函数的两级上,也就是说正确的完成了类别回归就行了,那么以后来个测试样本,只要和权重相乘后,带入sigmoid函数计算出的值就是预测值啦,很简单是吧。那怎么求权重W呢?

要计算W,就要进入优化求解阶段咯,用的方法是梯度下降法或者随机梯度下降法。说到梯度下降,梯度下降一般对什么求梯度呢?梯度是一个函数上升最快的方向,沿着梯度方向我们可以很快找到极值点。我们找什么极值?仔细想想,当然是找训练模型的误差极值,当模型预测值和训练样本给出的正确值之间的误差和最小时,模型参数就是我们要求的。当然误差最小有可能导致过拟合,这个以后再说。我们先建立模型训练误差价值函数(cost function),如(公式二)所示:

(公式二)

(公式二)中Y表示训练样本真实值,当J(theta)最小时的所得的theta就是我们要求的模型权重,可以看出J(theta)是个凸函数,得到的最小值也是全局最小。对其求导后得出梯度,如(公式三)所示:

(公式三)

由于我们是找极小值,而梯度方向是极大值方向,因此我们取负号,沿着负梯度方向更新参数,如(公式四)所示:

(公式四)

按照(公式四)的参数更新方法,当权重不再变化时,我们就宣称找到了极值点,此时的权重也是我们要求的,整个参数更新示意图如(图二)所示:

(图二)

原理到此为止逻辑回归基本就说完了,下面进入代码实战阶段:

[python] view plaincopy
  1. from numpy import *
  2. def loadDataSet():
  3. dataMat = []; labelMat = []
  4. fr = open('testSet.txt')
  5. for line in fr.readlines():
  6. lineArr = line.strip().split()
  7. dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
  8. labelMat.append(int(lineArr[2]))
  9. return dataMat,labelMat
  10. def sigmoid(inX):
  11. return 1.0/(1+exp(-inX))

上面两个函数分别是加载训练集和定义sigmoid函数,都比较简单。下面发出梯度下降的代码:

[python] view plaincopy
  1. def gradAscent(dataMatIn, classLabels):
  2. dataMatrix = mat(dataMatIn)             #convert to NumPy matrix
  3. labelMat = mat(classLabels).transpose() #convert to NumPy matrix
  4. m,n = shape(dataMatrix)
  5. alpha = 0.001
  6. maxCycles = 500
  7. weights = ones((n,1))
  8. for k in range(maxCycles):              #heavy on matrix operations
  9. h = sigmoid(dataMatrix*weights)     #matrix mult
  10. error = (labelMat - h)              #vector subtraction
  11. weights = weights + alpha * dataMatrix.transpose()* error #matrix mult
  12. return weights

梯度下降输入训练集和对应标签,接着就是迭代跟新参数,计算梯度,然后更新参数,注意倒数第二句就是按照(公式三)和(公式四)来更新参数。

为了直观的看到我们得到的权重是否正确的,我们把权重和样本打印出来,下面是相关打印代码:

[python] view plaincopy
  1. def plotBestFit(weights):
  2. import matplotlib.pyplot as plt
  3. dataMat,labelMat=loadDataSet()
  4. dataArr = array(dataMat)
  5. n = shape(dataArr)[0]
  6. xcord1 = []; ycord1 = []
  7. xcord2 = []; ycord2 = []
  8. for i in range(n):
  9. if int(labelMat[i])== 1:
  10. xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
  11. else:
  12. xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
  13. fig = plt.figure()
  14. ax = fig.add_subplot(111)
  15. ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
  16. ax.scatter(xcord2, ycord2, s=30, c='green')
  17. x = arange(-3.0, 3.0, 0.1)
  18. y = (-weights[0]-weights[1]*x)/weights[2]
  19. ax.plot(x, y)
  20. plt.xlabel('X1'); plt.ylabel('X2');
  21. plt.show()

打印的效果图如(图三)所示:

(图三)

可以看出效果蛮不错的,小错误是难免的,如果训练集没有错误反而危险,说到这基本就说完了,但是考虑到这个方法对少量样本(几百的)还行,在实际中当遇到10亿数量级时,而且特征维数上千时,这种方法很恐怖,光计算梯度就要消耗大量时间,因此要使用随机梯度下降方法。随机梯度下降算法和梯度下降算法原理一样,只是计算梯度不再使用所有样本,而是使用一个或者一小批来计算梯度,这样可以减少计算代价,虽然权重更新的路径很曲折,但最终也会收敛的,如(图四)所示

(图四)

下面也发出随机梯度下降的代码:

[python] view plaincopy
  1. def stocGradAscent1(dataMatrix, classLabels, numIter=150):
  2. m,n = shape(dataMatrix)
  3. weights = ones(n)   #initialize to all ones
  4. for j in range(numIter):
  5. dataIndex = range(m)
  6. for i in range(m):
  7. alpha = 4/(1.0+j+i)+0.0001    #apha decreases with iteration, does not
  8. randIndex = int(random.uniform(0,len(dataIndex)))#go to 0 because of the constant
  9. h = sigmoid(sum(dataMatrix[randIndex]*weights))
  10. error = classLabels[randIndex] - h
  11. weights = weights + alpha * error * dataMatrix[randIndex]
  12. del(dataIndex[randIndex])
  13. return weights

最后也给出一个分类的代码,只要把阈值设为0.5,大于0.5划为一类,小于0.5划为另一类就行了,代码如下:

[python] view plaincopy
  1. def classifyVector(inX, weights):
  2. prob = sigmoid(sum(inX*weights))
  3. if prob > 0.5: return 1.0
  4. else: return 0.0

总结:

优点:计算量不高,容易实现,对现实数据也很容易描述

缺点:很容易欠拟合,精度可能也会不高

参考文献:

[1] machine learning in action. Peter Harrington

[2] machine learning.Andrew Ng

机器学习理论与实战:逻辑回归相关推荐

  1. 机器学习实战-逻辑回归-19

    机器学习实战-逻辑回归-用户流失预测 import numpy as np train_data = np.genfromtxt('Churn-Modelling.csv',delimiter=',' ...

  2. k-近邻算法(KNN)(机器学习理论+python实战)

    k-近邻算法(机器学习理论+python实战) 前言 对于其他分类算法:决策树归纳.贝叶斯分类.基于规则的分类.BP-神经网络分类.支持向量机.基于关联规则挖掘的分类,这些都是给定训练集,然后训练得到 ...

  3. 机器学习理论与实战(九)回归树和模型树

    前一节的回归是一种全局回归模型,它设定了一个模型,不管是线性还是非线性的模型,然后拟合数据得到参数,现实中会有些数据很复杂,肉眼几乎看不出符合那种模型,因此构建全局的模型就有点不合适.这节介绍的树回归 ...

  4. python回归预测例子_案例实战 | 逻辑回归实现客户流失预测(附Python代码与源数据)...

    关注一下~,更多商业数据分析案例等你来撩 前言 利用逻辑回归进行客户流失预警建模中涵盖了许多比较细的知识点,思维导图只展示了极小的一部分,相关知识点链接将穿插在文中.(源数据源代码空降文末获取) 数据 ...

  5. 机器学习代码实战——逻辑回归(Logistic Regression)

    文章目录 1.实验目的 2.导入必要模块并读取数据 3.可视化分析数据 4.数据预处理 5.训练+预测 1.实验目的 (1)对数据进行分析,以找出哪些变量对员工保留有直接和明显的影响(即它们是离开公司 ...

  6. [转载] Pytorch入门实战-----逻辑回归识别手写数据集

    参考链接: 在PyTorch中使用Logistic逻辑回归识别手写数字 定义的网络比较简单,可以自行修改,调一下参数,识别率就会上去了. import torch import torch.nn as ...

  7. Pytorch专题实战——逻辑回归(Logistic Regression)

    文章目录 1.计算流程 2.Pytorch搭建线性逻辑模型 2.1.导入必要模块 2.2.数据准备 2.3.构建模型 2.4.训练+计算准确率 1.计算流程 1)设计模型: Design model ...

  8. 机器学习理论与实战(十四)概率图模型02

    02 概率图模型定义 翻开Jordan和Wainwright著作的书,正文开始(第二章)就说概率图模型的核心就是:分解(factorization).的确是这样的,对于复杂的概率图模型,要在复杂交织的 ...

  9. python相关参考文献_python机器学习理论与实战(六)支持向量机

    上节基本完成了SVM的理论推倒,寻找最大化间隔的目标最终转换成求解拉格朗日乘子变量alpha的求解问题,求出了alpha即可求解出SVM的权重W,有了权重也就有了最大间隔距离,但是其实上节我们有个假设 ...

最新文章

  1. Android面试收集录13 Android虚拟机及编译过程
  2. mysql8.0创建属性,MySQL 8.0新特性 — 管理端口的使用简介
  3. Web安全之文件包含漏洞
  4. 工作实践 之 Google Guava 工具集的使用 ,提高效率
  5. java发送文本邮件_1、java实现发送纯文本邮件
  6. 英雄联盟微信登录服务器怎么回事,英雄联盟微信怎么登陆 lol微信登录功能开放大区一览...
  7. c# 批量mqtt_c# mqtt服务器
  8. 如何优雅的在Vue Project中使用vue-apollo
  9. 高级着色语言HLSL入门(4)
  10. php跳转方式带rere_PHP利用REFERER根居访问来地址进行页面跳转
  11. RCNN数字识别时训练数据集制作
  12. Atitit. 软件设计 模式 变量 方法 命名最佳实践 vp820 attilax总结命名表大全
  13. linux开发 | DM9000网卡驱动
  14. 下一跳配置的原则--ensp
  15. 汇编指令rep stosq
  16. Windows下在MSDos窗口下打开指定目录
  17. amc 美国数学竞赛能用计算机吗,关于AMC美国数学竞赛的QA
  18. Pandas DataFrame切片器的基本操作及应用
  19. ios wifi 定位_iOS开发Wifi 定位原理及iOS Wifi 列表获取
  20. java 像素矩阵_JAVA eclipse 中,已知灰度图像的像素矩阵怎么输出这个图像

热门文章

  1. FFmpeg的编解码(二)
  2. 机器学习人才的职业薪酬也发展
  3. 详解c++[指针的指针] 和 [指针的引用]
  4. RDD的创建 -Scala educoder
  5. 找出你的windows子系统(WSL)的安装位置
  6. 如何求地球上两点之间的最短距离_高三数学这样复习“最高效”,稳稳120+!...
  7. pycharm安装后,找不到Python解释器怎么办
  8. 命令行进入android设置,命令行编译生成APK
  9. 编译技术算符优先分析课设c++_2020年河北省专接本理工类计算机科学与技术软件工程专业考试大纲...
  10. shell while 结束循环_Shell脚本编程2 for循环/while循环