推荐阅读: 逻辑回归(LR);线性判别分析(LDA);类别不平衡(class-imbalance)

3.3对数几率回归(logistic regression,逻辑回归)

关键词:逻辑回归,对数几率回归(logistic regression)

这里先说一下逻辑回归,逻辑斯蒂回归,对数几率回归,其实都是说的一个东西,Logistic Regression。
上一小节讲到,线性模型是让f(x)=wTx+bf(x)=wTx+bf(x)=w^{T}x+b 去逼近y。当考虑让线性模型去逼近y的衍生物,lnylnylny 时,就得到一个对数线性回归模型。那么对数几率回归呢? 让 wTx+bwTx+bw^{T}x+b 去逼近什么呢?那就是让wTx+bwTx+bw^{T}x+b 去逼近一个y的对数几率函数,也就是这个形式:lny1−y=wTx+blny1−y=wTx+bln\frac{y}{1-y}=w^{T}x+b ,其中 y1−yy1−y\frac{y}{1-y}就是几率(odds),反映了x为正样本的可能性。对几率再取对数就得到对数几率 ,那么对数几率回归就是让 wTx+bwTx+bw^{T}x+b去逼近 lny1−ylny1−yln\frac{y}{1-y}。即lny1−y=wTx+blny1−y=wTx+bln\frac{y}{1-y}=w^{T}x+b, 。通常我们不是写成这个形式的,稍微做一下转换,就得到我们熟悉的Logistic Regression的形式:y=11+e−(wTx+b)y=11+e−(wTx+b)y=\frac{1}{1+e^{-(w^{T}x+b)}} 。其实就相当于线性模型的输出加了一个激活函数,这个激活函数就是大名鼎鼎的sigmoid函数,其实也叫做logistic function,所以Logistic Regression中的Logistic是出自 Logistic function,而Logistic function 就是我们常说的sigmoid函数。此函数可以把x映射到(0,1),恰恰符合我们的概率取值。

3.4 线性判别分析(Linear Discriminant Analysis, LDA)

关键词:线性判别分析(LDA),类内散度矩阵,类间散度矩阵,广义瑞利商。
LDA的思想非常朴素:给定训练集,设法找到一个投影,这个投影可将样本投影到一条直线上,使得同类样本的投影点尽可能接近、异类样本的投影点尽可能的远离;对新样本分类时,将新样本投影到此直线上,再依据投影点的位置来确定类别。假设一个二分类问题,LDA投影示意图:

再重复一下,LDA是要找一个投影,这个投影要使得:1. 类内距离要小。 2.异类距离要远。如何量化这两个要求呢?第一个,类内距离,我们可以使用协方差矩阵来衡量,则投影后的类内距离用 wTΣ0wwTΣ0ww^{T}\Sigma _{0}w来衡量,其中 Σ0Σ0\Sigma_{0}是第0类的协方差矩阵(在此仅考虑二分类问题)。第二个,异类距离,可以采用类别中心之差来衡量,即∥∥wTμ0−wTμ1∥∥2‖wTμ0−wTμ1‖2\left \|w^{T}\mu _{0} - w^{T}\mu_{1}\right \|^{2},其中μ0,μ1μ0,μ1\mu_{0},\mu_{1} 分别是第0类和第1类的均值向量。那么我们的目标方程就是:
定义 Sw=Σ0+Σ1Sw=Σ0+Σ1S_{w}=\Sigma_{0}+\Sigma_{1} 为类内散度矩阵(within-class scatter matrix)
Sb=(μ0−μ1)(μ0−μ1)TSb=(μ0−μ1)(μ0−μ1)TS_{b}=(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}为类间散度矩阵(between-class scatter matrix),则目标方程可以改写为maxJ=wTSbwwTSwwmaxJ=wTSbwwTSwwmax J= \frac{w^{T}S_{b}w}{w^{T}S_{w}w},这个J就是 SbSbS_{b}与 SwSwS_{w}的广义瑞利商(generalized Rayleigh quotient)

3.6 类别不平衡问题(imbalance)

关键词:类别不平衡(class-imbalance)
针对类别不平衡问题,现有技术分为三类做法:
1. 对样本过多的类别进行欠采样(undersampling)
2. 对 样本少的类别进行过采样(oversampling)
3. 直接学习,然后采取阈值移动(threshold-moving)的方法来决策
过采样代表算法:SMOTE(Chawlaet al.2002),欠采样代表算法:EasyEnsemble(Liu et al., 2009)

【机器学习-西瓜书】三、逻辑回归(LR);线性判别分析(LDA)相关推荐

  1. 数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC...

    全文链接:http://tecdat.cn/?p=27384 在本文中,数据包含有关葡萄牙"Vinho Verde"葡萄酒的信息(点击文末"阅读原文"获取完整代 ...

  2. R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS、KNN、二次判别分析QDA、决策树、随机森林、支持向量机SVM分类优质劣质葡萄酒十折交叉验证和ROC可视化

    最近我们被客户要求撰写关于葡萄酒的研究报告,包括一些图形和统计输出. 介绍 数据包含有关葡萄牙"Vinho Verde"葡萄酒的信息.该数据集有1599个观测值和12个变量,分别是 ...

  3. 周志华-机器学习西瓜书-第三章习题3.3 编程实现对率回归

    本文为周志华机器学习西瓜书第三章课后习题3.3答案,编程实现对率回归,数据集为书本第89页的数据 使用tensorflow实现过程 # coding=utf-8 import tensorflow a ...

  4. 小白学机器学习西瓜书-第三章对数几率回归

    小白学机器学习西瓜书-第三章对数几率回归 3.3 对数几率回归 3.3.1 对数几率函数 3.3.1 估计参数 上一部分我们介绍了线性回归,包括简单的二元回归和多元回归,这两个主要解决的是拟合预测的问 ...

  5. 机器学习实战(四)逻辑回归LR(Logistic Regression)

    目录 0. 前言 1. Sigmoid 函数 2. 梯度上升与梯度下降 3. 梯度下降法(Gradient descent) 4. 梯度上升法(Gradient ascent) 5. 梯度下降/上升法 ...

  6. python机器学习案例系列教程——逻辑分类/逻辑回归LR/一般线性回归(softmax回归)

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 线性函数.线性回归 参考:http://blog.csdn.net/luanpeng825485697/article/details ...

  7. 【机器学习算法笔记系列】逻辑回归(LR)算法详解和实战

    逻辑回归(LR)算法概述 逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法. 逻辑 ...

  8. 【机器学习】Logistic Regression逻辑回归原理与java实现

    [机器学习]Logistic Regression逻辑回归原理与java实现 1.基于概率的机器学习算法 2.逻辑回归算法原理 2.1.分离超平面 2.2.阈值函数 2.3.样本概率 2.4.损失函数 ...

  9. 机器学习系列(1)_逻辑回归初步

    转载自: 机器学习系列(1)_逻辑回归初步 - 寒小阳 - 博客频道 - CSDN.NET http://blog.csdn.net/han_xiaoyang/article/details/4912 ...

  10. Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”

    Coursera公开课笔记: 斯坦福大学机器学习第六课"逻辑回归(Logistic Regression)" 斯坦福大学机器学习第六课"逻辑回归"学习笔记,本次 ...

最新文章

  1. 神经网络debug太难了,这里有六个实用技巧
  2. java实现留言版并回复_Java-留言板-回复页面(JSP)
  3. 对《程序员的自我修养》(龙书)读后思考
  4. uni-app 引用地图
  5. 大数据挖掘有哪些技术
  6. Win10 查看开/关机历史记录、 删除管理员账户密码
  7. 解决windows7系统netmeeting无法(安装)使用问题
  8. 2023年天津理工大学中环信息学院专升本机械设计考试大纲
  9. Chrome网页下载提速小技巧
  10. 如何解决DNS解析错误故障
  11. python之捕鱼问题
  12. 百趣代谢组学分享:HSFB2b通过促进类黄酮生物合成赋予大豆耐盐能力
  13. Excel表格的密码设置与取消
  14. CF1367D 构造
  15. 【OpenCV入门到精通之九】OpenCV之视频截取、图片与视频互转
  16. Tika结合Tesseract-OCR 实现光学汉字识别(简体、宋体的识别率百分之百)—附Java源码实现及真实测试数据和训练集下载地址...
  17. session实现用户登陆功能
  18. php接入Google身份验证器
  19. 操作Redis客户端工具详解之功能介绍及配置
  20. csv与json互转_JSON与CSV相互转换

热门文章

  1. Quartus 11.0 的AS 下载方式和JTAG下载jic文件的方式
  2. linux下实现web数据同步的四种方式(性能比较)
  3. 阿里云服务器对外开放tomcat端口访问
  4. BZOJ2209 [Jsoi2011]括号序列 splay
  5. codevs 3981 动态最大子段和
  6. HDU(2255),KM算法,最大权匹配
  7. ActiveXObject
  8. POJ-3264-Balanced Lineup
  9. 厚积薄发-Web安全
  10. 【重识 HTML + CSS】Photoshop 简单使用