【机器学习-西瓜书】三、逻辑回归(LR);线性判别分析(LDA)
推荐阅读: 逻辑回归(LR);线性判别分析(LDA);类别不平衡(class-imbalance)
3.3对数几率回归(logistic regression,逻辑回归)
关键词:逻辑回归,对数几率回归(logistic regression)
这里先说一下逻辑回归,逻辑斯蒂回归,对数几率回归,其实都是说的一个东西,Logistic Regression。
上一小节讲到,线性模型是让f(x)=wTx+bf(x)=wTx+bf(x)=w^{T}x+b 去逼近y。当考虑让线性模型去逼近y的衍生物,lnylnylny 时,就得到一个对数线性回归模型。那么对数几率回归呢? 让 wTx+bwTx+bw^{T}x+b 去逼近什么呢?那就是让wTx+bwTx+bw^{T}x+b 去逼近一个y的对数几率函数,也就是这个形式:lny1−y=wTx+blny1−y=wTx+bln\frac{y}{1-y}=w^{T}x+b ,其中 y1−yy1−y\frac{y}{1-y}就是几率(odds),反映了x为正样本的可能性。对几率再取对数就得到对数几率 ,那么对数几率回归就是让 wTx+bwTx+bw^{T}x+b去逼近 lny1−ylny1−yln\frac{y}{1-y}。即lny1−y=wTx+blny1−y=wTx+bln\frac{y}{1-y}=w^{T}x+b, 。通常我们不是写成这个形式的,稍微做一下转换,就得到我们熟悉的Logistic Regression的形式:y=11+e−(wTx+b)y=11+e−(wTx+b)y=\frac{1}{1+e^{-(w^{T}x+b)}} 。其实就相当于线性模型的输出加了一个激活函数,这个激活函数就是大名鼎鼎的sigmoid函数,其实也叫做logistic function,所以Logistic Regression中的Logistic是出自 Logistic function,而Logistic function 就是我们常说的sigmoid函数。此函数可以把x映射到(0,1),恰恰符合我们的概率取值。
3.4 线性判别分析(Linear Discriminant Analysis, LDA)
关键词:线性判别分析(LDA),类内散度矩阵,类间散度矩阵,广义瑞利商。
LDA的思想非常朴素:给定训练集,设法找到一个投影,这个投影可将样本投影到一条直线上,使得同类样本的投影点尽可能接近、异类样本的投影点尽可能的远离;对新样本分类时,将新样本投影到此直线上,再依据投影点的位置来确定类别。假设一个二分类问题,LDA投影示意图:
再重复一下,LDA是要找一个投影,这个投影要使得:1. 类内距离要小。 2.异类距离要远。如何量化这两个要求呢?第一个,类内距离,我们可以使用协方差矩阵来衡量,则投影后的类内距离用 wTΣ0wwTΣ0ww^{T}\Sigma _{0}w来衡量,其中 Σ0Σ0\Sigma_{0}是第0类的协方差矩阵(在此仅考虑二分类问题)。第二个,异类距离,可以采用类别中心之差来衡量,即∥∥wTμ0−wTμ1∥∥2‖wTμ0−wTμ1‖2\left \|w^{T}\mu _{0} - w^{T}\mu_{1}\right \|^{2},其中μ0,μ1μ0,μ1\mu_{0},\mu_{1} 分别是第0类和第1类的均值向量。那么我们的目标方程就是:
定义 Sw=Σ0+Σ1Sw=Σ0+Σ1S_{w}=\Sigma_{0}+\Sigma_{1} 为类内散度矩阵(within-class scatter matrix)
Sb=(μ0−μ1)(μ0−μ1)TSb=(μ0−μ1)(μ0−μ1)TS_{b}=(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}为类间散度矩阵(between-class scatter matrix),则目标方程可以改写为maxJ=wTSbwwTSwwmaxJ=wTSbwwTSwwmax J= \frac{w^{T}S_{b}w}{w^{T}S_{w}w},这个J就是 SbSbS_{b}与 SwSwS_{w}的广义瑞利商(generalized Rayleigh quotient)
3.6 类别不平衡问题(imbalance)
关键词:类别不平衡(class-imbalance)。
针对类别不平衡问题,现有技术分为三类做法:
1. 对样本过多的类别进行欠采样(undersampling)
2. 对 样本少的类别进行过采样(oversampling)
3. 直接学习,然后采取阈值移动(threshold-moving)的方法来决策
过采样代表算法:SMOTE(Chawlaet al.2002),欠采样代表算法:EasyEnsemble(Liu et al., 2009)
【机器学习-西瓜书】三、逻辑回归(LR);线性判别分析(LDA)相关推荐
- 数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC...
全文链接:http://tecdat.cn/?p=27384 在本文中,数据包含有关葡萄牙"Vinho Verde"葡萄酒的信息(点击文末"阅读原文"获取完整代 ...
- R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS、KNN、二次判别分析QDA、决策树、随机森林、支持向量机SVM分类优质劣质葡萄酒十折交叉验证和ROC可视化
最近我们被客户要求撰写关于葡萄酒的研究报告,包括一些图形和统计输出. 介绍 数据包含有关葡萄牙"Vinho Verde"葡萄酒的信息.该数据集有1599个观测值和12个变量,分别是 ...
- 周志华-机器学习西瓜书-第三章习题3.3 编程实现对率回归
本文为周志华机器学习西瓜书第三章课后习题3.3答案,编程实现对率回归,数据集为书本第89页的数据 使用tensorflow实现过程 # coding=utf-8 import tensorflow a ...
- 小白学机器学习西瓜书-第三章对数几率回归
小白学机器学习西瓜书-第三章对数几率回归 3.3 对数几率回归 3.3.1 对数几率函数 3.3.1 估计参数 上一部分我们介绍了线性回归,包括简单的二元回归和多元回归,这两个主要解决的是拟合预测的问 ...
- 机器学习实战(四)逻辑回归LR(Logistic Regression)
目录 0. 前言 1. Sigmoid 函数 2. 梯度上升与梯度下降 3. 梯度下降法(Gradient descent) 4. 梯度上升法(Gradient ascent) 5. 梯度下降/上升法 ...
- python机器学习案例系列教程——逻辑分类/逻辑回归LR/一般线性回归(softmax回归)
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 线性函数.线性回归 参考:http://blog.csdn.net/luanpeng825485697/article/details ...
- 【机器学习算法笔记系列】逻辑回归(LR)算法详解和实战
逻辑回归(LR)算法概述 逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法. 逻辑 ...
- 【机器学习】Logistic Regression逻辑回归原理与java实现
[机器学习]Logistic Regression逻辑回归原理与java实现 1.基于概率的机器学习算法 2.逻辑回归算法原理 2.1.分离超平面 2.2.阈值函数 2.3.样本概率 2.4.损失函数 ...
- 机器学习系列(1)_逻辑回归初步
转载自: 机器学习系列(1)_逻辑回归初步 - 寒小阳 - 博客频道 - CSDN.NET http://blog.csdn.net/han_xiaoyang/article/details/4912 ...
- Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”
Coursera公开课笔记: 斯坦福大学机器学习第六课"逻辑回归(Logistic Regression)" 斯坦福大学机器学习第六课"逻辑回归"学习笔记,本次 ...
最新文章
- 神经网络debug太难了,这里有六个实用技巧
- java实现留言版并回复_Java-留言板-回复页面(JSP)
- 对《程序员的自我修养》(龙书)读后思考
- uni-app 引用地图
- 大数据挖掘有哪些技术
- Win10 查看开/关机历史记录、 删除管理员账户密码
- 解决windows7系统netmeeting无法(安装)使用问题
- 2023年天津理工大学中环信息学院专升本机械设计考试大纲
- Chrome网页下载提速小技巧
- 如何解决DNS解析错误故障
- python之捕鱼问题
- 百趣代谢组学分享:HSFB2b通过促进类黄酮生物合成赋予大豆耐盐能力
- Excel表格的密码设置与取消
- CF1367D 构造
- 【OpenCV入门到精通之九】OpenCV之视频截取、图片与视频互转
- Tika结合Tesseract-OCR 实现光学汉字识别(简体、宋体的识别率百分之百)—附Java源码实现及真实测试数据和训练集下载地址...
- session实现用户登陆功能
- php接入Google身份验证器
- 操作Redis客户端工具详解之功能介绍及配置
- csv与json互转_JSON与CSV相互转换