统计学习导论 Chapter4--Classification
Book: An Introduction to Statistical Learning
with Applications in R
http://www-bcf.usc.edu/~gareth/ISL/
这一章主要介绍了一些分类问题,当输出响应变量是 qualitative,例如 eye color is qualitative, taking on values blue, brown, or green.
Often qualitative variables are referred to as categorical
本章主要关注 三个经典的分类方法:logistic regression, linear discriminant analysis, and K-nearest neighbors
4.2 Why Not Linear Regression?
为什么不用线性回归方法来处理分类问题了? 主要是线性回归方法的输出不能和分类问题的类别建立有效的对应关系。
1)当我们改变输出类别的标记数,就会得到不同的线性回归模型,下面两个 Y 就会得到不同的回归模型
2) 如果我们使用 1;2;3 表示三个类别,使用线性回归方法的输出是 100,我们不知道其对应哪个类别
4.3 Logistic Regression
我们该如何对 p(X) = Pr(Y = 1|X) 和 X 这两个变量的关系进行建模了?(这里我们使用 0/1 表示 输出类别),在 Section 4.2 我们说使用一个线性回归模型来表示这些概率:
我们使用这个线性模型得到的结果有时会超出【0~1】的范围,These predictions are not sensible,所以我们需要避免这个问题,我们应该使用一个函数来建模 p(X),其对任何X 的输出都会在 0和1 之间,很多函数都可以满足这个要求。对于logistic regression 来说,我们使用 logistic function
为了拟合上述模型,我们使用 maximum likelihood 方法,后面我们会介绍该方法。
接着介绍了两个概念 odds 和 log-odds or logit
odds:
log-odds or logit:
4.3.2 Estimating the Regression Coefficients
公式(4.2)中的参数 β0 和 β1 是未知的,必须通过训练数据来估计。这里我们介绍 maximum likelihood 方法,最大似然方法用于 logistic regression model 拟合背后的 intuition 是:我们寻找这样的 β0 和 β1,它们能够使得我们观测到每个数据的 predicted probability 尽可能的符合default status。就是对每个观测的数据预测的类别都很接近真值,用估计的 β0 和 β1 对应的模型可能很好的拟合所有的训练数据。这个intuition 可以使用一个似然函数表示 likelihood function
Maximum likelihood 是一种常用的拟合非线性模型的方法,在linear regression setting,least squares 方法可以看作 maximum likelihood 的一个特殊情况。模型的拟合可以通过统计软件包里的相关函数很容易实现,所以我们不需要关注其拟合细节。
4.3.3 Making Predictions
we predict that the default probability for an individual with a balance of $1,000 is
4.3.4 Multiple Logistic Regression
4.3.5 Logistic Regression for > 2 Response Classes
多类别分类我们也可以使用 逻辑回归方法来处理,但是实际中更常用的方法是 Linear Discriminant Analysis,这就是下面我们要介绍的。
11
统计学习导论 Chapter4--Classification相关推荐
- 统计学习导论 - 基于R的应用 学习笔记1
统计学习导论 - 基于R的应用 学习笔记 Chapter 1 导论 统计学习是什么: 关于估计ƒ的一系列方法 Y=f(x)+ξ f:X 提供给 Y 的系统信息,是 x 的函数 ξ:随机误差项:均值为0 ...
- 统计学习圣经!经典教材《统计学习导论》Python版
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 编辑:张倩,来源:机器之心 <统计学习导论>很经典,但习题用 ...
- 经典教材《统计学习导论》现在有了Python版
来源:机器之心 本文约1000字,建议阅读5分钟 <统计学习导论>很经典,但用的是 R 语言,没关系,这里有份 Python 版习题实现. 斯坦福经典教材<The Element o ...
- 赞!经典教材《统计学习导论》终于有Python版了
<统计学习导论>是数据科学家中最受欢迎的书籍之一,旨在介绍机器学习算法背后的概念,但这本书的习题都是用R语言实现的,这对于主要使用 Python 语言的机器学习研究者来说不太友好. 为了解 ...
- 【重磅】Python版《统计学习导论》来啦!附代码链接!
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 <统计学习导论>很经典,但用的是 R 语言,没关系,这里有份 Python 版习题实 ...
- 没有统计学基础可以学python-没错!经典教材《统计学习导论》现在有了 Python版!...
点击关注"Python学习与数据挖掘" 更多超级干货第一时间推送给你哦!!! <统计学习导论>很经典,但用的是 R 语言,没关系,这里有份 Python 版习题实现. ...
- python心得1000字-经典教材《统计学习导论》现在有了Python版
来源:机器之心 本文约1000字,建议阅读5分钟 <统计学习导论>很经典,但用的是 R 语言,没关系,这里有份 Python 版习题实现. 斯坦福经典教材<The Element o ...
- 统计学习导论:基于R应用——第二章习题
目前在看统计学习导论:基于R应用,觉得这本书非常适合入门,打算把课后习题全部做一遍,记录在此博客中. 第二章习题 1. (a) 当样本量n非常大,预测变量数p很小时,这样容易欠拟合,所以一个光滑度更高 ...
- 统计学习导论之R语言应用(四):分类算法R语言代码实战
统计学习导论之R语言应用(ISLR) 参考资料: The Elements of Statistical Learning An Introduction to Statistical Learnin ...
- 统计学习导论之R语言应用(三):线性回归R语言代码实战
统计学习导论(ISLR) 参考资料 The Elements of Statistical Learning An Introduction to Statistical Learning 统计学习导 ...
最新文章
- Java项目:化妆品商城系统(java+Springboot+ssm+mysql+jsp+maven)
- linux下添加路由的方法
- JSX设置CSS样式详解
- 多位博士毕业去了985/211/三四流高校,后来怎么样了?
- 欢迎使用CSDN-markdown编辑器132133
- c++ boost多线程学习(一)
- 爆牙齿的Web标准面试考题II(iPhone SMS/iChat UI的Web标准实现)
- 性能测试用例、策略和方法
- java使用itext开源包实现pdf文件合并,亲测可用,响应速度快的惊人
- Unity 序列化的问题
- redhat linux 中用锐捷客服端实现上网
- 花书笔记2——线性代数 线性组合Ax = b的解 线性相关/线性无关 举例说明 简单易懂
- 女生考华为IE会容易一点吗?女生做网工一般是什么岗位呢?找工作容易吗?需要出差吗?以后怎么发展呢?
- python 控制 窗口 控件_【python】Tkinter可视化窗口(一)
- hp linux 禁用u盘启动不了,笔记本被禁用U盘启动功能的bios设置解除方法
- mysql 校对规则_MySQL:校对规则
- 凸包旋转卡壳(andrew)
- 做电商直播绝不能忽视的事:主播人设和账号定位
- Java实验6 --模拟物流快递系统程序设计
- mac使用zsh终端环境变量配置无效的解决方案
热门文章
- 日期在数据库的存储和取出
- Anaconda 安装 opencv3(Win10)
- Science:产前母体感染促进后代的组织特异性免疫和炎症
- CB:南土所梁玉婷组-细菌群落的高稳定性和代谢能力促进了土壤中易分解碳的快速减少...
- The Innovation | Volume 2 Issue3 正式出版
- PICRUSt2分析实战:16S扩增子OTU或ASV预测宏基因组、新增KEGG层级
- 宏基因组分析第9期(报名直播课免费参加线下2020.10本年最后一期)
- Microbiome:植物根际微生物组也有昼夜节律
- R语言ggplot2可视化分面图(facet_grid)、自定义缩小分面图标签栏的高度、但是不改变标签栏标签文本的大小、通过自定义设置可是胡图像的grobs参数
- R语言使用psych包的fa函数对指定数据集进行因子分析(输入数据为相关性矩阵)、使用rotate参数指定进行斜交旋转提取因子、使用factor.plot函数可视化斜交旋转因子分析、并解读可视化图形